PySpark Einführung

Dauer
Ausführung
Vor Ort, Online
Startdatum und Ort

PySpark Einführung

GFU Cyrus AG
Logo von GFU Cyrus AG
Bewertung: starstarstarstarstar_border 7,9 Bildungsangebote von GFU Cyrus AG haben eine durchschnittliche Bewertung von 7,9 (aus 13 Bewertungen)

Tipp: Haben Sie Fragen? Für weitere Details einfach auf "Kostenlose Informationen" klicken.

Startdaten und Startorte
computer Online: Zoom
19. Feb 2026 bis 20. Feb 2026
check_circle Garantierte Durchführung
placeKöln
28. Mai 2026 bis 29. Mai 2026
computer Online: Zoom
28. Mai 2026 bis 29. Mai 2026
placeKöln
27. Aug 2026 bis 28. Aug 2026
computer Online: Zoom
27. Aug 2026 bis 28. Aug 2026
placeKöln
26. Nov 2026 bis 27. Nov 2026
computer Online: Zoom
26. Nov 2026 bis 27. Nov 2026
Beschreibung

Schulungen der Extraklasse ✔ Durchführungsgarantie ✔ Trainer aus der Praxis ✔ Kostenfreies Storno ✔ 3=2 Kostenfreie Teilnahme für den Dritten ✔ Persönliche Lernumgebung ✔ Kleine Lerngruppen

Seminarziel

Die Teilnehmer entwickeln ein umfassendes Verständnis der PySpark-Architektur und Einsatzmöglichkeiten. Sie lernen die verschiedenen Komponenten kennen und können deren Nutzen für ihre spezifischen Datenverarbeitungsanforderungen einschätzen. Das Seminar vermittelt zudem Best Practices für die Planung von PySpark-Projekten.

Inhalt

  • Grundlagen von PySpark
    • Einführung  in die Architektur von Apache Spark und die Rolle von PySpark:  Überblick der Komponenten (Spark Core, SQL, Streaming, MLlib) und deren  Integration mit Python. Vergleich mit anderen Big-Data-Technologien wie Pandas und Dask.
    • Entwicklungsumgebungen  für PySpark: Jupyter Notebooks, Zeppelin und IDEs (PyCharm, VS Code)…

Gesamte Beschreibung lesen

Frequently asked questions

Es wurden noch keine FAQ hinterlegt. Falls Sie Fragen haben oder Unterstützung benötigen, kontaktieren Sie unseren Kundenservice. Wir helfen gerne weiter!

Noch nicht den perfekten Kurs gefunden? Verwandte Themen: Apache Spark, Apache Webserver, Data Mining, Hadoop und RabbitMQ.

Schulungen der Extraklasse ✔ Durchführungsgarantie ✔ Trainer aus der Praxis ✔ Kostenfreies Storno ✔ 3=2 Kostenfreie Teilnahme für den Dritten ✔ Persönliche Lernumgebung ✔ Kleine Lerngruppen

Seminarziel

Die Teilnehmer entwickeln ein umfassendes Verständnis der PySpark-Architektur und Einsatzmöglichkeiten. Sie lernen die verschiedenen Komponenten kennen und können deren Nutzen für ihre spezifischen Datenverarbeitungsanforderungen einschätzen. Das Seminar vermittelt zudem Best Practices für die Planung von PySpark-Projekten.

Inhalt

  • Grundlagen von PySpark
    • Einführung  in die Architektur von Apache Spark und die Rolle von PySpark:  Überblick der Komponenten (Spark Core, SQL, Streaming, MLlib) und deren  Integration mit Python. Vergleich mit anderen Big-Data-Technologien wie Pandas und Dask.
    • Entwicklungsumgebungen  für PySpark: Jupyter Notebooks, Zeppelin und IDEs (PyCharm, VS Code)  mit PySpark-Integration. Besonderheiten bei der lokalen Entwicklung und  Cluster-Umgebungen.
    • Lizenzierung  und Kosten: Open-Source-Aspekte von Spark, kommerzielle Distributionen  (Databricks, Cloudera) und Cloud-Anbieter-Integration (AWS EMR, Azure  Databricks).
  • Datenverarbeitung mit DataFrames
    • DataFrame-Konzept:  Vergleich mit Pandas DataFrames und relationalen Datenbanktabellen.  Vor- und Nachteile der verteilten Verarbeitung.
    • Datenimport/Export:  Arbeiten mit verschiedenen Datenquellen (CSV, JSON, Parquet, JDBC) in  PySpark. Performance-Optimierungen bei großen Datensätzen.
    • Grundlegende  Transformationen: Filterung, Aggregation, Joins und Fensterfunktionen  in PySpark. Unterschiede zu SQL-Implementierungen.
  • Spark-SQL Integration
    • SQL-Syntax  in PySpark: Nutzung von Spark-SQL für Data Scientists mit  SQL-Hintergrund. Abfragen auf registrierten Tabellen und temporären  Views.
    • UDFs (User Defined Functions): Erstellung und Nutzung von Python-Funktionen in Spark-SQL. Performance-Aspekte und Alternativen.
    • Katalogzugriff: Metadatenmanagement und Schema-Integration zwischen PySpark und Hive Metastore.
  • Performance-Optimierung
    • Ausführungsmodell verstehen: Spark-Execution-Pläne interpretieren und optimieren. Rolle der Catalyst-Optimierung.
    • Partitionierungsstrategien: Best Practices für physische Datenverteilung. Auswirkung auf Join- und Aggregationsoperationen.
    • Caching-Persistenz: Strategien für die Zwischenspeicherung von häufig genutzten DataFrames. Speicherlevel und Trade-Offs.
  • Datenvisualisierung
    • Integration mit Python-Visualisierungsbibliotheken: Nutzung von Matplotlib, Seaborn und Plotly mit PySpark-DataFrames.
    • Einschränkungen und Workarounds: Umgang mit Visualisierungen bei großen Datensätzen (Sampling, Aggregation).
    • Dashboard-Integration: Exportmöglichkeiten für BI-Tools (Tableau, Power BI) und Webanwendungen.
  • Machine Learning mit PySpark MLlib
    • Pipeline-Konzept: Aufbau von ML-Workflows mit PySpark. Vergleich mit scikit-learn.
    • Feature-Engineering: Nutzung der integrierten Transformationen für Datenvorbereitung.
    • Modelltraining und -evaluation: Implementierung und Bewertung von Algorithmen für Klassifikation, Regression und Clustering.
  • Streaming-Datenverarbeitung
    • Strukturiertes Streaming: Grundkonzepte der Echtzeitdatenverarbeitung mit PySpark. Vergleich mit Batch-Verarbeitung.
    • Quellen und Senken: Integration mit Kafka, Dateisystemen und Datenbanken.
    • Event-Time-Verarbeitung: Umgang mit verzögerten Daten und Fensteroperationen.
  • Praxisübung: End-to-End-Datenpipeline
    • Teilnehmer  implementieren eine komplette Datenverarbeitungspipeline von der  Datenextraktion über Transformationen bis zur Analyse und  Visualisierung.

Werden Sie über neue Bewertungen benachrichtigt
Es wurden noch keine Bewertungen geschrieben.
Schreiben Sie eine Bewertung
Haben Sie Erfahrung mit diesem Kurs? Schreiben Sie jetzt eine Bewertung und helfen Sie Anderen dabei die richtige Weiterbildung zu wählen. Als Dankeschön spenden wir € 1,00 an Stiftung Edukans.

Es wurden noch keine FAQ hinterlegt. Falls Sie Fragen haben oder Unterstützung benötigen, kontaktieren Sie unseren Kundenservice. Wir helfen gerne weiter!

Bitte füllen Sie das Formular so vollständig wie möglich aus

(optional)
(optional)
(optional)
(optional)
(optional)
(optional)
(optional)

Haben Sie noch Fragen?

(optional)

Anmeldung für Newsletter

Damit Ihnen per E-Mail oder Telefon weitergeholfen werden kann, speichern wir Ihre Daten.
Mehr Informationen dazu finden Sie in unseren Datenschutzbestimmungen.