Henter data ...

Databricks Data Engineer kursus. Få styr på Unity Catalog, notebooks, clusters, Spark, Delta Lake, medaljearkitektur, workflows og Delta live tables. 14400 kr. + moms

Kort navn:

Varighed:


RING 70 23 26 50 eller send en mail og få uforpligtende informationer om, hvor kurset udbydes, datoer, priser og en status på, om kurset har deltagere nok til at det bliver gennemført.

Udbydes kurset ikke i oversigten til højre, så kontakt os endelig for ny dato.


Kurset gennemgår de centrale elementer i Databricks, så du får styr på Unity Catalog, notebooks, clusters, Spark, Delta Lake, medaljearkitektur, workflows og Delta live tables.

 

   

Beskrivelse

Databricks er det førende produkt som enterprise data platform til data transformation, data analyse, data science og ML. Databricks er et selvstændigt firma fra 2013, og det er grundlagt af folkene bag open source teknologiken Apache Spark. Databricks findes kun i cloud, og det udbydes via Microsoft Azure, AWS eller Google Cloud.

På kurset starter vi med at oprette et Databricks Workspace i Azure og konfigurere Unity Catalog. Dernæst dykker vi ned i de essentielle dele, man skal kende til som Data Engineer, når man arbejder med Databricks. Muligheden for at køre serverless har f.eks. gjort det endnu mere attraktivt at anvende Databricks, fordi der er mindre ventetid på at et cluster starter op og er klar.


I dag er data ikke længere kun pænt struktureret information i databaser, som vi kan tilgå med SQL. Vi har brug for andre måder at opbevare og analysere data på, for data kan være lyd, video, billeder og f.eks. json med hierarkisk data. Databricks opfandt det moderne Lakehouse, som giver os det bedste fra to verdener, for det er simpelthen et mix af en datalake og et datawarehouse. Vi kan gemme og opbevare data som filer, og via notebooks med Python/Scala kode, kan vi transformere og klargøre data, så vi får mere struktureret data, der egner sig til et datawarehouse og data analyse. Tabeller i et Lakehouse gemmes via Delta Lake i parquet filer, og hver tabel har en tilhørende transaktionslog. Det betyder vi har syrereglen (ACID), som vi genkender fra database verdenen.


Kurset giver en grundig introduktion til Databricks, og hvad et moderne Lakehouse er. Du får en dybere forståelse af Delta Lake og laver transformationer med en Spark dataframe. Vi tilrettelægger batch load af data, og konfigurerer det som et workflow med en schedule. Dernæst kigger vi på mulighederne for realtids data i Databricks. Structured streaming i kombination med Delta Live Tables er et stærkt værktøj til at håndtere data som f.eks. løbende ankommer som events/filer i blob storage.

Til slut kigger vi på hvilke muligheder Databricks tilbyder i form af et Datawarehouse, sql queries og dashboards med visualiseringer.


Forudsætninger

Vi anbefaler, at du har kendskab til SQL og Python svarende til indholdet på følgende kurser:

 

  • Modul 1

Introduction and key concepts and features

    •  
      • Introduction   
      • Data lake vs Lakehouse
      • What is Databricks?
      • What is Spark?
      • Cloud Provider (Microsoft Azure, AWS, Google Cloud)
  • Modul 2

Get started with Azure Databricks

    •  
      • Deployment of Azure Databricks workspace
      • Creating a Databricks cluster
      • Serverless clusters
  • Modul 3

Notebooks in Databricks

    •  
      • Creating and using notebooks
      • Mix SQL, Scala and Python in your code cells
      • Load and explore data
  • Modul 4

Data Governance and Unity Catalog

    •  
      • Understanding Data Governance
      • Unity catalog
      • Securable objects and privileges
      • Lakehouse Federation
      • Catalog Explorer/browsing Unity Catalog
      • Data lineage
      • Entity relationships
  • Modul 5

Delta Lake

    •  
      • ACID, Databases, table level transactions and data in files
      • What is Delta lake?
      • Data versioning and time travel in Delta Lake
      • VACUUM
      • OPTIMIZE
      • Liquid Clustering
      • Predictive Optimization
  • Modul 6

Apache Spark with focus on PySpark

    •  
      • Spark
      • Data transformation with a Spark dataframe
  • Modul 7

Data ingestion

    •  
      • CTAS, COPY INTO
      • Schemas, Schema Enforcement
      • Schema Evolution
      • Fetching data from various sources (e.g. Azure Data lake, AWS etc)
      • Connecting to a database (Azure SQL or other)
  • Modul 8

Use SQL warehouses in Azure Databricks

    •  
      • Get started with SQL warehouses in Databricks
      • Create a SQL warehouse/cluster
      • Serverless SQL warehouses
      • Create schemas and tables
      • Visualize data   
      • Create queries and dashboards
      • Connect Databricks with external tools e.g. Power BI
  • Modul 9

Workflows and jobs

    •  
      • Orchestrate and schedule workflows in Databricks
      • Tasks
      • Job clusters/serverless compute
      • Schedule
      • Notifications
      • Monitor in the job UI
  • Modul 10

Streaming data in Databricks and Delta live tables (DLT)

    •  
      • Structured streaming in Databricks
      • Ingest data with structured streaming
      • Autoloader
      • Handle late data and out-of-order events in incremental processing
      • What is DLT?
      • Streaming tables, materialized views, views
      • Medaillon architecture
      • Check constraints, Quality constraints, warn, drop, fail
      • Pipeline SQL syntax
      • Pipeline Python syntax
      • Monitor DLT, Eventlog

      Forbehold for ændringer efter publisering

    Kursusdatoer