Databricks Data Engineer kursus. Få styr på Unity Catalog, notebooks, clusters, Spark, Delta Lake, medaljearkitektur, workflows og Delta live tables. 14400 kr. + moms

Kort navn:

Varighed:

RING 70 23 26 50 eller send en mail og få uforpligtende informationer om, hvor kurset udbydes, datoer, priser og en status på, om kurset har deltagere nok til at det bliver gennemført.

Udbydes kurset ikke i oversigten til højre, så kontakt os endelig for ny dato.

Kurset gennemgår de centrale elementer i Databricks, så du får styr på Unity Catalog, notebooks, clusters, Spark, Delta Lake, medaljearkitektur, workflows og Delta live tables.

Beskrivelse

Databricks er det førende produkt som enterprise data platform til data transformation, data analyse, data science og ML. Databricks er et selvstændigt firma fra 2013, og det er grundlagt af folkene bag open source teknologiken Apache Spark. Databricks findes kun i cloud, og det udbydes via Microsoft Azure, AWS eller Google Cloud.

På kurset starter vi med at oprette et Databricks Workspace i Azure og konfigurere Unity Catalog. Dernæst dykker vi ned i de essentielle dele, man skal kende til som Data Engineer, når man arbejder med Databricks. Muligheden for at køre serverless har f.eks. gjort det endnu mere attraktivt at anvende Databricks, fordi der er mindre ventetid på at et cluster starter op og er klar.

I dag er data ikke længere kun pænt struktureret information i databaser, som vi kan tilgå med SQL. Vi har brug for andre måder at opbevare og analysere data på, for data kan være lyd, video, billeder og f.eks. json med hierarkisk data. Databricks opfandt det moderne Lakehouse, som giver os det bedste fra to verdener, for det er simpelthen et mix af en datalake og et datawarehouse. Vi kan gemme og opbevare data som filer, og via notebooks med Python/Scala kode, kan vi transformere og klargøre data, så vi får mere struktureret data, der egner sig til et datawarehouse og data analyse. Tabeller i et Lakehouse gemmes via Delta Lake i parquet filer, og hver tabel har en tilhørende transaktionslog. Det betyder vi har syrereglen (ACID), som vi genkender fra database verdenen.

Kurset giver en grundig introduktion til Databricks, og hvad et moderne Lakehouse er. Du får en dybere forståelse af Delta Lake og laver transformationer med en Spark dataframe. Vi tilrettelægger batch load af data, og konfigurerer det som et workflow med en schedule. Dernæst kigger vi på mulighederne for realtids data i Databricks. Structured streaming i kombination med Delta Live Tables er et stærkt værktøj til at håndtere data som f.eks. løbende ankommer som events/filer i blob storage.

Til slut kigger vi på hvilke muligheder Databricks tilbyder i form af et Datawarehouse, sql queries og dashboards med visualiseringer.

Forudsætninger

Vi anbefaler, at du har kendskab til SQL og Python svarende til indholdet på følgende kurser:

Modul 1

Introduction and key concepts and features

Introduction
Data lake vs Lakehouse
What is Databricks?
What is Spark?
Cloud Provider (Microsoft Azure, AWS, Google Cloud)

Modul 2

Get started with Azure Databricks

Deployment of Azure Databricks workspace
Creating a Databricks cluster
Serverless clusters

Modul 3

Notebooks in Databricks

Creating and using notebooks
Mix SQL, Scala and Python in your code cells
Load and explore data

Modul 4

Data Governance and Unity Catalog

Understanding Data Governance
Unity catalog
Securable objects and privileges
Lakehouse Federation
Catalog Explorer/browsing Unity Catalog
Data lineage
Entity relationships

Modul 5

Delta Lake

ACID, Databases, table level transactions and data in files
What is Delta lake?
Data versioning and time travel in Delta Lake
VACUUM
OPTIMIZE
Liquid Clustering
Predictive Optimization

Modul 6

Apache Spark with focus on PySpark

Spark
Data transformation with a Spark dataframe

Modul 7

Data ingestion

CTAS, COPY INTO
Schemas, Schema Enforcement
Schema Evolution
Fetching data from various sources (e.g. Azure Data lake, AWS etc)
Connecting to a database (Azure SQL or other)

Modul 8

Use SQL warehouses in Azure Databricks

Get started with SQL warehouses in Databricks
Create a SQL warehouse/cluster
Serverless SQL warehouses
Create schemas and tables
Visualize data
Create queries and dashboards
Connect Databricks with external tools e.g. Power BI

Modul 9

Workflows and jobs

Orchestrate and schedule workflows in Databricks
Tasks
Job clusters/serverless compute
Schedule
Notifications
Monitor in the job UI

Modul 10

Streaming data in Databricks and Delta live tables (DLT)

Structured streaming in Databricks
Ingest data with structured streaming
Autoloader
Handle late data and out-of-order events in incremental processing
What is DLT?
Streaming tables, materialized views, views
Medaillon architecture
Check constraints, Quality constraints, warn, drop, fail
Pipeline SQL syntax
Pipeline Python syntax
Monitor DLT, Eventlog

Forbehold for ændringer efter publisering

Kursusdatoer