RING 70 23 26 50 eller send en mail og få uforpligtende informationer om, hvor kurset udbydes, datoer, priser og en status på, om kurset har deltagere nok til at det bliver gennemført.
Udbydes kurset ikke i oversigten til højre, så kontakt os endelig for ny dato.
Kurset gennemgår de centrale elementer i Databricks, så du får styr på Unity Catalog, notebooks, clusters, Spark, Delta Lake, medaljearkitektur, workflows og Delta live tables.
Beskrivelse
Databricks er det førende produkt som enterprise data platform til data transformation, data analyse, data science og ML. Databricks er et selvstændigt firma fra 2013, og det er grundlagt af folkene bag open source teknologiken Apache Spark. Databricks findes kun i cloud, og det udbydes via Microsoft Azure, AWS eller Google Cloud.
På kurset starter vi med at oprette et Databricks Workspace i Azure og konfigurere Unity Catalog. Dernæst dykker vi ned i de essentielle dele, man skal kende til som Data Engineer, når man arbejder med Databricks. Muligheden for at køre serverless har f.eks. gjort det endnu mere attraktivt at anvende Databricks, fordi der er mindre ventetid på at et cluster starter op og er klar.
I dag er data ikke længere kun pænt struktureret information i databaser, som vi kan tilgå med SQL. Vi har brug for andre måder at opbevare og analysere data på, for data kan være lyd, video, billeder og f.eks. json med hierarkisk data. Databricks opfandt det moderne Lakehouse, som giver os det bedste fra to verdener, for det er simpelthen et mix af en datalake og et datawarehouse. Vi kan gemme og opbevare data som filer, og via notebooks med Python/Scala kode, kan vi transformere og klargøre data, så vi får mere struktureret data, der egner sig til et datawarehouse og data analyse. Tabeller i et Lakehouse gemmes via Delta Lake i parquet filer, og hver tabel har en tilhørende transaktionslog. Det betyder vi har syrereglen (ACID), som vi genkender fra database verdenen.
Kurset giver en grundig introduktion til Databricks, og hvad et moderne Lakehouse er. Du får en dybere forståelse af Delta Lake og laver transformationer med en Spark dataframe. Vi tilrettelægger batch load af data, og konfigurerer det som et workflow med en schedule. Dernæst kigger vi på mulighederne for realtids data i Databricks. Structured streaming i kombination med Delta Live Tables er et stærkt værktøj til at håndtere data som f.eks. løbende ankommer som events/filer i blob storage.
Til slut kigger vi på hvilke muligheder Databricks tilbyder i form af et Datawarehouse, sql queries og dashboards med visualiseringer.
Forudsætninger
Vi anbefaler, at du har kendskab til SQL og Python svarende til indholdet på følgende kurser:
Introduction and key concepts and features
Get started with Azure Databricks
Notebooks in Databricks
Data Governance and Unity Catalog
Delta Lake
Apache Spark with focus on PySpark
Data ingestion
Use SQL warehouses in Azure Databricks
Workflows and jobs
Streaming data in Databricks and Delta live tables (DLT)
Forbehold for ændringer efter publisering