Big Data Hadoop en Spark Ontwikkelaar - eLearning

450,00 EUR

30 hours

eLearning

Deze Big Data Hadoop Certificatiecursus is ontworpen om je diepgaande kennis te geven van het big data framework met behulp van Hadoop en Spark. In deze praktische big data cursus ga je echte, op de industrie gebaseerde projecten uitvoeren met behulp van Simplilearn's geïntegreerde labs. Vereisten: Het wordt aanbevolen dat je kennis hebt van: - Core - Java SQL

Cursustijdlijn

Introductie tot Big Data en Hadoop
Les 01
- Introductie tot Big Data en Hadoop
- Introductie tot Big Data
- Big Data Analyse
- Wat is Big Data?
- De vier V's van Big Data
- Casestudy Royal Bank of Scotland
- Uitdagingen van traditionele systemen
- Gedistribueerde systemen
- Introductie tot Hadoop
- Onderdelen van het Hadoop Ecosysteem Deel Een
- Onderdelen van het Hadoop Ecosysteem Deel Twee
- Onderdelen van het Hadoop Ecosysteem Deel Drie
- Commerciële Hadoop Distributies
- Demo: Doorlopen van Simplilearn Cloudlab
- Belangrijkste leerpunten
- Kennistoets
Hadoop-architectuur Gedistribueerde Opslag (HDFS) en YARN
Les 02
- Hadoop Architectuur Gedistribueerde Opslag (HDFS) en YARN
- Wat is HDFS
- De noodzaak van HDFS
- Regulier Bestandssysteem vs HDFS
- Kenmerken van HDFS
- HDFS Architectuur en Componenten
- Implementaties van High Availability Clusters
- HDFS Component Bestandssysteem Namespace
- Data Blok Splitsing
- Data Replikatie Topologie
- HDFS Commandoregel
- Demo: Veelgebruikte HDFS Commando's
- Praktijkproject: HDFS Commandoregel
- Yarn Introductie
- Yarn Gebruikscase
- Yarn en zijn Architectuur
- Resource Manager
- Hoe de Resource Manager Werkt
- Application Master
- Hoe Yarn een Applicatie Uitvoert
- Hulpmiddelen voor Yarn Ontwikkelaars
- Demo: Doorloop van Cluster Deel Een
- Demo: Doorloop van Cluster Deel Twee
- Belangrijkste Inzichten Kenniscontrole
- Praktijkproject: Hadoop Architectuur, Gedistribueerde Opslag (HDFS) en Yarn
Data-import in Big Data-systemen en ETL
Les 03
- Gegevensinvoer in Big Data Systemen en ETL
- Overzicht Data-import Deel Een
- Overzicht Data-import Deel Twee
- Apache Sqoop
- Sqoop en het Gebruik
- Sqoop Verwerking
- Sqoop Importproces
- Sqoop Connectoren
- Demo: Importeren en Exporteren van Gegevens van MySQL naar HDFS
- Praktijkproject: Apache Sqoop
- Apache Flume
- Flume Model
- Schaalbaarheid in Flume
- Componenten in Flume's Architectuur
- Flume Componenten Configureren
- Demo: Twitter Gegevens Invoeren
- Apache Kafka Aggregeren van Gebruikersactiviteit met Kafka
- Kafka Gegevensmodel
- Partities
- Apache Kafka Architectuur
- Demo: Opzetten van een Kafka Cluster
- Voorbeeld van API aan de Producentenkant
- API aan de Consumentenkant
- Voorbeeld van API aan de Consumentenkant
- Kafka Connect
- Demo: Creëren van een Voorbeeld Kafka data-pijplijn met Producent en Consument
- Belangrijkste Inzichten
- Kennistoets
- Praktijkproject: Gegevensinvoer in Big Data Systemen en ETL
Gedistribueerde Verwerking MapReduce Framework en Pig
Les 04
- Gedistribueerd Verwerkingsmapreduce Framework en Pig
- Gedistribueerde Verwerking in Mapreduce
- Voorbeeld van Woordentelling
- Uitvoeringsfasen van Map
- Gedistribueerde Uitvoering van Map in Twee-Knoopsomgeving
- Mapreduce Taken
- Interactie van Hadoop Mapreduce Taak Werk
- Opzetten van de Omgeving voor Mapreduce Ontwikkeling
- Set van Klassen
- Een Nieuw Project Creëren
- Geavanceerde Mapreduce
- Gegevenstypen in Hadoop
- Uitvoerformaten in Mapreduce
- Gebruik van Gedistribueerd Cache
- Joins in MapReduce
- Gerepliceerde Join
- Introductie tot Pig
- Componenten van Pig
- Pig Gegevensmodel
- Interactieve Modi van Pig
- Pig Operaties
- Diverse Relaties Uitgevoerd door Ontwikkelaars
- Demo: Analyse van Webloggegevens met Mapreduce
- Demo: Analyse van Verkoopgegevens en Oplossen van KPI's met Pig Praktijkproject: Apache Pig
- Demo: Woordentelling
- Belangrijkste Punten om te Onthouden
- Kenniscontrole
- Praktijkproject: Gedistribueerde Verwerking - Mapreduce Framework en Pig
Apache Hive
Les 05
- Apache Hive
- Hive SQL over Hadoop MapReduce
- Hive Architectuur
- Interfaces om Hive Queries uit te Voeren
- Beeline Uitvoeren vanaf de Commandoregel
- Hive Metastore
- Hive DDL en DML
- Nieuwe Tabel Aanmaken
- Validatie van Gegevenstypen
- Soorten Bestandsindelingen
- Gegevensserialisatie
- Hive Tabel en Avro Schema
- Optimalisatie van Hive: Partitionering, Bucketing en Sampling
- Tabel zonder Partities
- Gegevensinvoer
- Dynamische Partitionering in Hive
- Bucketing
- Wat Doen Buckets?
- Hive Analytische UDF en UDAF
- Andere Functies van Hive
- Demo: Real-time Analyse en Gegevensfiltratie
- Demo: Real-World Probleem
- Demo: Gegevensrepresentatie en Import met Hive
- Belangrijkste Punten om te Onthouden
- Kenniscontrole
- Praktijkproject: Apache Hive
NoSQL-databases HBase
Les 06
- NoSQL-databases HBase
- Introductie tot NoSQL
- Demo: Yarn Tuning
- Overzicht van Hbase
- Architectuur van Hbase
- Gegevensmodel
- Verbinding maken met HBase
- Praktijkproject: HBase Shell
- Belangrijkste inzichten
- Kennistoets
- Praktijkproject: NoSQL-databases - HBase
Basisprincipes van functioneel programmeren en Scala
Les 07
- Basisprincipes van Functioneel Programmeren en Scala
- Introductie tot Scala
- Demo: Installatie van Scala
- Functioneel Programmeren
- Programmeren met Scala
- Demo: Basis Literals en Rekenkundig Programmeren
- Demo: Logische Operatoren
- Type-inferentie, Klassen, Objecten en Functies in Scala
- Demo: Type-inferentie, Functies, Anonieme Functie en Klasse
- Collecties
- Typen Collecties
- Demo: Vijf Typen Collecties
- Demo: Operaties op Lijst Scala REPL
- Demo: Eigenschappen van Scala REPL
- Belangrijkste Inzichten
- Kennistoets
- Praktijkproject: Apache Hive
Apache Spark - Het volgende generatie Big Data-framework
Les 08
- Apache Spark Next-Generation Big Data Framework
- History of Spark
- Limitations of Mapreduce in Hadoop
- Introduction to Apache Spark
- Components of Spark
- Application of In-memory Processing
- Hadoop Ecosystem vs Spark
- Advantages of Spark
- Spark Architecture
- Spark Cluster in Real World
- Demo: Running a Scala Programs in Spark Shell
- Demo: Setting Up Execution Environment in IDE
- Demo: Spark Web UI
- Key Takeaways
- Knowledge Check
- Practice Project: Apache Spark Next-Generation Big Data Framework
Spark Core Verwerking RDD
Les 09
- Introduction to Spark RDD
- RDD in Spark
- Creating Spark RDD
- Pair RDD
- RDD Operations
- Demo: Spark Transformation Detailed Exploration Using Scala Examples
- Demo: Spark Action Detailed Exploration Using Scala
- Caching and Persistence
- Storage Levels
- Lineage and DAG
- Need for DAG
- Debugging in Spark
- Partitioning in Spark
- Scheduling in Spark
- Shuffling in Spark
- Sort Shuffle Aggregating Data With Paired RDD
- Demo: Spark Application With Data Written Back to HDFS and Spark UI
- Demo: Changing Spark Application Parameters
- Demo: Handling Different File Formats
- Demo: Spark RDD With Real-world Application
- Demo: Optimizing Spark Jobs
- Key Takeaways
- Knowledge Check
- Practice Project: Spark Core Processing RDD
Spark SQL Verwerken van DataFrames
De 10
- Spark SQL Processing DataFrames
- Spark SQL Introduction
- Spark SQL Architecture
- Dataframes
- Demo: Handling Various Data Formats
- Demo: Implement Various Dataframe Operations
- Demo: UDF and UDAF
- Interoperating With RDDs
- Demo: Process Dataframe Using SQL Query
- RDD vs Dataframe vs Dataset
- Practice Project: Processing Dataframes
- Key Takeaways
- Knowledge Check
- Practice Project: Spark SQL - Processing Dataframes
Modelleren van BigData met Spark MLib
Les 11
- Spark Mlib Modellering van grote gegevens met Spark
- Rol van Data Scientist en Data Analyst in Big Data
- Analytics in Spark
- Machine Learning
- Begeleid leren
- Demo: Classificatie van Lineaire SVM
- Demo: Lineaire Regressie met praktijkgevallen
- Onbegeleid leren
- Demo: Onbegeleide Clustering K-means
- Versterkend leren
- Semi-begeleid leren
- Overzicht van Mlib
- Mlib Pipelines
- Belangrijkste inzichten
- Kennistoets
- Praktijkproject: Spark Mlib - Modellering van big data met Spark
Streamverwerkingsframeworks en Spark Streaming
Les 12
- Overzicht van Streaming
- Realtime Verwerking van Big Data
- Data Verwerkingsarchitecturen
- Demo: Realtime Gegevensverwerking met Spark Streaming
- Demo: Een Spark Streaming Applicatie Schrijven
- Introductie tot DStreams
- Transformaties op DStreams
- Ontwerppatronen voor het Gebruik van Foreachrdd
- Statusbewerkingen
- Vensterbewerkingen
- Join Bewerkingen Stream-dataset Join
- Demo: Vensterbewerkingen van Realtime Gegevensverwerking Streamingbronnen
- Demo: Verwerking van Twitter Streaminggegevens
- Gestroomlijnde Spark Streaming-
- Gebruiksscenario Banktransacties
- Architectuurmodel en Componenten van Gestroomlijnde Streaming
- Output Sinks
- API's voor Gestroomlijnde Streaming
- Kolommen Construeren in Gestroomlijnde Streaming
- Vensterbewerkingen op Gebeurtenistijd
- Gebruiksscenario's
- Demo: Streaming Pipeline
- Praktijkproject: Spark Streaming
- Belangrijkste Inzichten
- Kennistoets
- Praktijkproject: Streamverwerkingsframeworks en Spark Streaming
Spark GraphX
Les 13
- Spark GraphX
- Introductie tot Grafen
- GraphX in Spark
- GraphX Operatoren
- Join Operatoren
- GraphX Parallel Systeem
- Algoritmen in Spark
- Pregel API
- Gebruikscasus van GraphX
- Demo: GraphX Vertex Predicaat
- Demo: Page Rank Algoritme
- Belangrijkste Inzichten
- Kennistoets
- Praktijkproject: Spark GraphX Projectondersteuning

Eindprojecten Cursus

Project 1: Analyse van historische verzekeringsclaims

Gebruik Hadoop-functies om patronen te voorspellen en bruikbare inzichten te delen voor een autoverzekeringsmaatschappij. Dit project gebruikt gegevens van de New York Stock Exchange van 2010 tot 2016, verzameld van meer dan 500 genoteerde bedrijven. De dataset bestaat uit de intradagkoersen en het verhandelde volume van elk genoteerd bedrijf. De gegevens worden gebruikt in zowel machine learning als verkennende analyseprojecten met als doel het handelsproces te automatiseren en de winnaars of verliezers van de volgende handelsdag te voorspellen. De reikwijdte van dit project is beperkt tot verkennende gegevensanalyse.

Project 2: Medewerkersbeoordeling van commentaaranalyse

Het HR-team is op sociale media aan het zoeken naar feedback en sentimenten van huidige en voormalige werknemers. Deze informatie zal worden gebruikt om bruikbare inzichten te verkrijgen en corrigerende maatregelen te nemen om de relatie tussen werkgever en werknemer te verbeteren. De gegevens zijn via web scraping verzameld van Glassdoor en bevatten gedetailleerde beoordelingen van 67K werknemers van Google, Amazon, Facebook, Apple, Microsoft en Netflix.

Project 3: K-Means Clustering voor het domein van telecommunicatie

LoudAcre Mobile is een mobiele telefoondienstverlener die een nieuwe open netwerkcampagne heeft gelanceerd. Als onderdeel van deze campagne heeft het bedrijf gebruikers uitgenodigd om te klagen over mobiele telefoonnetwerktorens in hun gebied als ze verbindingsproblemen ervaren met hun huidige mobiele netwerk. LoudAcre heeft de dataset verzameld van gebruikers die hebben geklaagd.

Project 4: Marktanalyse in de banksector

Onze klant, een Portugese bankinstelling, voerde een marketingcampagne om potentiële klanten te overtuigen te investeren in een promotie voor termijndeposito's. De verkooppraatjes van de campagne werden via telefoontjes geleverd. Vaak werd dezelfde klant echter meer dan eens gecontacteerd. U moet de marketinganalyse van de gegevens uitgevoerd door deze campagne uitvoeren, met in gedachten de overbodige telefoontjes.

Leerresultaten

In deze Big Data Hadoop en Spark Developer Cursus leert u:

Hadoop-ecosysteem

Leer hoe je door het Hadoop-ecosysteem kunt navigeren en begrijp hoe je het gebruik ervan kunt optimaliseren

Data importeren

Gegevens importeren met Sqoop, Flume en Kafka.

Hive

Implementeer partitionering, bucketing en indexering in Hive

Apache Spark

Werken met RDD in Apache Spark

Datastreaming

Verwerk real-time streaminggegevens en voer DataFrame-operaties uit in Spark met behulp van SQL-query's

Implementatie

Implementeer door de gebruiker gedefinieerde functies (UDF) en door de gebruiker gedefinieerde attribuutfuncties (UDAF) in Spark

Big Hadoop en Spark Developer - eLearning

Doelgroep en Vereisten

Doelgroep

Analyseprofessionals
Senior IT-professionals
Test- en mainframeprofessionals
Data management professionals
Professionals in bedrijfsintelligentie
Projectmanagers
Afgestudeerden die een carrière in big data-analyse willen beginnen

Vereisten:

Het wordt aanbevolen dat u kennis heeft van:

Kern
Java SQL

Heb je en zakelijke oplossing of LMS-integratie nodig?

Heb je niet de cursus of het programma gevonden dat geschikt zou zijn voor jouw bedrijf? Heb je een LMS-integratie nodig? Neem contact met ons op! Wij zullen met een passende oplossing komen!

;