Data Analyse Pig, Hive et Spark
- Référence GKDAPHS
- Durée 3 jour(s)
Modalité pédagogique
Options de paiement complémentaires
-
GTC 33 TTC
Les GTC sont proposés en exclusivité aux partenaires autorisés afin de gagner du temps et de fluidifier le processus d'achat des formations chez Global Knowledge. Il s’agit d’un crédit universel qui peut être utilisé dans les centres Global Knowledge à travers le monde.
Classe inter en présentiel Prix
EUR2,290.00
hors TVA
Demander une formation en intra-entreprise S'inscrireAller à:
Modalité pédagogique
La formation est disponible dans les formats suivants:
-
Classe inter à distance
Depuis n'importe quelle salle équipée d'une connexion internet, rejoignez la classe de formation délivrée en inter-entreprises.
-
Classe inter en présentiel
Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.
-
Intra-entreprise
Cette formation est délivrable en groupe privé, et adaptable selon les besoins de l’entreprise. Nous consulter.
Demander cette formation dans un format différent
Résumé
Haut de pageElle leur permettra de développer des compétences en analyse de données en se focalisant sur Pig, Hive et Spark.
Mise à jour : 26.01.2023
Prochaines dates
Haut de pagePublic
Haut de pageObjectifs de la formation
Haut de page- Comprendre ce que sont Hadoop et YARN
- Pouvoir manipuler des données sous Hadoop
- Savoir manipuler les données PIG
- Savoir analyser les données avec HIVE
Programme détaillé
Haut de page- Introduction au Big Data - Comprendre les concepts clés et les enjeux du Big Data
- Introduction à Hadoop – Principales distributions de Hadoop
- La plateforme Hadoop
Architecture et composants de la plateforme Hadoop
- HDFS
- NameNode / DataNode / RessourceManager
- Paradigme MapReduce et YARN
- Les technologies émergentes
Traitement des données avec Pig
- Description et caractéristiques de Pig : Présentation Pig, Différence entre Pig et MapReduce, Cas d’utilisation de Pig
- Traitement des données : Modélisation des données, Programmation avec Pig Latin, Transformations dans la syntaxe Pig Latin, Fonctions de chargement et de stockage
- Travaux pratiques
Requêtage des données avec Hive
- Description et caractéristiques de Hive
- Utilisation de Hcatalog
- Analyse des données avec Hive
- Management des données Hive : Formats de données Hive, Création des bases de données et des tableaux de management, Tableaux auto-managés, Simplification des requêtes avec Views, Stockage des résultats de requêtes, Contrôle ‘accès aux données
- Traitement de texte avec Hive : Fonctions String, Utilisation des expressions habituelles dans Hive
Apache Spark SQL
- Présentation générale
- Caractéristiques – Architecture
- Les bases de Spark
- DataFrame et DataSets
- Les RDD
- Le SQL Contexte
- Opérations sur le DataFrames et les DataSets
- Comparaison entre Spark SQL et Hive
Pré-requis
Haut de pageAvoir des connaissances sur les systèmes d’information, les bases de données et les concepts de programmation.
Bon à savoir
Haut de pageSupport de cours remis aux participants.
- #000000