Skip to main Content

Data Analyse Pig, Hive et Spark

  • Référence GKDAPHS
  • Durée 3 jour(s)

Options de paiement complémentaires

  • GTC 33 TTC

    Les GTC sont proposés en exclusivité aux partenaires autorisés afin de gagner du temps et de fluidifier le processus d'achat des formations chez Global Knowledge. Il s’agit d’un crédit universel qui peut être utilisé dans les centres Global Knowledge à travers le monde.

Intra-entreprise Prix

Nous contacter

Demander une formation en intra-entreprise S'inscrire

Modalité pédagogique

La formation est disponible dans les formats suivants:

  • Classe inter à distance

    Depuis n'importe quelle salle équipée d'une connexion internet, rejoignez la classe de formation délivrée en inter-entreprises.

  • Classe inter en présentiel

    Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.

  • Intra-entreprise

    Cette formation est délivrable en groupe privé, et adaptable selon les besoins de l’entreprise. Nous consulter.

Demander cette formation dans un format différent

Cette formation permet aux participants d'acquérir les compétences et connaissances nécessaires pour utiliser les outils permettant de traiter et d’analyser des données sur Hadoop.

Elle leur permettra de développer des compétences en analyse de données en se focalisant sur Pig, Hive et Spark.

Mise à jour : 26.01.2023

Prochaines dates

Haut de page
Cette formation s'adresse à toute personne souhaitant manipuler et analyser des données dans un système Hadoop.

Objectifs de la formation

Haut de page
  • Comprendre ce que sont Hadoop et YARN
  • Pouvoir manipuler des données sous Hadoop
  • Savoir manipuler les données PIG
  • Savoir analyser les données avec HIVE

Programme détaillé

Haut de page
Introduction
  • Introduction au Big Data - Comprendre les concepts clés et les enjeux du Big Data
  • Introduction à Hadoop – Principales distributions de Hadoop
  • La plateforme Hadoop

Architecture et composants de la plateforme Hadoop

  • HDFS
  • NameNode / DataNode / RessourceManager
  • Paradigme MapReduce et YARN
  • Les technologies émergentes

Traitement des données avec Pig

  • Description et caractéristiques de Pig : Présentation Pig, Différence entre Pig et MapReduce, Cas d’utilisation de Pig
  • Traitement des données : Modélisation des données, Programmation avec Pig Latin, Transformations dans la syntaxe Pig Latin, Fonctions de chargement et de stockage
  • Travaux pratiques

Requêtage des données avec Hive

  • Description et caractéristiques de Hive
  • Utilisation de Hcatalog
  • Analyse des données avec Hive
  • Management des données Hive : Formats de données Hive, Création des bases de données et des tableaux de management, Tableaux auto-managés, Simplification des requêtes avec Views, Stockage des résultats de requêtes, Contrôle ‘accès aux données
  • Traitement de texte avec Hive : Fonctions String, Utilisation des expressions habituelles dans Hive

Apache Spark SQL

  • Présentation générale
  • Caractéristiques – Architecture
  • Les bases de Spark
  • DataFrame et DataSets
  • Les RDD
  • Le SQL Contexte
  • Opérations sur le DataFrames et les DataSets
  • Comparaison entre Spark SQL et Hive 

Pré-requis

Haut de page

Avoir des connaissances sur les systèmes d’information, les bases de données et les concepts de programmation.

Bon à savoir

Haut de page

Support de cours remis aux participants.

Cookie Control toggle icon