Big Data & Intelligence Artificielle

Apache SPARK

  

Profil Intervenant(s)
100x100

Docteur en Informatique - Expert Senior - Enseignant-Chercheur
15 ans d'Experience
Spécialités
Applications réparties, Web Services, Architectures Micro Services, Bases de Données avancées, Big Data et IA, J2EE, Technologies Mobiles, JEE, Spring, Hadoop, React, HTML5, XML, DotNet, ...


100x100

Docteur en Informatique - Expert Senior - Enseignant-Chercheur
15 ans d'Experience


Spécialités

Applications réparties, Web Services, Architectures Micro Services, Bases de Données avancées, Big Data et IA, J2EE, Technologies Mobiles, JEE, Spring, Hadoop, React, HTML5, XML, DotNet, ...




      A partir du  18-01-2021 à 10:00



        5 J 

        Formation hybride Cours théorique à distance sur la plateforme youcan-academy.com, et travaux pratiques en présentiel
Inscrivez-vous à la prochaine session

Appelez vos conseillers
06 49 99 11 00
06 64 16 75 10

Objectifs de la formation

Objectif

Prérequis


Prérequis

Le Big Data


• Définition du périmètre du Big Data. • Les concepts de base des projets Big Data. • Le rôle du projet Hadoop.

Comprendre Hadoop


• Hadoop et une brève histoire du Big Data • Ecosystème Hadoop • Présentation de HDFS • Présentation de YARN • Introduction à MapReduce2 • Vue d’ensemble de MapReduce _ Mappers _ Reducers _ Drivers _ Configuration d’un Job _ Exécution d’une tache _ Contrôle d’un Job ... Voir Plus

Spark


• Présentation d'Apache Spark • Historique du Framework. • Les différentes versions de Spark (Scala, Python et Java). • Comparaison avec l'environnement Apache Hadoop. • Les différents modules de Spark. • La Programmation fonctionnelle au sein de Spark _ Travaux pratiques Installation et conf ... Voir Plus

Programmer avec les Resilient Distributed Dataset (RDD)


• Presentation des RDD. • Créer, manipuler et réutiliser des RDD. • Les opérations générales • Les opérations Math/Statistical • Les opérations Relational • Les opérations Data Structure • Accumulators et variables broadcastées. • Utilizer des partitions. • Agrégation des données avec les pa ... Voir Plus

Exécution distribuée


• Spark en exécution sur un cluster • Partition des RDD • Partition des RDD basés sur des fichiers • “Data Locality” sur HDFS • Exécution des opérations en parallèle _ Travaux pratiques Mise en place d’un cluster spark et manipulation des données a grande échelle

Manipuler des données structurées avec Spark SQL


• SQL, DataFrames et Datasets. • Les différents types de sources de données. • Interopérabilité avec les RDD. • Performance de Spark SQL. • Apache Spark SQL et le SQL Context • Création des Dataframes • Transformer et requêter un Dataframe • Persister un Dataframe • Dataframes et RDD _ Trav ... Voir Plus

SPARK STREAMING


• Structured Streaming API • StreamingContext • Static et Dynamic Datasets • Continuous Aggregations • Encoders • Analyse temps-réel d’un fichier de log (Real-Time Analytics) • Gagner en efficacité grâce à Catalyst Optimizer et Tungsten Engine • Création d’agents, de sources, channel et si ... Voir Plus

Administration de Spark (les bases)


• Configuration Spark • Administration de Spark Standalone • Administration de Spark sur YARN • Explorer l'interface utilisateur de l'application Spark • Serveur d'historique Spark • Sécuriser la communication Spark • Surveillance de l'étincelle • Spark Metrics • Amélioration des performance ... Voir Plus

  Elasticsearch

  BIG Data Hortonworks Architecture et intégration

© Copyright All Rights Reserved 2020 | Developed By : Team Formations++