Big Data & Intelligence Artificielle

Introduction à la Data Science

  

Profil Intervenant(s)
100x100

Docteur en Informatique - Expert Senior - Enseignant-Chercheur
15 ans d'Experience
Spécialités
Applications réparties, Web Services, Architectures Micro Services, Bases de Données avancées, Big Data et IA, J2EE, Technologies Mobiles, JEE, Spring, Hadoop, React, HTML5, XML, DotNet, ...


100x100

Docteur en Informatique - Expert Senior - Enseignant-Chercheur
15 ans d'Experience


Spécialités

Applications réparties, Web Services, Architectures Micro Services, Bases de Données avancées, Big Data et IA, J2EE, Technologies Mobiles, JEE, Spring, Hadoop, React, HTML5, XML, DotNet, ...




      A partir du  11-01-2021 à 10:00



        5 J 

        Formation hybride Cours théorique à distance sur la plateforme youcan-academy.com, et travaux pratiques en présentiel
Inscrivez-vous à la prochaine session

Appelez vos conseillers
06 49 99 11 00
06 64 16 75 10

Objectifs de la formation

L'objectif de cette formation est de donner tous les éléments de base à la création d'un environnement Data Sciences. Une sorte de boîte à outil du spécialiste en Big Data, que ce soit en termes de stockages, de traitement ou encore d'extraction ou de visualisation est proposée aux candidats. ... . Voir Plus

Prérequis


Connaissances certaines en informatique

Principes et concepts de base en Data Science


• Qu’est-ce que la Data Science ✓ Introduction à la science des données • Définitions, terminologie : le vocabulaire de la Data Science • Data Scientist, métier le plus demandée du XXIème siècle • Comprendre le rôle, les compétences et la pensée du data scientist • Vue d’ensemble d’un pr ... Voir Plus

La boîte à outils du Data Scientist


• Panorama des outils open-source et propriétaires du marché • Le langage Python et leur environnement de développement ( Anaconda…) • Travailler avec les notebooks Jupyter • Les principales bibliothèques pour la Data Science : Pandas, NumPy, SciKit-Learn… • Bases de données : SQL, NoSQL, MongoD ... Voir Plus

Obtention et exploration des données


• Importer des données, installer des packages et des bibliothèques • Une première visualisation : identifier les caractéristiques d’un ensemble de données • Quelles sont les données pertinentes ✓ Données opérationnelles • Bonnes pratiques pour contrôler la qualité des données ... Voir Plus

Prétraitement de données


• Comprendre l’importance du processus de pré-traitement des données • Exemple d’un ensemble de données non-structurées • Nettoyer et préparer des ensembles de données • Identifier et gérer les valeurs manquantes ou aberrantes

Feature engineering


•Scaling •Crossing •Sélection des features • Extraction des features • L’analyse en composantes principales (ACP, ou PCA pour Principal Component Analysis)

Analyse et modélisation : Machine Learning


•Modéliser un problème de Data Science : entrées et sorties attendues •Le Machine Learning et les capacités d’apprentissage des machines •Les différentes familles d’algorithmes : supervisé, non-supervisé, semi-supervisé, classification, régression… •L’intuition derrière un modèle d’apprentissage ... Voir Plus

Mise en œuvre des méthodes d’apprentissage supervisé


• Estimation de valeurs : construire un modèle de régression linéaire • Régression non-linéaire, régression logistique • Interpréter les coefficients de régression • Utiliser l’algorithme du gradient (descente de gradient) • Automatiser la labélisation de nouveaux jeux de données • Vue d’ensemb ... Voir Plus

Apprentissage semi-supervisé et non-supervisé, clustering


• Les principaux algorithmes • Partitionnement en k-moyennes • Regroupement hiérarchique • Clustering basé sur la densité

Evaluation et tests des modèles d’apprentissage


• Evaluer et améliorer des modèles : sur-apprentissage, cross-validation… • Métriques et méthodes pour la maintenance des modèles • Pourquoi la performance des modèles d’apprentissage se détériore-t-elle • Ajuster et valider un modèle

Visualisation et restitution : communiquer avec les données


•Transformer des données en décisions • Les principes de la visualisation de données • Outils principaux de dataviz : Tableau Software, QlikSense… • Représentations graphiques de base : histogrammes, boxplots et diagrammes •Visualisation interactive de données • Data storytelling : raconter une ... Voir Plus

Deep Learning


• Qu’est-ce que le Deep Learning • Présentation des réseaux de neurones • Mise en œuvre d’un réseau de neurone from scratch • Utilisation de pytorch et keras : installation et architecture • Le modèle CNN : architecture et TP • Modèle RNN et LSTM : architecture et TP • Les Gans : architecture ... Voir Plus

  Elasticsearch

  BIG Data Hortonworks Architecture et intégration

© Copyright All Rights Reserved 2020 | Developed By : Team Formations++