Formation Professionnelle Apprentissage
Présentiel
Apprentissage envisageable

Type

Catégorie de la certification

Certification inscrite au Répertoire Spécifique (RS)

Niveau de sortie

Niveau reconnu si applicable

N/C

Prix

Indiqué par l'établissement

9 950 €

Présentation

Un taux de réussite à l'examen supérieur à 90% grâce à l'accompagnement personnalisé de la part d'enseignants issus du monde académique et du monde de l'entreprise.

Formation dispensée en Présentiel à l'adresse suivante :

Localisation & Rattachements

Adresse
5 avenue Henry le Chatelier 91120 Palaiseau
Académie
Versailles
Département
Essonne
Région
Île-de-France
Université
Institut polytechnique de Paris - établissement expérimental (0912403T)

La carte est indicative. Vérifiez l’accès avant votre déplacement.

Objectifs

Le Data Scientist est à la croisée de plusieurs métiers. Il doit posséder un large champ de compétences : en mathématiques, en statistiques, en modélisation, en analyse de données mais aussi bien entendu en informatique afin d'implémenter les modèles. De plus, il connaît la fonction d'application des données analysées. Ce certificat répond au besoin d'ingénieurs expérimentés en mathématiques appliquées ou en informatique d'évolution vers la fonction de data scientist. Il met en lumière les outils algorithmiques et les techniques liés à la data science afin d'être capable ensuite de mettre en place, au sein de son organisation, une stratégie data répondant à une problématique précise. A l'issue de la certification, les apprenants sauront : * Effectuer des requêtes dans une base de données afin de récupérer des données et d'assurer leur traitement * Extraire du contenu de sites Web via des API (web scraping) dans le but de le transformer pour permettre sont utilisation dans un autre contexte * Mettre en oeuvre les principaux outils de Big data * Modéliser des données à l'aide de l'apprentissage automatique (machine learning) à des fins de prévision puis choisir la méthode la plus adaptée aux données et au problème traité * Déployer une chaîne complète de traitements : du recueil des données à la mise en production et à la mise à disposition via une API * Mettre en oeuvre des méthodes d'analyse factorielle et de classification non-supervisée pour réduire la dimension * Développer une application web pour présenter des résultats * Analyser des textes et les classer * Analyser des communautés via l'analyse de graphes

Débouchés / Résultats attendus

Pour obtenir le certificat, le candidat doit d'une part réussir un examen d'une durée de 4h et d'autre part soutenir, avec succès, un projet. L'examen consiste en la résolution d'une étude de cas sur des données réelles. Elle porte sur les principaux modules du certificat et couvre notamment les aspects qualification des données, analyse exploratoire des données, mise en place de modules de prévision et rédaction d'un rapport. Cet examen ne vise pas à valider l'apprentissage et la mémorisation des points théoriques étudiés en cours. Il valide essentiellement les capacités d'analyse des candidats, la pertinence du choix des outils et méthodes utilisés pour résoudre des problématiques concrètes de data science, leur capacité à interpréter les résultats obtenus et le cas échéant à les critiquer ainsi que la rigueur méthodologique déployée et la qualité du code développé. En complément de l'étude de cas, chaque candidat effectue pendant toute la durée du cursus de formation un projet, en groupe généralement composé de trois membres. Ce projet permet de mettre en pratique, sur un cas réel, les fondamentaux enseignés. L'après-midi de l'examen pratique, chaque groupe soutient son projet face au jury.

Programme & Référentiel

Module 1 : Python et les bases de données (3 jours) : Python et SQL - Python et introduction au NoSQL - webscrapping et pipeline de traitements Module 2 : Machine Learning (3 jours) : MCO et régression pénalisées - Régression logistique - Arbres et random forest Module 3 : Machine Learning avancé et visualisation (3 jours) : Méthodes d'agrégation : gradient boosting - Support Vector Machines (SVM) - Visualisation - Cloud Computing - Projet tutoré Module 4 : Réduction de dimension et pipeline de traitements (3 jours) : Clustering et analyse factorielle : ACP, AFC, ACM - Pipeline de traitements Python - Datacamp - Projet tutoré Module 5 : Deep Learning et Text Mining (3 jours) : Réseaux de neurones denses, réseaux de neurones convolutifs - Autres architectures de Deep Learning - Introduction au NLP : Sac et nuages de mots, analyse de thèmes, vectorisation - Projet tutoré Module 6 : Big Data Processing avec Spark (3 jours) : L'écosystème Apache Hadoop - Distribution du stockage et du calcul - SQL avec Hadoop - Passage à l'échelle - Droit et éthique de la donnée - Projet tutoré