Programme & Référentiel
L’écosystème Python scientifique
• Présentation des packages Python de data science.
• Installation de bibliothèques en environnement virtuel: pip et le module venv, miniconda, mamba, miniforge, WinPython.
• Environnement de développement.
• Utiliser les environnements IPython, Jupyter Notebook, JupyterLab, IDE : l'exemple de Spyder.
• Découvrir l’éditeur de texte : VS Code.
La bibliothèque NumPy
• Introduction et création de tableaux.
• Présentation de la librairie NumPy.
• Avantages des tableaux (performance, manipulation des données).
• Création de tableaux avec array(), zeros(), ones(), full(), arange(), linspace(), logspace().
• Multiplication matricielle avec np.dot et l'opérateur @.
• Initialisation avec des données aléatoires (module random).
• Manipuler des tableaux et opérations.
• Indexation, slicing, et indexation avancée.
• Transposer et changer de dimensions de tableaux (transpose(), reshape()).
• Concaténer et découper des tableaux (concatenate(), split()).
• Manipuler les fonctions classiques et mathématiques (sum(), min(), max(), median().
• Comparer et masquer des données avec des masques booléens.
• Gestion des données et visualisation.
• Charger et sauvegarder des tableaux (loadtxt(), save(), load()).
• Utiliser l'option axis dans les fonctions.
• Extraire les informations des données.
• Utiliser les pratiques de visualisation : choix des modules et types de graphiques.
• Générer de graphiques interactifs.
La bibliothèque Pandas
• Introduction et structures de données.
• Présentation de la bibliothèque Pandas.
• Création de séries avec la classe series.
• Création de tableaux 2D ou DataFrame avec la classe DataFrame.
• Extraction des indices de ligne et de colonne (attributs index et columns).
• Lire et exporter des données dans différents formats (csv, xls).
• Mettre en œuvre les méthodes de base : head() et tail().
• Indexation et slicing : implicite, explicite, et utilisation des indexeurs loc et iloc.
• Sélectionner des données et utiliser des expressions booléennes.
• Manipulation et transformation des données.
• Insérer et modifier des données.
• Renommer des colonnes avec rename().
• Concaténer des données avec concat() et fusion/jointure avec merge() et join().
• Copier des données : copie superficielle ou profonde (copy()).
• Traiter des données manquantes (isna(), isnull(), notna(), notnull(), dropna(), fillna(), interpolate()).
• Manipuler des indices : set_index(), sort_index().
• Trier les valeurs avec sort_values().
• Transposer des données avec transpose().
Analyse et agrégation des données
• Agrégation des données : sum(), cumsum(), min(), max(), count(), mean(), median(), var(), std(), quantile(), describe()
• Groupement et analyse avec groupby().
• Utiliser des fonctions aggregate(), apply(), filter(), transform().
• Créer de tableaux croisés dynamiques avec pivot_table().
• Segmenter les données avec qcut() et cut().
Pour plus d'informations : https://www.orsys.fr/formation/pys