(3.0 cr.)

Objectifs généraux

  • S'initier aux méthodes d'apprentissage supervisé et non supervisé.
  • Développer une compréhension critique des algorithmes et de leurs hypothèses.
  • Appliquer des modèles d'apprentissage automatique sur des données réelles en Python.
  • Adopter des pratiques robustes, reproductibles et éthiques en modélisation.

Quelques objectifs spécifiques parmi d'autres

Distinguer les paradigmes d'apprentissage et leurs cas d'usage; Utiliser des méthodes de réduction de dimension et de sélection de variables; Appliquer des techniques de régression, classification et de clustering; Interpréter les modèles via les résidus, les courbes d'apprentissage et l'importance des variables; Comparer les algorithmes selon interprétabilité et robustesse; Prétraiter les données; Construire des pipelines reproductibles avec scikit-learn; Évaluer les modèles avec métriques pertinentes; Optimiser à l'aide des hyperparamètres; Appliquer des méthodes d'interprétabilité; Atténuer les biais algorithmiques.

Apprentissage supervisé vs non supervisé ; Paradigmes et cas d'usage ; Classification et régression (KNN, arbres, SVM, boosting) ; Clustering (K-means, DBSCAN, hiérarchique) ; Réduction de dimension (PCA, t-SNE, UMAP) ; Sélection de variables (RFE, SHAP, importance des variables) ; Prétraitement des données (nettoyage, encodage, normalisation, standardisation) ; Pipelines de transformation (train/test, K-fold, stratification, data leakage) ; Régression linéaire et régularisation (Lasso, Ridge) ; Régression logistique, métriques de performance (MAE, RMSE, R², précision, rappel, F1, ROC-AUC) ; Méthodes à base de voisinage (KNN) ; Arbres de décision et forêts aléatoires (CART, Gini, entropie, bagging) ; Boosting (AdaBoost, Gradient Boosting, XGBoost, CatBoost) ; Optimisation et recherche d'hyperparamètres (GridSearchCV, RandomSearchCV, Optuna, Bayesian Optimization) ; SVM linéaire et non linéaire (kernel trick, RBF) ; Apprentissage semi-supervisé (pseudo-labelling, Label Propagation) ; Détection d'anomalies (Isolation Forest, LOF) ; Interprétabilité (SHAP, LIME, Feature Importance) ; Biais algorithmiques et équité (Fairlearn, Aequitas, Demographic Parity) ; Bonnes pratiques : reproductibilité, robustesse, documentation, éthique ; Projet intégrateur : pipeline complet, évaluation critique, présentation des résultats, communication des conclusions.

Préalable(s): (8PRO409)

Formule pédagogique : Cours Magistral

(03/2026)


Appartenance départementale

Informatique et mathématique

Programmes dans lesquels se trouve ce cours

4810 Certificat en science des données et intelligence d'affaires
6710 Baccalauréat en informatique de la science des données et de l'intelligence d'affaires
7833 Baccalauréat en informatique