(3.0 cr.)

Objectifs généraux

  • Analyser les données massives pour en extraire des informations robustes et fiables.
  • Appliquer les méthodes d'inférence statistique adaptées aux grands volumes de données.
  • Concevoir des pipelines statistiques complets pour l'analyse et la communication des données massives.
  • Quelques objectifs spécifiques parmi d'autres

    Définir les caractéristiques des données massives et les principaux défis statistiques; Détecter des outliers à grande échelle à l'aide de méthodes univariées et multivariées; Évaluer la dépendance entre variables en utilisant des mesures robustes et non linéaires; Mettre en uvre des méthodes de rééchantillonnage pour estimer des paramètres et leurs intervalles de confiance; Développer des modèles de régression multiples et robustes pour modéliser des relations complexes; Évaluer la significativité statistique dans des contextes à tests multiples à l'aide de corrections; Réduire la dimensionnalité des données pour faciliter l'analyse exploratoire; Modéliser des séries temporelles massives pour prévoir et détecter des anomalies.

    Données massives (5V : volume, vélocité, variété, véracité, valeur) ; biais ; bruit ; données manquantes (MCAR, MAR, MNAR) ; outliers (méthodes univariées et multivariées) ; reproductibilité et auditabilité ; statistiques descriptives robustes (médiane, MAD, quantiles tronqués) ; corrélations robustes (biweight, distance correlation) ; dépendances non linéaires (Mutual Information, HSIC) ; distributions lourdes (Pareto, log-normale, lois de puissance) ; estimation de paramètres (MLE, moments) ; rééchantillonnage (bootstrap, jackknife) ; intervalles de confiance ; inférence bayésienne (a priori, vraisemblance, a posteriori) ; outils (PyMC, Stan) ; régression multiple (Ridge, Lasso, RANSAC) ; multicolinéarité (VIF) ; diagnostics de modèles (résidus, leverage) ; ANOVA ; modèles linéaires généralisés (GLM : logistique, Poisson) ; tests multiples (Bonferroni, FDR) ; puissance statistique ; séries temporelles (décomposition, anomalies, ARIMA scalable) ; données catégorielles (Khi², modèles log-linéaires) ; réduction de dimension (ACP incrémentale, randomized SVD, t-SNE, UMAP) ; visualisation de données massives ; imputation multiple (MICE) ; qualité des données ; pipelines statistiques reproductibles ; communication des résultats (rapports, graphiques, visualisations interactives).

    Préalable(s): ((8GEN444) ou (8STT118))

    Formule pédagogique : Cours Magistral

    (03/2026)


    Appartenance départementale

    Informatique et mathématique

    Programmes dans lesquels se trouve ce cours

    4810 Certificat en science des données et intelligence d'affaires
    6710 Baccalauréat en informatique de la science des données et de l'intelligence d'affaires
    6803 Baccalauréat avec majeure en mathématiques appliquées