Objectifs généraux
Quelques objectifs spécifiques parmi d'autres
Définir les caractéristiques des données massives et les principaux défis statistiques; Détecter des outliers à grande échelle à l'aide de méthodes univariées et multivariées; Évaluer la dépendance entre variables en utilisant des mesures robustes et non linéaires; Mettre en uvre des méthodes de rééchantillonnage pour estimer des paramètres et leurs intervalles de confiance; Développer des modèles de régression multiples et robustes pour modéliser des relations complexes; Évaluer la significativité statistique dans des contextes à tests multiples à l'aide de corrections; Réduire la dimensionnalité des données pour faciliter l'analyse exploratoire; Modéliser des séries temporelles massives pour prévoir et détecter des anomalies.
Données massives (5V : volume, vélocité, variété, véracité, valeur) ; biais ; bruit ; données manquantes (MCAR, MAR, MNAR) ; outliers (méthodes univariées et multivariées) ; reproductibilité et auditabilité ; statistiques descriptives robustes (médiane, MAD, quantiles tronqués) ; corrélations robustes (biweight, distance correlation) ; dépendances non linéaires (Mutual Information, HSIC) ; distributions lourdes (Pareto, log-normale, lois de puissance) ; estimation de paramètres (MLE, moments) ; rééchantillonnage (bootstrap, jackknife) ; intervalles de confiance ; inférence bayésienne (a priori, vraisemblance, a posteriori) ; outils (PyMC, Stan) ; régression multiple (Ridge, Lasso, RANSAC) ; multicolinéarité (VIF) ; diagnostics de modèles (résidus, leverage) ; ANOVA ; modèles linéaires généralisés (GLM : logistique, Poisson) ; tests multiples (Bonferroni, FDR) ; puissance statistique ; séries temporelles (décomposition, anomalies, ARIMA scalable) ; données catégorielles (Khi², modèles log-linéaires) ; réduction de dimension (ACP incrémentale, randomized SVD, t-SNE, UMAP) ; visualisation de données massives ; imputation multiple (MICE) ; qualité des données ; pipelines statistiques reproductibles ; communication des résultats (rapports, graphiques, visualisations interactives).
Préalable(s): ((8GEN444) ou (8STT118))
Formule pédagogique : Cours Magistral
| 4810 | Certificat en science des données et intelligence d'affaires |
| 6710 | Baccalauréat en informatique de la science des données et de l'intelligence d'affaires |
| 6803 | Baccalauréat avec majeure en mathématiques appliquées |