Objectifs généraux
Quelques objectifs spécifiques parmi d'autres
Expliquer les concepts clés du forage de données; Implémenter des algorithmes de motifs fréquents sur des données transactionnelles; Vectoriser des textes pour extraire thèmes et tendances; Détecter les motifs séquentiels et les anomalies dans des données temporelles; Mesurer la qualité des motifs; Identifier les biais et les limites des résultats obtenus; Utiliser les librairies scikit-learn, NetworkX ou Gensim pour la mise en uvre des algorithmes; Construire des pipelines reproductibles de bout en bout; Valider les modèles avec des méthodes d'évaluation adaptées.
Introduction au forage de données : concepts clés, distinction avec l'apprentissage machine, objectifs (exploration, découverte, interprétation), domaines d'application (marketing, santé, finance, fraude) ; Préparation des données : qualité, nettoyage, encodage, transformation, réduction de dimensions (PCA, t-SNE), génération de jeux transactionnels ; Extraction de motifs fréquents : itemsets, support, confiance, algorithmes Apriori et FP-Growth, limites combinatoires, études de cas (paniers d'achat, logs Web) ; Règles d'association : lift, conviction, leverage, filtrage et visualisation interactive ; Fouille de séquences temporelles : algorithmes PrefixSpan et GSP, contraintes temporelles, analyse de comportements ; Séries temporelles et motifs séquentiels : DTW, SAX, shapelets, motifs discordants ; Fouille textuelle : nettoyage, tokenisation, TF-IDF, n-grammes, Word2Vec, classification (k-NN, SVM, Naive Bayes), LDA, analyse de sentiments et d'opinions ; Fouille de graphes : modélisation (nuds, arêtes), centralité (PageRank, betweenness), sous-graphes fréquents, détection de communautés (Louvain, Label Propagation), prédiction de liens ; Forage de données en flux : modèles glissants, Reservoir Sampling, Count-Min Sketch, clustering incrémental (CluStream, DenStream), concept drift, détection de fraudes ; Validation et visualisation : tests de significativité, surapprentissage, métriques (cohérence, nouveauté, utilité), visualisations interactives (graphes, timelines, matrices) ; Reproductibilité et éthique : pipelines Jupyter, Docker, MLflow, documentation, biais, confidentialité, consentement ; Projet final : mise en uvre complète, analyse critique, présentation orale ou vidéo, discussion réflexive.
Préalable(s): (8IAR404)
Formule pédagogique : Cours Magistral
| 6596 | Baccalauréat en développement de jeux vidéo |
| 6710 | Baccalauréat en informatique de la science des données et de l'intelligence d'affaires |
| 7833 | Baccalauréat en informatique |