(3.0 cr.)

Objectifs généraux

  • S'initier aux principes et aux tâches clés du forage de données.
  • Maîtriser les techniques avancées de forage de données.
  • Appliquer les techniques avancées de forage de données à des jeux de données réels avec des outils professionnels.
  • Développer une analyse critique et éthique dans l'usage des techniques avancées de forage de données.

Quelques objectifs spécifiques parmi d'autres

Expliquer les concepts clés du forage de données; Implémenter des algorithmes de motifs fréquents sur des données transactionnelles; Vectoriser des textes pour extraire thèmes et tendances; Détecter les motifs séquentiels et les anomalies dans des données temporelles; Mesurer la qualité des motifs; Identifier les biais et les limites des résultats obtenus; Utiliser les librairies scikit-learn, NetworkX ou Gensim pour la mise en uvre des algorithmes; Construire des pipelines reproductibles de bout en bout; Valider les modèles avec des méthodes d'évaluation adaptées.

Introduction au forage de données : concepts clés, distinction avec l'apprentissage machine, objectifs (exploration, découverte, interprétation), domaines d'application (marketing, santé, finance, fraude) ; Préparation des données : qualité, nettoyage, encodage, transformation, réduction de dimensions (PCA, t-SNE), génération de jeux transactionnels ; Extraction de motifs fréquents : itemsets, support, confiance, algorithmes Apriori et FP-Growth, limites combinatoires, études de cas (paniers d'achat, logs Web) ; Règles d'association : lift, conviction, leverage, filtrage et visualisation interactive ; Fouille de séquences temporelles : algorithmes PrefixSpan et GSP, contraintes temporelles, analyse de comportements ; Séries temporelles et motifs séquentiels : DTW, SAX, shapelets, motifs discordants ; Fouille textuelle : nettoyage, tokenisation, TF-IDF, n-grammes, Word2Vec, classification (k-NN, SVM, Naive Bayes), LDA, analyse de sentiments et d'opinions ; Fouille de graphes : modélisation (nuds, arêtes), centralité (PageRank, betweenness), sous-graphes fréquents, détection de communautés (Louvain, Label Propagation), prédiction de liens ; Forage de données en flux : modèles glissants, Reservoir Sampling, Count-Min Sketch, clustering incrémental (CluStream, DenStream), concept drift, détection de fraudes ; Validation et visualisation : tests de significativité, surapprentissage, métriques (cohérence, nouveauté, utilité), visualisations interactives (graphes, timelines, matrices) ; Reproductibilité et éthique : pipelines Jupyter, Docker, MLflow, documentation, biais, confidentialité, consentement ; Projet final : mise en uvre complète, analyse critique, présentation orale ou vidéo, discussion réflexive.

Préalable(s): (8IAR404)

Formule pédagogique : Cours Magistral

(02/2026)


Appartenance départementale

Informatique et mathématique

Programmes dans lesquels se trouve ce cours

6596 Baccalauréat en développement de jeux vidéo
6710 Baccalauréat en informatique de la science des données et de l'intelligence d'affaires
7833 Baccalauréat en informatique