• Informatique / Bureautique / Big data / Cybersécurité

Ingénierie de la fouille et de la visualisation de données massives

Ingénierie de la fouille et de la visualisation de données massives
Unité d'enseignement

Détails

Infos générales

Code
RCP216

Présentation

Objectifs

Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.

Intitulé officiel

Ingénierie de la fouille et de la visualisation de données massives

Conditions d'accès

Pré-requis

Formation(s) requise(s)

Aucun prérequis.

Programme

Contenu de la formation

1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
            a. Recherche par similarité, systèmes de recommandation
            b. Classification automatique
            c. Fouille de données textuelles
            d. Fouille de flux de données
            e. Apprentissage supervisé à large échelle
            f. Fouille et visualisation de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Aspects éthiques dans la fouille de données

Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour le travail sur le projet les auditeurs peuvent utiliser le JupyterHub du Cnam.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de http://cedric.cnam.fr/vertigo/Cours/RCP216/

Unités d'enseignement

  • Ingénierie de la fouille et de la visualisation de données massives
    À distance / Partiellement à distance Octobre à Février 50 heures 6 crédits

Organisation

Durée et organisation

L'année est organisée en 2 semestres : semestre 1 (S1) d'octobre à février/mars et semestre 2 (S2) de février/mars à juin.
 

Méthodes mobilisées

Pédagogie qui combine apports académiques, études de cas basées sur des pratiques professionnelles et expérience des élèves.
Équipe pédagogique constituée pour partie de professionnels. Un espace numérique de formation (ENF) est utilisé tout au long du cursus.
 

Modalités d'évaluation

Chaque unité (UE/US, UA) fait l'objet d'une évaluation organisée en accord avec l'Établissement public (certificateur) dans le cadre d'un règlement national des examens.
 

Accessibilité public en situation de handicap

Nos formations sont accessibles aux publics en situation de handicap. Un référent Cnam est dédié à l'accompagnement de toute personne en situation de handicap. Pour contacter le référent : handi@cnam-paysdelaloire.fr

Modalités d'inscription

Comment s'inscrire ?

Choisissez votre semestre et cliquez sur "Ajouter à ma sélection".
 

Modalités et délais d'accès

Les inscriptions se déroulent dès le mois de mai pour les formations qui débutent en octobre (semestre 1) et dès novembre pour les formations qui débutent en février/mars (semestre 2).