EGC 2007 - Aperçu de la conférence

Entête - Vue de Namur

La conférence

Participation

Le programme

Soumissions

Infos pratiques

Liens

Namur

Tutoriels

1. Gestion et fouille de flux de données

Intervenants :

- Fabrice Clérot, France Telecom R&D Lannion
- Baptiste Csernel, France Telecom R&D Lannion et ENST Paris
- Georges Hébrail, EDF R&D et ENST Paris

De nombreux travaux américains récents ont porté depuis le début des années 2000 sur le traitement des flux de données. En effet, de plus en plus de sources de données sont disponibles sous la forme d'un flux continu d'un volume tel qu'il n'est plus possible d'envisager de stocker physiquement ces données avant de, soit leur adresser des requêtes, soit leur appliquer des méthodes de fouille. Les premières applications ont porté sur le monitoring des réseaux informatiques mais s'étendent aujourd'hui à de nombreux domaines : les télécommunications, le web, le domaine bancaire, les données issues de capteurs (trafic routier, météorologie, consommation électrique, ...).

L'objectif du tutoriel est de présenter à la communauté d'EGC une synthèse des principaux travaux réalisés autour de la gestion et de la fouille des flux de données. Cette présentation abordera les sujets suivants : - Introduction générale à la problématique des flux de données - Requêtes sur flux de données et Systèmes de Gestion de Flux de Données - Approches de fouille de flux de données - Structures de résumés de flux de données - Travaux en cours et perspectives de recherche

Eléments de bibliographie :

- B.Babcock, S.Babu, M.Datar, R.Motwani, J.Widom. Models and Issues in Data Stream Systems. In ACM Principles of Database Systems, 2002.
- G.Cormode, M.Garofalakis. Streaming in a connected world: querying and tracking distributed data streams, Tutorial in VLDB, 2006.
- M.Garofalakis, J.Gehrke, R.Rastogi. Querying and Mining Data Streams: You Only Get One Look. Tutorial in ACM Int. Conf. on Management of Data, 2002.
- V.Goebel, T.Plagemann. Data STREAM Management Systems - Applications, Concepts, and Systems, University of Oslo. Tutorial MIPS 2004.
- L.Golab et M.T.Özsu, Issues in Data STREAM Management. SIGMOD Record, Vol. 32, No. 2, June 2003.
- S.Muthukrishnan. Data streams: algorithms and applications. Foundations and Trends in Theoretical Computer Science, Vol.1, Issue 2, Août 2005.

2. Fusion d’informations pour la classification

Intervenant :

- Arnaud Martin, ENSIETA Brest

La fusion d'informations est apparue afin de gérer des quantités très importantes de données multisources. Depuis quelques années des méthodes de fusion ont été adaptées et développées pour des applications en traitement du signal et plus particulièrement pour la classification. Plusieurs sens sont donnés à la fusion d'informations, nous reprenons ici la définition proposée par (Bloch 2003) : La fusion d'informations consiste à combiner des informations issues de plusieurs sources afin d'aider à la prise de décision.

Nous ne cherchons pas ici à réduire les redondances contenues dans les informations issues de plusieurs sources, mais au contraire à en tenir compte afin d'améliorer la prise de décision. De même nous cherchons à modéliser au mieux les différentes imperfections des données (imprécisions, incertitudes, conflit, ambiguïté, incomplétude, fiabilité des sources, ...) non pas pour les supprimer, mais encore pour l'aide à la décision.

Dans de nombreuses applications nous sommes confrontés à un grand nombre de données imparfaites ce qui pose souvent problème pour les classifier. La fusion d’informations selon l’architecture retenue permet soit de combiner ces données (le plus souvent ce sont des données ou paramètres issus de capteurs ou méthodes d’extraction différents) en vu de les classifier, soit de les classifier séparément selon les possibilités qu’offrent le classifieur retenu, pour ensuite les fusionner. Ces deux approches ont des difficultés d’application différentes selon les données. Si la première nécessite souvent une modélisation fine des imperfections des données et donc une connaissance approfondie de chaque donnée ou paramètre, la seconde est bien souvent la plus simple à mettre en oeuvre. En effet, la réponse des classifieurs s’exprime souvent soit comme un nombre (que l’on peut ramener entre 0 et 1) soit comme la classe attribuée (réponse symbolique). Les classifieurs sont alors perçu comme différentes sources d’informations dont les imperfections sont facilement établies. Les approches de fusion d’informations présentées dans ce cours s’appliquent alors simplement.

Les méthodes présentées ici sont particulièrement bien adaptées à la classification - et c’est dans ce sens qu’elles sont présentées - mais elles peuvent être employées dans un cadre plus général d’aide à la décision.

Plan

Le cours proposé suit le plan d’un cours dispensé en dernière année de la formation des ingénieurs de l’ENSIETA (Martin 2005).

1. Introduction à la fusion d’informations Nous tenterons de répondre à la question : Qu’est que la fusion d’informations ? Nous présentons la typologie de la fusion : les différents niveaux de fusion et les imperfections de l’information dont il faut tenir compte.

2. Méthodes du vote Les méthodes de vote sont certainement les plus simples, mais pas si inefficaces. Elles permettent de plus d’établir des résultats théoriques sur l’efficacité de la fusion d’informations.

3. Approches probabilistes Nous présentons les approches bayésiennes en insistant sur ses avantages et limites.

4. Théorie des fonctions croyances Issue de la combinaison de Dempster-Shafer, elle offre une grande capacité de modélisation des imperfections (par des modèles probabilistes (Appriou 2002) ou de distances (Denoeux 1995)). Elle tient compte également des ambiguïtés et des conflits entre les sources.

5. Théorie des possibilités Issue de la théorie des ensembles flous, la théorie des possibilités (Dubois et Prade 1987) propose une modélisation de l’imprécision et de l’incertitude et offre un grand choix d’opérateurs de combinaison ce qui en fait sa richesse.

Références

- Appriou, A. (2002), Discrimination multisignal par la théorie de l’évidence in Décision et Reconnaissance des formes en signal, éd. Hermes, 2002.
- Bloch, I. (2003), Fusion d’informations en traitement du signal et des images, Lavoisier (eds), Hermes Science Publication, 2003.
- Denoeux, T. (1995), A k-Nearest Neighbor Classification Rule Based on Dempster-Shafer
Theory. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, 25(5):804-813, Mai 1995.
- Dubois, D. et Prade, H. (1987) Théorie des possibilités. Masson, Novembre 1987.
- Martin, A. (2005), La fusion d’informations, Polycopié de cours ENSIETA - Réf. : 1484, janvier 2005.

Documents fournis

Polycopié de cours, copie des transparents.