La conférence
Participation
Le programme
Soumissions
Infos pratiques
Liens
Namur
|
|
Tutoriels
Tutoriels
1. Gestion et fouille de flux de données
Intervenants :
- Fabrice Clérot, France Telecom R&D Lannion
- Baptiste Csernel, France Telecom R&D Lannion et ENST Paris
- Georges Hébrail, EDF R&D et ENST Paris
De nombreux travaux américains récents ont porté depuis le début
des années 2000 sur le traitement des flux de données. En effet, de
plus en plus de sources de données sont disponibles sous la forme
d'un flux continu d'un volume tel qu'il n'est plus possible
d'envisager de stocker physiquement ces données avant de, soit leur
adresser des requêtes, soit leur appliquer des méthodes de fouille.
Les premières applications ont porté sur le monitoring des réseaux
informatiques mais s'étendent aujourd'hui à de nombreux domaines :
les télécommunications, le web, le domaine bancaire, les données
issues de capteurs (trafic routier, météorologie, consommation
électrique, ...).
L'objectif du tutoriel est de présenter à la communauté d'EGC une
synthèse des principaux travaux réalisés autour de la gestion et
de la fouille des flux de données. Cette présentation abordera les
sujets suivants :
- Introduction générale à la problématique des flux de données
- Requêtes sur flux de données et Systèmes de Gestion de Flux de
Données
- Approches de fouille de flux de données
- Structures de résumés de flux de données
- Travaux en cours et perspectives de recherche
Eléments de bibliographie :
- B.Babcock, S.Babu, M.Datar, R.Motwani, J.Widom. Models and Issues in
Data Stream Systems. In ACM Principles of Database Systems, 2002.
- G.Cormode, M.Garofalakis. Streaming in a connected world: querying and
tracking distributed data streams, Tutorial in VLDB, 2006.
- M.Garofalakis, J.Gehrke, R.Rastogi. Querying and Mining Data Streams:
You Only Get One Look. Tutorial in ACM Int. Conf. on Management of Data,
2002.
- V.Goebel, T.Plagemann. Data STREAM Management Systems - Applications,
Concepts, and Systems, University of Oslo. Tutorial MIPS 2004.
- L.Golab et M.T.Özsu, Issues in Data STREAM Management. SIGMOD Record,
Vol. 32, No. 2, June 2003.
- S.Muthukrishnan. Data streams: algorithms and applications. Foundations
and Trends in Theoretical Computer Science, Vol.1, Issue 2, Août 2005.
2. Fusion d’informations pour la classification
Intervenant :
- Arnaud Martin, ENSIETA Brest
La fusion d'informations est apparue afin de gérer des quantités très importantes de données
multisources. Depuis quelques années des méthodes de fusion ont été adaptées et développées
pour des applications en traitement du signal et plus particulièrement pour la classification.
Plusieurs sens sont donnés à la fusion d'informations, nous reprenons ici la définition
proposée par (Bloch 2003) : La fusion d'informations consiste à combiner des informations
issues de plusieurs sources afin d'aider à la prise de décision.
Nous ne cherchons pas ici à réduire les redondances contenues dans les informations issues de
plusieurs sources, mais au contraire à en tenir compte afin d'améliorer la prise de décision. De
même nous cherchons à modéliser au mieux les différentes imperfections des données
(imprécisions, incertitudes, conflit, ambiguïté, incomplétude, fiabilité des sources, ...) non pas
pour les supprimer, mais encore pour l'aide à la décision.
Dans de nombreuses applications nous sommes confrontés à un grand nombre de données
imparfaites ce qui pose souvent problème pour les classifier. La fusion d’informations selon
l’architecture retenue permet soit de combiner ces données (le plus souvent ce sont des
données ou paramètres issus de capteurs ou méthodes d’extraction différents) en vu de les
classifier, soit de les classifier séparément selon les possibilités qu’offrent le classifieur
retenu, pour ensuite les fusionner. Ces deux approches ont des difficultés d’application
différentes selon les données. Si la première nécessite souvent une modélisation fine des
imperfections des données et donc une connaissance approfondie de chaque donnée ou
paramètre, la seconde est bien souvent la plus simple à mettre en oeuvre. En effet, la réponse
des classifieurs s’exprime souvent soit comme un nombre (que l’on peut ramener entre 0 et 1)
soit comme la classe attribuée (réponse symbolique). Les classifieurs sont alors perçu comme
différentes sources d’informations dont les imperfections sont facilement établies. Les
approches de fusion d’informations présentées dans ce cours s’appliquent alors simplement.
Les méthodes présentées ici sont particulièrement bien adaptées à la classification - et c’est
dans ce sens qu’elles sont présentées - mais elles peuvent être employées dans un cadre plus
général d’aide à la décision.
Plan
Le cours proposé suit le plan d’un cours dispensé en dernière année de la formation des
ingénieurs de l’ENSIETA (Martin 2005).
1. Introduction à la fusion d’informations
Nous tenterons de répondre à la question : Qu’est que la fusion d’informations ? Nous
présentons la typologie de la fusion : les différents niveaux de fusion et les
imperfections de l’information dont il faut tenir compte.
2. Méthodes du vote
Les méthodes de vote sont certainement les plus simples, mais pas si inefficaces. Elles
permettent de plus d’établir des résultats théoriques sur l’efficacité de la fusion
d’informations.
3. Approches probabilistes
Nous présentons les approches bayésiennes en insistant sur ses avantages et limites.
4. Théorie des fonctions croyances
Issue de la combinaison de Dempster-Shafer, elle offre une grande capacité de
modélisation des imperfections (par des modèles probabilistes (Appriou 2002) ou de
distances (Denoeux 1995)). Elle tient compte également des ambiguïtés et des conflits
entre les sources.
5. Théorie des possibilités
Issue de la théorie des ensembles flous, la théorie des possibilités (Dubois et Prade
1987) propose une modélisation de l’imprécision et de l’incertitude et offre un grand
choix d’opérateurs de combinaison ce qui en fait sa richesse.
Références
- Appriou, A. (2002), Discrimination multisignal par la théorie de l’évidence in Décision et
Reconnaissance des formes en signal, éd. Hermes, 2002.
- Bloch, I. (2003), Fusion d’informations en traitement du signal et des images, Lavoisier (eds),
Hermes Science Publication, 2003.
- Denoeux, T. (1995), A k-Nearest Neighbor Classification Rule Based on Dempster-Shafer
Theory. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and
Humans, 25(5):804-813, Mai 1995.
- Dubois, D. et Prade, H. (1987) Théorie des possibilités. Masson, Novembre 1987.
- Martin, A. (2005), La fusion d’informations, Polycopié de cours ENSIETA - Réf. : 1484,
janvier 2005.
Documents fournis
Polycopié de cours, copie des transparents.
|