Activités de recherche de l'équipe Apprentissage

Accueil
Home
Apprendre ?
Membres
Recherche
Stage/Thèse
Publications
Liens

1 Introduction

L'apprentissage artificiel a commencé son développement vers les années 1950 conjointement avec l’essor de l’Intelligence Artificielle. Ces 20 dernières années, l’intérêt pour l’apprentissage s’est notablement accru à partir du constat qu'il est de plus en plus difficile de prévoir dans un programme tous les cas possibles de données qu'il sera amené à traiter. En effet, il est fréquent que les programmes doivent s'adapter à leur fonction à partir de données empiriques issues de leur environnement. D’autre part la quantité et la complexité des données à traiter implique l’usage de processus d’analyse automatiques et intelligents. Le domaine de l'apprentissage artificiel regroupe toutes les méthodes qui permettent à un système (programme) de s'adapter et donner des réponses pertinentes, à partir de l'exploration de son environnement ou de l'extraction d'informations d'exemples. Les domaines d'application ne cessent d'augmenter : la robotique, la reconnaissance de formes, la fouille de données sur le web, etc. Les méthodes sont très variées (numériques ou statistiques, comme les réseaux de neurones, l'inférence bayésienne, les algorithmes génétiques, la programmation dynamique, mais aussi symboliques comme la programmation logique inductive, les arbres de décision, etc). Suivant la quantité d'information contenue dans les données et le type d'application, on peut apprendre à classer ou à discriminer des données appartenant à des classes différentes (avec des réseaux de neurones, par exemple), à donner des réponses dynamiques (apprentissage par renforcement, contrôle), etc. Souvent inspirés de l'apprentissage humain ou animal, les algorithmes artificiels sont aussi en retour appliqués à la modélisation de l'apprentissage naturel en sciences humaines et chez les animaux.

Notre équipe Apprentissage a été créée en 2002, avec des chercheurs ayant une longue trajectoire dans le domaine de l'apprentissage artificiel, venant d'horizons différents (M. B. Gordon, DR2 : théorie statistique de l'apprentissage, développement de méthodes numériques et modélisation ; G. Bisson, CR1 : méthodes symboliques et numériques de classification ; B. Lemaire, MCF : méthodes symboliques et modélisation cognitive). Habitués à travailler en collaboration avec des chercheurs d'autres disciplines, nous partageons nos expertises sur les approches numériques et symboliques de l'apprentissage. Elles correspondent à des paradigmes représentationnel et calculatoire différents et complémentaires, rarement mis en commun dans une même équipe. Depuis quatre années nous avons abordé des problèmes utilisant ces deux types d'approches. Par exemple, nous avons modélisé des utilisateurs d'environnements informatiques d’apprentissage de l’algèbre avec des méthodes statistiques de clustering (Super Paramagnetic Clustering), que nous avons pu interpréter grâce à des outils d'apprentissage symbolique (arbres de décision). Nous menons des recherches en bioinformatique, sur des données de criblage haut débit de molécules potentiels médicaments, avec des outils d'apprentissage numérique (Support Vector Machines) et symbolique (Programmation Logique Inductive). Dans ce dernier travail notre but est de prédire l'activité biologique de nouvelles molécules, et aussi déterminer quelles sont les caractéristiques discriminantes rendant les molécules actives. Un autre sujet dans lequel nous développons des approches originales est la recherche d'information dans des textes en bioinformatique et sur le web.

Notre équipe s'intéresse aussi à la modélisation de l'apprentissage naturel. En plus de l'intérêt intrinsèque de cette modélisation (par exemple, pour comprendre les modes d'apprentissage sémantique chez l'enfant à partir de textes, ou le comportement collectif de populations en sciences sociales), la confrontation des modèles avec l'expérience est source d'inspiration de nouveaux algorithmes d'apprentissage "artificiel". Notre pratique des applications nous motive pour étudier des problèmes théoriques intéressants. Les collaborations détaillées plus haut attestent de notre interêt pour les recherches pluridisciplinaires.

Au cours des quatre dernières années, l'équipe a produit 38 publications, dont 10 dans des revues internationales à comité de lecture, 5 chapitres d'ouvrages, et 17 présentations à des conférences avec comités de lecture. Nous avons dirigé 4 thèses (soutenues) et encadré 23 stagiaires. Actuellement nous avons deux doctorants (en bioinformatique et en modélisation de systèmes sociaux), et l'arrivée d'un troisième (modélisation d'utilisateurs d'environnements informatiques) est prévue à partir d'octobre 2005.

2 Théorie et applications de l'apprentissage artificiel

A/ Bioinformatique et textes

Modélisation de l’activité biologique de molécules

L’étude automatisée, on parle de « criblage », de collections de molécules (chimiothèques) est utilisée pour découvrir des molécules « bio-actives », qui soient effectrices sur des systèmes biologiques et susceptibles de fournir de nouveaux médicaments et/ou de nouveaux outils moléculaires pour la recherche. L’exploitation des données d'un criblage demeure toutefois un problème complexe de part la présence d’un faible taux de résultats positifs (les quelques molécules bio-actives sélectionnées) ainsi que de la forte présence de bruit sur les mesures (incertitude sur les signaux, faux négatifs, …). Le projet ACCAMBA (http://accamba.imag.fr/) qui se déroule sur la période 2004-2007 dans le cadre de l’ACI IMPBIO, se propose de concevoir des outils d’analyse de chimiothèques et de modélisation des résultats de criblage en faisant collaborer étroitement des biologistes, des informaticiens spécialistes de l’apprentissage artificiel et des chimistes. Il vise à fédérer les travaux réalisés en France sur plusieurs plates-formes de criblage académiques (CMBA à Grenoble; SMMBC à Saclay ; MCT à Roscoff) et sur la constitution de chimiothèques (Institut Curie à Paris). Les objectifs du projet ACCAMBA sont multiples. Premièrement concevoir un ensemble de méthodes d'exploration globale de la bio-activité potentielle de chimiothèques. Ensuite mettre en place un cycle Criblage – Modélisation – Synthèse – Validation dans lequel la partie modélisation des SAR (Structure-Activity Relationship) repose sur une utilisation intensive de techniques d'apprentissage artificiel. Finalement, valider les outils sur l’étude de l’activité de molécules à potentiel anticancéreux.

Extraction d'informations à partir de textes

Le projet CADERIGE (http://caderige.imag.fr/, officiellement terminé fin 2003) de l'ACI Bioinformatique a permis de mettre place une collaboration étroite entre des biologistes et des informaticiens respectivement spécialistes du traitement automatique de la langue, de l'extraction d'information et de l'apprentissage artificiel. Sur le plan informatique, nous avons développé de nouvelles techniques « d'extraction de connaissances » dans les bases documentaires écrites en langage naturel. Sur le plan biologique, nous avons appliqué ces techniques dans le domaine de la génomique fonctionnelle et plus spécifiquement sur celui de la modélisation des interactions géniques en travaillant sur des résumes de la base MEDLINE. Nous avons produit plusieurs outils publics d'analyse, de classification et d'annotation de documents. Ils continuent à être activement développés par les laboratoires impliqués dans le projet. Concernant notre équipe, on peut citer le logiciel CADIXE qui est un éditeur d’annotation XML actuellement utilisé par plusieurs partenaires dont le laboratoire MIG à l’INRA et le SIB (Swiss Institute of Bioinformatics) à Genève.

B/ Modélisation de l'apprenant en interaction avec un (EIAH)

Dans ce travail, effectué en collaboration avec l'équipe Did@atic du Laboratoire Leibniz, et initié dans le cadre de l’ACI Cognitique Algèbre (http://www-leibniz.imag.fr/Cognitique/), nous avons modélisé des élèves apprenant l'algèbre à l'aide du logiciel Aplusix, un Environnement Informatique pour l'Apprentissage Humain (EIAH), à partir des enregistrements de leurs actions. Avec des techniques d'apprentissage artificiel, d’une part nous avons classé les élèves afin de détecter leurs difficultés communes. D'autre part, nous avons caractérisé les régularités dans la production de chaque élève sur différents types d'exercices, de manière à faire un diagnostic individuel représentatif de l’état de ses connaissances. Ces approches mettent en jeu des algorithmes d'apprentissage supervisés et non supervisés. Une thèse sur ce sujet (David Renaudie, sous la direction de M.B. Gordon et Gilles Bisson), a été soutenue en janvier 2005. Ces résultats ont pour objectif à moyen terme de contribuer à concevoir des tuteurs informatiques d'aide à l'enseignement. Ce travail se poursuit actuellement avec de nouvelles données

C/ Conception d'outils pour la recherche d'information

Les outils de recherche d'information (moteurs de recherche) sur le Web ou plus généralement dans une base documentaire ont une approche généraliste. Ils ne prennent pas en compte les caractéristiques de l'utilisateur, ce qui limite la qualité des résultats fournis. Dans le cadre de la thèse de Jean-Christophe Bottraud (sous la direction de M-F. Bruandet et G. Bisson), soutenue en décembre 2004, nous avons proposé et implémenté un agent, le système AIRA, capable d’assister l'utilisateur dans ses communications avec les outils de recherche. Pour ce faire le système analyse les références documentaires couramment exploitées par l'utilisateur et construit, par apprentissage non supervisé, un profil le représentant. Lors de chaque recherche AIRA adapte ce profil au contexte de la tâche en cours afin d'augmenter la description des objectifs de la recherche. La requête est spécialisée avec des techniques d'apprentissage artificiel, puis les résultats proposés sont filtrés. Le système AIRA propose également une plateforme logicielle pour la construction d'agents personnels pour la recherche d'information et pour l'évaluation relative des qualités des outils de recherche.

D/ Théorie statistique de l'apprentissage

L'apprentissage en informatique comprend toutes les techniques capables d'extraire de l'information de données empiriques, afin de l'utiliser pour, par exemple, classer de nouvelles instances. Le paradigme de l'apprentissage est la classification de données, et consiste à déterminer les paramètres de systèmes adaptables, probabilistes ou déterministes à partir d'un ensemble d'exemples, dans le but de généraliser, c'est-à-dire classer correctement de nouvelles données. Dans le cas des réseau de neurones, il s'agit de déterminer les poids synaptiques. Un classifieur consistant en un seul neurone, dont l'état (±1) est fonction des données (ses entrées) permet de faire des séparations linéaires des entrées, autrement dit, des dichotomies de l'espace des données par des hyperplans. Les coefficients de l'hyperplan sont les poids du neurone. Des réseaux de neurones plus complexes, comme les réseaux en couches, peuvent être construits en utilisant des perceptrons comme briques de base. Des tâches aussi diverses que le diagnostic médical, la détection de failles, la reconnaissance d'images, peuvent être posées en termes de classification binaire (malade/sain, défectueux/non défectueux, reconnue/pas reconnue).

La plupart des algorithmes d'apprentissage déterminent les paramètres du classifieur par minimisation d'une fonction de coût. Si l'on interprète ce coût comme une énergie potentielle d'un système fictif, minimiser le coût est équivalent à minimiser l'énergie. Cette remarque explique qu'on utilise des méthodes de la physique statistique pour déterminer les propriétés typiques des algorithmes d’apprentissage (qui se vérifient avec probabilité 1 dans l’ensemble d’instances possibles des données). Ces propriétés s'obtiennent à partir du calcul du coût minimal, moyenné sur la distribution des exemples. Pour ce faire il faut utiliser une méthode très complexe, appelée méthode des répliques. Les résultats plus intéressants obtenus par notre équipe ces quatre dernières années sont :

  1. Dans le problème de la détection de l'axe d'anisotropie d'une distribution de données : prédiction d'une transition de phase du premier ordre en fonction du nombre d'exemples. Une retombée de cette transition est qu'en son voisinage on pourrait apprendre avec des performances meilleures que celles d'un apprentissage bayesien. Ce résultat a suscité beaucoup de controverses, une thèse a été faite sur ce problème à l'ENS Paris, et trois laboratoires (en Belgique, Allemagne et Angleterre) ont débattu ce résultat, qui n'est pas encore bien compris.
  2. L'étude des propriétés statistiques des Séparateurs à Vaste Marge (Support Vector Machines ou SVM). Avec S. Risau-Gusman nous avons déterminé le rôle de la normalisation des données, essentiel pour éviter le surapprentissage de ces machines.

E/ Apprentissage et modélisation de systèmes complexes en sciences humaine

Développement du langage

Cet axe de recherche vise à construire des modèles informatiques qui simulent l'apprentissage du vocabulaire par les humains à partir de l'exposition à des textes. Ce processus d'apprentissage nous a permis d'acquérir une grande partie des mots que nous connaissons : c'est par leur exposition répétée dans des paragraphes différents que nous avons progressivement construit leur signification. Il s'agit donc de modéliser et simuler un processus dont l'entrée est un corpus représentant au mieux le type de textes auquel les humains sont exposés et la sortie une représentation de la signification des mots, dans un format qui permette de tester les modèles construits. Le schéma est donc le suivant : corpus de textes --> apprentissage --> représentation du sens des mots.

Nous avons conçu en collaboration avec le Laboratoire de Psychologie Cognitive de l'université d'Aix-Marseille deux corpus représentant la nature et la quantité de textes auxquels des enfants de 7 à 10 ans et des adultes ont été exposés. Le corpus enfants regroupe des récits pour enfants, des productions, des manuels scolaires, des encyclopédies et totalise 3,2 millions de mots. Le corpus adultes contient en plus des textes littéraires et des articles de journaux totalisant 13 millions de mots. Nous avons montré que le modèle LSA (Landauer et Dumais, 1997) qui représente chaque mot par un vecteur dans un espace de plusieurs centaines de dimensions, et les apprend à partir de la réduction d'une matrice d'occurrences mot-paragraphe, permet de rendre compte d'une partie de la construction du vocabulaire chez les enfants (Denhière & Lemaire, 2004) grâce à des tests de vocabulaire, de rappel/résumé ou de comparaison à des normes d'association. Les limites de LSA en tant que modèle cognitif sont cependant bien connues : LSA n'est pas incrémental, les similarités entre mots sont symétriques et le formalisme vectoriel rend mal compte des associations entre mots. Pour cela, nous avons conçu un modèle alternatif, ICAN (pour Incremental Construction of an Associative Network), qui représente les significations des mots par un graphe d'associations sémantiques et qui le construit à partir du corpus, paragraphe après paragraphe, en ajustant les liens entre noeuds de ce graphe (Lemaire & Denhière, 2004). Ce modèle est utilisé à la Brunel University (Angleterre) et au Rensellaer Polytechnic Institute (USA)

Modélisation de systèmes complexes constitués d'agents apprenant

Ce thème constitue une prise de risque de l'équipe dans le développement de recherches pluridisciplinaires. Initialement en collaboration avec des biologistes, et ensuite avec des économistes, nos recherches portent sur deux sujets

  1. L'interaction entre apprentissage et évolution. D'après Baldwin, un biologiste contemporain de Darwin et partageant ses idées, l'évolution pourrait sélectionner dans des générations successives des habiletés qui devaient être apprises par les générations d'origine, créant ainsi l'illusion que les caractères acquis (appris) s'héritent, et suggérant que l'apprentissage "guidait" et accélérait l'évolution. Nous avons analysé un modèle informatique de Hinton et Nowlan (Complex Systems 1 (1987) 495-502) qui prétendait exhiber l'effet Baldwin, et nous avons montré que ce modèle ne permet pas d'affirmer que l'apprentissage guide l'évolution. En plus, la capacité d'apprentissage retarde, plutôt que n'accélère, l'évolution
  2. La modélisation d'agents apprenants en interaction, dans le domaine des sciences sociales. Nous nous intéressons au rôle des interactions sociales et de la capacité d'apprentissage dans les prises de décision des individus, en collaboration avec des chercheurs de sciences sociales (LEPII de l'Université Pierre Mendès France, GAEL de l'INRA-Grenoble, CREM-Université de Rennes, avec le soutien de la Maison des Sciences de l'Homme de Grenoble) et le CAMS-EHESS et LPS-ENS à Paris (avec le soutien de l'ACI Systèmes Complexes, projet ELICCIR). Une étudiante, Viktoriya Semeshenko, formée sur les Systèmes Complexes au Master de Trieste, prépare une thèse sur ce sujet. Nos premiers travaux dans ce domaine concernent l'étude d'un marché monopoliste lorsque les prix que les consommateurs sont prêts à payer (prix de réserve) dépendent d'influences réciproques, ainsi que de leurs capacités à anticiper, par apprentissage, les décisions des autres individus. Nous étudions aussi un modèle de coopération sociale afin de comprendre les mécanismes générant des normes sociales de coopération chez des agents égoïstes, lorsqu'ils ont la possibilité de ne pas coopérer.

3 Nos perspectives de recherche à 4 ans (2006-2010)

Dans les cinq prochaines années nous poursuivrons a priori nos recherches sur les thèmes mentionnés dans la partie 2 de ce rapport, qui sont importants pour la société et qui engendrent de nombreux défis scientifiques. De la même manière que l'informatique est une science où une même production (typiquement un algorithme) s'applique à des disciplines fort différentes, la grande variété de domaines auxquels s'intéresse notre équipe présente des dénominateurs communs: la modélisation de l'apprentissage de systèmes naturels apprenants (source d'inspiration) ou l'application d'algorithmes de catégorisation (résolution de problèmes).

La modélisation des systèmes naturels apprenants, outre son interêt fondamental, est une source d'inspiration algorithmique pour la conception d'algorithmes d'apprentissage. Par exemple, nous allons utiliser le modèle ICAN, initialement conçu pour modéliser l'acquisition du vocabulaire, dans un module informatique ayant comme but de simuler l'activité d'un utilisateur d'une interface homme-machine (thèse de S. Gamard). De même, l'étude de systèmes sociaux d'individus apprenants peut donner des informations sur le comportement de systèmes informatiques distribués. Ces systèmes sont étudiés avec des méthodes de physique statistique et des simulations numériques (thèse de V. Semeshenko).

Les résolutions de problèmes par l'apprentissage présentent des défis communs. Par exemple, la catégorisation des productions de l'apprenant en EIAH, celle des molécules en bioinformatique, ou encore celle des documents électroniques, soulèvent le problème de la définition de similarité entre objets relationnels (par exemple, des graphes). Nous envisageons d'explorer une nouvelle notion de similarité non symétrique, permettant de comparer des objets complexes de tailles différentes, par exemple des molécules (thèse de S. Wieczorek).

Dernière modification : 26/09/05, gb