OneClick Mining

Interface graphique du logiciel

motifs à trier liste des objets

Description des éléments de l'interface graphique.

Cliquer sur un élément de l'image pour afficher sa description

Résumé de notre projet

Ces dernières années ont vu l'explosion des capacités de stockage des données numériques. La collecte de grandes quantités d'informations est devenue habituelle. Il est possible d'accéder très facilement à de grandes quantités de données : les températures des régions sur les dix dernières années, les achats effectués par des clients de magasins, les résultats d'un sondage répondant à  une problématique, etc. Seulement, ces données sont brutes et non-traitées, souvent non étiquetées ou mal étiquetées, bien que recelant une myriade d'informations importantes.

Schéma des différentes étapes de fouille de données

La fouille de données est un processus complexe qui consiste à collecter puis à effectuer un traitement sur des données afin de ne garder que les parties les plus pertinentes : ce sont les phases de sélection et prétraitement. Les données ainsi extraites sont ensuite utilisées comme données d'entrée pour certains algorithmes dans une phase de fouille. Les résultats obtenus sont de nouveau traités pendant le post-traitement afin de ne conserver que les résultats pertinents sous forme de motifs, ou patterns. C’est la phase de fouille de données qui pose réellement problème : il faut réussir à sélectionner les algorithmes les plus adéquats, et choisir leurs paramètres afin qu’ils soient performants et qu’ils donnent des résultats intéressants pour l’utilisateur.

Le projet de quatrième année que nous réalisons consiste en un logiciel de fouille de données, ou data mining, adapté à un utilisateur n'ayant strictement aucune connaissance dans ce domaine : celui-ci aura à cliquer sur un unique bouton afin d'obtenir des résultats. Ce concept est appelé OneClick Mining et est présenté dans l'article de recherche (1)One Click Mining - Interactive Local Pattern Discorvery through Implicit Preference and Performance Learning.

Notre équipe

  • Laurence ROZE
    Encadrante de notre projet et membre de l'équipe de recherche Lacodam à l'INRIA
  • Ibamar BA
    Elève en quatrième année dans le département informatique de l'INSA de Rennes, ayant choisi l'option BigData
  • Francesco BARIATTI
    Elève en quatrième année, ayant choisi l'option Systèmes large échelle
  • Pierre Nicolas EUDE
    Elève en quatrième année dans le département informatique de l'INSA de Rennes
  • Violaine FABRY
    Elève en quatrième année dans le département informatique de l'INSA de Rennes, ayant choisi l'option Systèmes Larges Echelles
  • Marie LOUP
    Elève en quatième année dans le département informatique de l'INSA de Rennes ayant choisi l'option
  • Gregrory MARTIN
    Elève en quatrième année dans le département informatique de l'INSA de Rennes, ayant choisi l'option Systèmes Larges Echelles
  • Louis-Marie RENAUD
    Elève en quatrième année dans le département informatique de l'INSA de Rennes, ayant chol'option BigData

Cycle d'apprentissage/cycle de fouille

Cycles de fouille et d'apprentissage

Cycles d'apprentissage et de fouille, cliquer sur un élément de l'image

Fonctionnement Général

La figure décrit le fonctionnement général du logiciel OneClick Mining. Celui-ci est composé de la partie utilisateur d'une part, qui a été présentée précédemment, et de son fonctionnement interne d'autre part.
A chaque fois que l'utilisateur clique sur le bouton Mining, une fonction dite d'utilité est mise à jour à partir de la liste de motifs qu'il a jugé intéressants et de ceux qu'il a supprimés. Cette fonction peut être interprétée comme une image à un instant t des préférences de l'utilisateur. Appliquée à un motif et ses mesures d'intérêt associées, elle va nous dire si à l'instant t le programme pense que l'utilisateur trouve ce motif intéressant. Ces mesures d'intérêt sont des valeurs qui caractérisent le motif associé en évaluant sa pertinence selon différents critères tels que le nombre d'attributs, la généricité. Il en existe une multitude et le choix entre celles-ci varie en fonction de l'algorithme utilisé. Il faut noter que la fonction est calculée à chaque clic de l'utilisateur sur le bouton Mining, et est donc mise à jour à partir du retour de l'utilisateur sur les motifs affichés durant le tour précédent.
Un nouveau cycle d'apprentissage est alors lancé. Pendant ce cycle d'apprentissage, de nombreux cycles de fouille ont lieu : plusieurs algorithmes de fouilles de données sont lancés les uns après les autres. Un seul algorithme est lancé par cycle de fouille. Ces algorithmes produisent des motifs qui sont présentés à l'utilisateur lorsqu'il clique à nouveau sur le bouton Mining. Dans le OneClick Mining, le terme motif désigne un couple de valeurs : le motif en lui-même et ses mesures d'intérêt.

Bibliographie

  • (1)Mario Boley, Michael Mampaey, Bo Kang, Pavel Tokmakov, Stefan Wrobel. One Click Mining - Interactive Local Pattern Discorvery through Implicit Preference and Performance Learning. In Proceedings of the ACM SIGKDD Workshop on Interactive Data Exploration and Analytics, IDEA’13, pages 27–35, New York, NY, USA, 2013. ACM.
  • (2)Rabin Allesiardo, Raphaël Féraud. Un algorithme pour le problème des bandits manchots avec stationnarité par parties.
  • (3)Pannaga Shivaswamy, Karthik Raman, Thorsten Joachims. Online learning to diversify from implicit feedback. In Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’12, pages 705–713, New York, NY, USA, 2012. ACM.
  • (4)Nicolo Cesa-Bianchi and Gábor Lugosi. Prediction, learning, and games.2006. Cambridge University Press.
  • (5)Francisco Herrera, Cristobal José, Pedro Gonzalez, Maria José. An overview on subgroup discovery : Foundations and applications. Knowl. Inf. Syst., 29(3) :495–525, December 2011.
  • (6)Peggy Cellier. Non-supervised symbolic methods. University lecture at INSA Rennes, January 2016.
  • (7)P. Fournier-Viger, A. Gomariz, T. Gueniche, A. Soltani, C. Wu., and V. S. Tseng. Spmf : a java open-source pattern mining library. Journal of Machine Learning Research (JMLR), 15 :3389–3393, 2014.