Une application de generation de bases d'apprentissage pour la reconnaissance d'écriture manuscrite

Projet annuel de quatrième année du département informatique de l'INSA

Pourquoi Taliesin?

description psychology

Certainsdocuments manuscritset notamment anciens sontdifficilement lisibles.Pour les exploiter, on peut utiliser des reconnaisseurs basés surl'intelligence artificielle.

backup storage

Cependant, la reconnaissance automatique nécessite denombreuses données d'entraînement.Par conséquent, il faut annoter des milliers d'exemples.

find_in_page edit file_present

Taliesin facilitel'import,ledécoupageetl'annotationde documents manuscrits et apparaît donc comme une solution pour la génération debases d'apprentissage.Il s'agit d'un ensemble d’exemples annotés comportant des images ainsi que leurs transcriptions associées.

Présentation du projet

Taliesin est une application web de génération de bases d’apprentissage pour des systèmes de reconnaissance d’écriture manuscrite. Ces données permettent à des reconnaisseurs de générer un modèle capable de réaliser des prédictions sur de nouveaux documents.

Pour générer ces bases d'apprentissage, Taliesin propose une interface ergonomique facilitant le travail des annotateurs. Les ensembles des données d'apprentissage sont générés automatiquement grâce à des reconnaisseurs à base de réseaux de neurones profonds qui annotent les différentes pages. En cas d'incohérence, l'utilisateur peut modifier la prédiction manuellement à l'aide d'auto-complétion. Une fois la base d'images annotée, l'utilisateur n'a plus qu'à exporter les exemples en question qu'il pourra utiliser pour entraîner des reconnaisseurs d'écriture manuscrite.

Interface

Notre équipe

Notre équipe se compose de sept étudiants en quatrième année au département INFORMATIQUE de l'INSA Rennes.

Matisse BABONNEAU

Thomas BETTON

Corentin DUFOURG

Fabien LEFOYE

Elise MAUVIEUX

Glen POULIQUEN

Yuzhan WANG

Nos partenaires

Nous tenons à remercier l'ensemble de nos partenaires ainsi que nos encadrants Alexandre GIMENEZ PUIG et ERWAN FOUCHE ingénieurs chez Sopra Steria ainsi que Bertrand COUASNON enseignant chercheur INSA/IRISA

Archives Départementales d'Ille-et-Vilaine
Archives

Les Archives départementales d'Ille-et-Vilaine nous fournissent des documents manuscrits et font parties des bêta-testeurs de Taliesin.

Sopra Steria
Sopra Steria

Entreprise française de services du numérique. Deux de ses ingénieurs nous apportent leur expérience notamment pour apprendre à mieux travailler en équipe, à gérer un projet en agile et à nous accompagner sur la partie technique.

INSA Rennes
INSA Rennes

Notre école d'ingénieurs qui nous a permis de réaliser ce projet.

Doptim
Doptim

Entreprise créatrice de solutions IA et Big Data en Bretagne. Elle a notamment pour but de permettre la transcription de registres paroissiaux manuscrits anciens sous forme d'un texte numérique. Doptim fait partie des bêta-testeurs de Taliesin.

IntuiDoc
IntuiDoc

L'équipe IntuiDoc de l'IRISA focalise ses travaux de recherche sur l'écriture manuscrite, le geste et le traitement du document. L'équipe nous fournit des reconnaisseurs et sont des bêta-testeurs de Taliesin.