Présentation

Les documents manuscrits, provenant notamment de centres d'archives, sont de véritables puits de données, mais nécessitent d'être numérisés pour faciliter leurs utilisations. Pour réaliser cela, il est possible d'utiliser des intelligences artificielles, mais celles-ci nécessitent des bases d'apprentissage conséquentes pour s'entraîner et améliorer leurs résultats.
Ainsi, Taliesin, une application web issue d'une volonté de faciliter la transcription de ces documents manuscrits en documents numériques, permet de générer des bases d'apprentissage pour entraîner ces intelligences artificielles à la reconnaissance d'écriture manuscrite.
Taliesin, à travers une interface ergonomique et facile de prise en main, permet de transcrire paragraphe par paragraphe, phrase par phrase ou bien mot par mot n'importe quel document manuscrit. Composée de plusieurs algorithmes d'intelligences artificielles, l'application fusionne les résultats rendus par ces différents algorithmes afin d'obtenir une transcription unique et précise.

Projet annuel de quatrième année du département informatique de l'INSA

Fonctionnement de l'application

Taliesin a pour but de faciliter la transcription de documents afin de créer des bases d'entrainement.

description edit

A partir d'un document manuscrit

Une fusion de leurs résultats permet de rendre une transcription unique

backup storage

Une fois le résultat final obtenu, il agrémente la base de données


Plusieurs intelligences artificielles transcrivent le document

Helo wonderful worlcl !

L'utilisateur peut alors corriger le document guidé par le code couleur



La Fusion des reconaisseurs

Afin d'augmenter la rapidité de transciption et de faciliter la correction par l'utilisateur,
Taliesin fusionne plusieurs résultats de reconaisseurs de documents. Cet algorithme complexe fournit alors un unique résultat à l'utilisateur.

Les reconaisseurs permettant la transcription d'un document manuscrit :
CRNN entrainé à partir de la base de données "Read"
CRNN entrainé à partir de la base de données "IAM"
PyLaia entrainé sur la base de données "IAM"

Un nouvel algorithme de fusion récupère ces trois résultats.
En les comparant, cet algorithme pondère chaque mot afin de retourner une transcription la plus réaliste possible.

La réponse finale est colorée avec un code couleur particulier, facilitant la correction éventuelle de l'utilisateur:
- Un mot rouge : le mot est très peu fiable, il nécessite une correction.
- Un mot orange : le mot est presque fiable, il manque peut être une lettre ou alors le sens de la phrase porte à confusion.
-Un mot noir : le mot est concidéré comme correct.


L'interface

Notre équipe

Notre équipe se compose de huit étudiants en quatrième année au département INFORMATIQUE de l'INSA Rennes.

Marine ANIS

Rémi BOUCHER

Chloé Marcoz

Nathan MAURY

Killan MOAL

Nathan MOUREAUX

Sarah OURY

Aymeric SANCHEZ

Nos partenaires

Nous tenons à remercier l'ensemble de nos partenaires ainsi que notre encadrants Alexandre GIMENEZ PUIG ingénieur chez Sopra Steria ainsi que Bertrand COUASNON enseignant chercheur INSA/IRISA

Archives Départementales d'Ille-et-Vilaine
Archives

Les Archives départementales d'Ille-et-Vilaine nous fournissent des documents manuscrits et font parties des bêta-testeurs de Taliesin.

Sopra Steria
Sopra Steria

Entreprise française de services du numérique ou travail Alexandre GIMENEZ. Il nous apporte son expérience notamment pour la gestion d'un projet en agile et il nous accompagne sur la partie technique.

INSA Rennes
INSA Rennes

Notre école d'ingénieur qui nous a permis de réaliser ce projet.

Doptim
Doptim

Entreprise créatrice de solutions IA et Big Data en Bretagne. Elle a notamment pour but de permettre la transcription de registres paroissiaux manuscrits anciens sous forme d'un texte numérique. Doptim fait partie des bêta-testeurs de Taliesin.

IntuiDoc
IntuiDoc

L'équipe IntuiDoc de l'IRISA focalise ses travaux de recherche sur l'écriture manuscrite, le geste et le traitement du document. L'équipe nous fournit des reconnaisseurs et sont des bêta-testeurs de Taliesin.