biblio biblio

Agnosco c'est quoi?

Notre projet a pour but de fournir un programme permettant de concevoir automatiquement des bases d’apprentissage pour l’entraînement de divers systèmes de reconnaissance d’écriture manuscrite ainsi que leur exploitation. Ces reconnaisseurs seront par exemple capables de retranscrire de manière informatique des documents manuscrits (registres paroissiaux, registres d’état civil, documents d’entreprise...) pour les rendre plus exploitables. Ce projet permettra donc de gagner du temps sur la compréhension de documents anciens en simplifiant l’entraînement de systèmes complexes.

Plus concrètement, Agnosco est une application qui prend des documents scannés en entrée, qui les découpe ligne par ligne, puis qui permet à l'utilisateur de créer, de modifier et de valider la transcription de chaque ligne. L'application propose deux modes à l'utilisateur :
- un mode d'annotation manuelle où l'utilisateur tape lui-même les transcriptions du manuscrit scanné;
- un mode de reconnaissance automatique où les transcriptions sont générées par un reconnaisseur d'écriture manuscrite. L'application permet à l'utilisateur de les visualiser, de les modifier puis de les valider.

Agnosco génère donc un ensemble d'exemples d'apprentissage validés par l'utilisateur pour entraîner des reconnaisseurs d'écriture manuscrite.

schema

Qui sommes nous?

noeud

Notre équipe se compose de huit étudiants en quatrième année au département INFORMATIQUE de l'INSA Rennes.


enzo laure valentin timothee charlotte


Ce projet nous a été proposé par l'équipe IntuiDoc de l'IRISA, en collaboration avec la startup Doptim et avec le soutien de Jean-Yves LE CLERC, conservateur du patrimoine aux archives départementales d'Ille-et-Vilaine. Tout au long de l'année, nous avons été encadrés par Bertrand COÜASNON, enseignant-chercheur membre d'IntuiDoc, Erwan FOUCHÉ, chef de projet chez Sopra Steria et Julien BOUVET, ingénieur chez Sopra Steria également. Nous avons aussi été accompagnés par Sophie TARDIVEL, responsable et data scientist chez Doptim.

Pourquoi Agnosco?

Dans le cadre de ses recherches, l’équipe IntuiDoc de l’IRISA, en collaboration avec les archives départementales d’Ille-et-Vilaine, cherche à faire avancer le domaine de la reconnaissance d’écriture manuscrite afin de rendre plus accessibles des textes anciens qui sont souvent peu compréhensibles. En effet, l'écriture manuscrite des siècles passés ainsi que les dégradations dues au passage du temps diminuent la lisibilité des documents.
Il n’est pas simple d’écrire un programme qui reconnaît les textes manuscrits, c’est pourquoi la plupart des systèmes de reconnaissance d’écriture sont basés sur des algorithmes intelligents. Ces algorithmes sont souvent formés de réseaux de neurones qui ont besoin d’apprendre à reconnaître les différents caractères, quels que soient la langue et le style du rédacteur. Pour apprendre, ils ont besoin d’un grand nombre d’exemples (plusieurs milliers) qui sont longs et fastidieux à construire à la main. Dans ce contexte, les base d’apprentissage sont des associations entre les textes manuscrits et leurs retranscriptions informatiques. Ainsi, l’algorithme apprend à reconnaître les caractères en comparant sa sortie avec la retranscription fournie. Agnosco permet donc de construire un système qui génère des bases d’apprentissage à partir d’images et d’une vérité terrain de manière automatique, afin de faciliter le travail des chercheurs.

manager
Sur la page d'accueil d'Agnosco, l'utilisateur a accès à tous ses projets et peut également en créer de nouveau en sélectionnant les documents scannés qu'il veut transcrire.

accueil


Agnosco propose également une page de découpe du document pour localiser manuellement les paragraphes du manuscrit, afin de permettre une découpe ligne par ligne du document.

accueil


Une fois que le document est découpé ligne par ligne en imagettes, elles sont affichées les unes à la suite des autres avec la transcription qui leur correspond dans la page d'annotation manuelle. L'utilisateur peut taper ces transcriptions à la main et les modifier. Grâce à la croix en haut à droite de l'imagette, il peut également cacher un exemple jugé peu pertinent qui ne sera pris en compte pour l'apprentissage.

accueil


Agnosco propose une page de visualisation des résultats de l'apprentissage du reconnaisseur où l'utilisateur peut modifier les transcriptions erronées.

accueil


Enfin, l'étape finale de la création de bases d'apprentissage est la validation des transcriptions dans la page de validation. Par un simple appui sur la touche Entrée, l'utilisateur peut valider toutes les transcriptions affichées sur la page qui n'ont pas été cachées au préalable.

accueil