Notre projet a pour but de fournir un programme permettant de concevoir automatiquement des bases d’apprentissage pour l’entraînement de divers systèmes de reconnaissance d’écriture manuscrite ainsi que leur exploitation. Ces reconnaisseurs seront par exemple capables de retranscrire de manière informatique des documents manuscrits (registres paroissiaux, registres d’état civil, documents d’entreprise...) pour les rendre plus exploitables. Ce projet permettra donc de gagner du temps sur la compréhension de documents anciens en simplifiant l’entraînement de systèmes complexes.
Plus concrètement, Agnosco est une application qui prend des documents scannés en entrée, qui les découpe ligne par ligne, puis qui permet à l'utilisateur de créer, de modifier et de valider la transcription de chaque ligne. L'application propose deux modes à l'utilisateur :
- un mode d'annotation manuelle où l'utilisateur tape lui-même les transcriptions du manuscrit scanné;
- un mode de reconnaissance automatique où les transcriptions sont générées par un reconnaisseur d'écriture manuscrite. L'application permet à l'utilisateur de les visualiser, de les modifier puis de les valider.
Agnosco génère donc un ensemble d'exemples d'apprentissage validés par l'utilisateur pour entraîner des reconnaisseurs d'écriture manuscrite.
Notre équipe se compose de huit étudiants en quatrième année au département INFORMATIQUE de l'INSA Rennes.
Ce projet nous a été proposé par l'équipe IntuiDoc de l'IRISA, en collaboration avec la startup Doptim et avec le soutien de Jean-Yves LE CLERC, conservateur du patrimoine aux archives départementales d'Ille-et-Vilaine. Tout au long de l'année, nous avons été encadrés par Bertrand COÜASNON, enseignant-chercheur membre d'IntuiDoc, Erwan FOUCHÉ, chef de projet chez Sopra Steria et Julien BOUVET, ingénieur chez Sopra Steria également. Nous avons aussi été accompagnés par Sophie TARDIVEL, responsable et data scientist chez Doptim.
Dans le cadre de ses recherches, l’équipe IntuiDoc de l’IRISA, en collaboration avec les archives départementales d’Ille-et-Vilaine, cherche à faire avancer le domaine de la reconnaissance d’écriture manuscrite afin de rendre plus accessibles des textes anciens qui sont souvent peu compréhensibles. En effet, l'écriture manuscrite des siècles passés ainsi que les dégradations dues au passage du temps diminuent la lisibilité des documents.
Il n’est pas simple d’écrire un programme qui reconnaît les textes manuscrits, c’est pourquoi la plupart des systèmes de reconnaissance d’écriture sont basés sur des algorithmes intelligents. Ces algorithmes sont souvent formés de réseaux de neurones qui ont besoin d’apprendre à reconnaître les différents caractères, quels que soient la langue et le style du rédacteur. Pour apprendre, ils ont besoin d’un grand nombre d’exemples (plusieurs milliers) qui sont longs et fastidieux à construire à la main. Dans ce contexte, les base d’apprentissage sont des associations entre les textes manuscrits et leurs retranscriptions informatiques. Ainsi, l’algorithme apprend à reconnaître les caractères en comparant sa sortie avec la retranscription fournie. Agnosco permet donc de construire un système qui génère des bases d’apprentissage à partir d’images et d’une vérité terrain de manière automatique, afin de faciliter le travail des chercheurs.