Une application de generation de bases d'apprentissage pour la reconnaissance d'écriture manuscrite
Projet annuel de quatrième année du département informatique de l'INSA
Certainsdocuments manuscritset notamment anciens sontdifficilement lisibles.Pour les exploiter, on peut utiliser des reconnaisseurs basés surl'intelligence artificielle.
Cependant, la reconnaissance automatique nécessite denombreuses données d'entraînement.Par conséquent, il faut annoter des milliers d'exemples.
Taliesin facilitel'import,ledécoupageetl'annotationde documents manuscrits et apparaît donc comme une solution pour la génération debases d'apprentissage.Il s'agit d'un ensemble d’exemples annotés comportant des images ainsi que leurs transcriptions associées.
Taliesin est une application web de génération de bases d’apprentissage pour des systèmes de reconnaissance d’écriture manuscrite. Ces données permettent à des reconnaisseurs de générer un modèle capable de réaliser des prédictions sur de nouveaux documents.
Pour générer ces bases d'apprentissage, Taliesin propose une interface ergonomique facilitant le travail des annotateurs. Les ensembles des données d'apprentissage sont générés automatiquement grâce à des reconnaisseurs à base de réseaux de neurones profonds qui annotent les différentes pages. En cas d'incohérence, l'utilisateur peut modifier la prédiction manuellement à l'aide d'auto-complétion. Une fois la base d'images annotée, l'utilisateur n'a plus qu'à exporter les exemples en question qu'il pourra utiliser pour entraîner des reconnaisseurs d'écriture manuscrite.
Notre équipe se compose de sept étudiants en quatrième année au département INFORMATIQUE de l'INSA Rennes.
Nous tenons à remercier l'ensemble de nos partenaires ainsi que nos encadrants Alexandre GIMENEZ PUIG et ERWAN FOUCHE ingénieurs chez Sopra Steria ainsi que Bertrand COUASNON enseignant chercheur INSA/IRISA