Preloader image

SHREDID

Jusqu'à présent, les destructeurs de papier ont été largement utilisés pour détruire «de manière fiable» les informations sensibles. Avec notre outil récemment développé, l'identité de chaque destructeur n'est plus masquée.

Scénario

Prenons un exemple. Vous avez réussi à trouver et à reconstruire un document détruit qui pourrait prouver des activités illégales telles que l'évasion fiscale d'une certaine entreprise X. L'entreprise X nie et blâme une autre entreprise Y pour avoir fabriqué des preuves. Vous avez accès aux deux destructeurs des deux entreprises. Avec ShredID, vous pouvez maintenant découvrir quelle entreprise est coupable.

Utilisation

Alors, comment pouvez-vous trouver l'origine d'un document?

Le processus comprend deux phases principales.

La phase d'apprentissage

Vous devez tout d'abord attribuer des données (sous forme d'images numérisées de documents détruits) à deux profils de destructeurs qui feront l'objet de la classification.

La phase de prédiction

Vous devez maintenant fournir des données inconnues qui seront classées. Vous pouvez ensuite choisir parmi plusieurs méthodes de classification fournies par notre outil. Ces méthodes sélectionnées contribueront ensuite à une prédiction finale de l'origine des données fournies.

Prétraitement


Que ce soit pour la phase de prédiction ou d'apprentissage, le premier travail de notre outil est de prétraiter les images numérisées. Tout d'abord, elles sont nettoyées à l'aide d'opérations de morphologie. Ensuite vient une détection de couleur dans un espace HSV pour distinguer les bandes de papier d'un fond vert. La prochaine étape est de séparer les bandes avec un algorithme de détection des contours, puis de les redresser au cas où elles seraient légèrement déformées. Enfin, elles sont séparées en deux demi-bandes et leur profil est généré en tant que signal à 1 dimension.

Ce signal à 1 dimension est utilisé pour générer des données pour alimenter des classificateurs, par exemple des tracés de récurrence et des transformations de Fourier.

Zoom sur les marques de dents d'un destructeur de documents

Classification

Afin de déterminer de quel destructeur proviennent les bandes de papier, nous utilisons différentes méthodes de classification. Certaines sont des techniques d’apprentissage machine efficaces ayant fait leurs preuves par le passé, d'autre sont plus expérimentale et développées spécialement pour ce projet.

Comparaison des largeurs de bandes

Parfois, la solution la plus simple est la meilleure. Nous utilisons la largeur des bandes pour déterminer leur origine. Aussi simple que cela puisse paraître, cela suffit parfois à donner une réponse correcte.

Transformée de Fourier

Utilisée massivement dans le traitement du signal, cette technique nous permet d'extraire les fréquences fondamentales du signal créé par les dents des roues du destructeur. Nous comparons ensuite ces fréquences et leurs amplitudes respectives à un spectre de référence associé à chaque destructeur connu.

Random forest

Certaines caractéristiques du signal comme la dérivée maximum et minimum, les principales harmoniques issues du spectre de Fourier ou la largeur moyenne d'une bande sont extraites pour être fournies à un algorithme de random forest, un modèle de combinaison d'arbres de décisions.

Tracés de récurrence - CNN

Les techniques de Deep Learning sont souvent les plus performantes sur des tâches de classification d'images. Nous utilisons des réseaux de neurones récurrents sur des tracés de récurrence ( une représentation en deux dimensions d'un signal en une dimension) pour prédire le bon destructeur.

KNN

Les caractéristiques que nous fournissons à la random forest vont également être utilisées par notre dernier classifieur. L'algorithme des K plus proches voisins (K Nearest Neighbours) nous permet de représenter une bande de papier dans un espaces de hautes dimensions, et mesurer à quelle distance elle se situe par rapport aux autre points.

Equipe

Team Image

Gildas Avoine

Encadrant
Team Image

Florian Arnoud

Data Science
Team Image

Justin Bouvet

Data Science
Team Image

Alexis Jensen

Media & Interactions
Team Image

Cristian-David Martinez-Collazos

Team Image

Kim-Phan Nguyen

Data Science
Team Image

Lucien Poirier

Sécurité
Team Image

Manuel Poisson

Sécurité

Outils et frameworks

Quelques uns des projets que nous utilisons

Python

Langage de script massivement utilisé

OpenCV

Framework de vision par ordinateur

ScikitLearn

Framework de Machine Learning

Tensorflow

Framework de Deep Learning

Keras

Framework de Deep Learning

StreamLit

Outil pour les interfaces graphiques