Prenons un exemple. Vous avez réussi à trouver et à reconstruire un document détruit qui pourrait prouver des activités illégales telles que l'évasion fiscale d'une certaine entreprise X. L'entreprise X nie et blâme une autre entreprise Y pour avoir fabriqué des preuves. Vous avez accès aux deux destructeurs des deux entreprises. Avec ShredID, vous pouvez maintenant découvrir quelle entreprise est coupable.
Vous devez tout d'abord attribuer des données (sous forme d'images numérisées de documents détruits) à deux profils de destructeurs qui feront l'objet de la classification.
Vous devez maintenant fournir des données inconnues qui seront classées. Vous pouvez ensuite choisir parmi plusieurs méthodes de classification fournies par notre outil. Ces méthodes sélectionnées contribueront ensuite à une prédiction finale de l'origine des données fournies.
Que ce soit pour la phase de prédiction ou d'apprentissage, le premier travail de notre outil est de prétraiter les images numérisées. Tout d'abord, elles sont nettoyées à l'aide d'opérations de morphologie. Ensuite vient une détection de couleur dans un espace HSV pour distinguer les bandes de papier d'un fond vert. La prochaine étape est de séparer les bandes avec un algorithme de détection des contours, puis de les redresser au cas où elles seraient légèrement déformées. Enfin, elles sont séparées en deux demi-bandes et leur profil est généré en tant que signal à 1 dimension.
Ce signal à 1 dimension est utilisé pour générer des données pour alimenter des classificateurs, par exemple des tracés de récurrence et des transformations de Fourier.
Parfois, la solution la plus simple est la meilleure. Nous utilisons la largeur des bandes pour déterminer leur origine. Aussi simple que cela puisse paraître, cela suffit parfois à donner une réponse correcte.
Utilisée massivement dans le traitement du signal, cette technique nous permet d'extraire les fréquences fondamentales du signal créé par les dents des roues du destructeur. Nous comparons ensuite ces fréquences et leurs amplitudes respectives à un spectre de référence associé à chaque destructeur connu.
Certaines caractéristiques du signal comme la dérivée maximum et minimum, les principales harmoniques issues du spectre de Fourier ou la largeur moyenne d'une bande sont extraites pour être fournies à un algorithme de random forest, un modèle de combinaison d'arbres de décisions.
Les techniques de Deep Learning sont souvent les plus performantes sur des tâches de classification d'images. Nous utilisons des réseaux de neurones récurrents sur des tracés de récurrence ( une représentation en deux dimensions d'un signal en une dimension) pour prédire le bon destructeur.
Les caractéristiques que nous fournissons à la random forest vont également être utilisées par notre dernier classifieur. L'algorithme des K plus proches voisins (K Nearest Neighbours) nous permet de représenter une bande de papier dans un espaces de hautes dimensions, et mesurer à quelle distance elle se situe par rapport aux autre points.