Patent decoder

décembre 2017 visualisation, projet, python, brevet

screenshot

Voir en action avec les brevets du coupe-ongles.

Patent Decoder

Projet d'interface pour visualiser des brevets avec un point de vue technique, c'est-à-dire avec les figures, la légende et le texte de description technique. Pas de revendications ou de date de priorité... etc

Les données sont obtenues entre autres avec google BigQuery et ses Patents Public Data. L'interface web est réalisée avec Flask, puis le site statique est obtenu avec Flask-Frozen.

Un des gros aspects du projet est d'extraire les images depuis les PDF des brevets. Ceci est réalisé avec la libraire ndimage de scipy. Une certaine succesion d'opérations de dilatation et d'érosion permet de détecter la présence d'une figure (a contrario du texte) puis de trouver la zone où elle s'étend. L'astuce est de chercher les zones encloses larges.

étape extraction figure

L'extraction de la légende se base sur une série d'expressions régulières cherchant les numéros isolés, puis un choix est fait pour sélectionner un unique label : pour chaque mot en partant de la fin, est selectionné celui le plus présent; si ex aequo alors arrêt.

La suite

  • utiliser open patent service comme source de données
  • Traiter le texte de la description avant la recherche de la légende, afin de supprimer quelques erreurs.
  • Gérer les numérotations avec des lettres
  • OCR des images : numéro sur les figures