Extraction automatique de métadonnées de spectacle

Contexte

La Culture Crée développe des outils et des services pour favoriser la trouvabilité et la découvrabilité des spectacles sur le marché de consommation. Sa technologie Footlight moissonne les informations non-structurées ou semi-structurées au sujet des spectacles sur les sites Web et les traduit en métadonnées structurées lisibles par les machines.

La Culture Crée aspire ainsi à développer le graphe de données qui regroupe l’ensemble des oeuvres en arts vivants au Canada, en se basant exclusivement sur les informations des sources primaires (soit, celles des producteurs et des diffuseurs de spectacles) et en permettant de les lier aux graphes de données existants, déjà largement utilisés sur le Web. Elle vise ainsi à outiller les organismes culturels afin de mieux répondre aux enjeux de découvrabilité, mettre en commun les données du milieu et leur permettre de se réapproprier le discours sur leurs œuvres.

Objectifs

Afin d’optimiser le temps de travail et de pallier aux enjeux de scalabilité, nous avons collaboré avec la Culture Crée pour introduire de l’intelligence artificielle dans le processus d’extraction d’information. L’objectif du mandat était d’explorer le potentiel d’un modèle d’extraction automatique de l’information sur les artistes, lieux et dates des événements à partir de liens url, à travers la réalisation d’un prototype.

Méthodologie

Nous avons effectué l’ensemble du cycle de science de données, de la définition de l’angle d’affaires au prototype de l’outil, soit les étapes suivantes :

  • Identification de l’angle d’affaires
  • Identification et diagnostic des données disponibles
  • Transformation de données (formats html en textes ) 
  • Développement, test et sélection du meilleur modèle (développement de deux modèles : modèle de reconnaissance d’entités nommés (traitement automatique de langage naturel) et modèle score de pertinence (apprentissage machine)

Résultats

Le modèle de reconnaissance d’entités performe bien puisqu’ il permet de capturer 70.4% des entités d’artiste principales d’un événement, et ce réduisant le temps de travail de plusieurs jours pour une seule organisation à seulement quelques minutes, peu importe le nombre de spectacles ou d’organisations à traiter. Elle permet par ailleurs d’en identifier d’autres parfois secondaires – ce qui n’était pas possible auparavant puisque la méthode traditionnelle permettait simplement de comparer les mots à une base de données existantes. Une vérification humaine post-modèle reste toutefois nécessaire pour valider les résultats du modèle. L’existence du score de pertinence facilite ce travail en permettant à l’utilisateur de jouer avec l’outil selon ses besoins et de réduire la liste d’entités trouvées par le modèle au besoin.