L'Institut national de l'audiovisuel (Ina) archive et valorise le patrimoine audiovisuel national, à la fois à des fins patrimoniales et commerciales. Pour cela, il constitue des notices documentaires décrivant différents types de séquences : extraits d'émissions, émissions entières (appelées "intégrales"), journaux télévisés dans leur ensemble, reportages de ces mêmes journaux, etc.
Dans le domaine des actualités, les notices documentaires permettent de retrouver une information à partir de critères classiques de recherche d'information: mots-clés, noms propres, date, etc... En revanche, il reste particulièrement difficile de relier des contenus entre eux afin de naviguer à partir d'un point d'entrée. Le premier objectif de la thèse sera donc d'enrichir une collection d'archives des actualités de l'INA sur une longue période (40 à 50 ans) par des liens permettant d'une part de mettre en relation les documents sur un même sujet et, d'autre part, d'organiser temporellement les documents pour suivre l'évolution d'un sujet d'actualité donné (notion de "topic threading"). Le second objectif consistera à développer et expérimenter, en partenariat avec les unités concernées de l'INA, des modes de navigation à partir des relations qui auront été établies.
On s'intéressera tout d'abord à lier deux documents en fonction de leur sens, ce qui implique de « comprendre » leurs contenus. Le recours aux notices documentaires permettra de s'affranchir dans un premier temps de cette étape de compréhension. Toutefois, on étudiera également la pertinence de l'utilisation d'une transcription automatique de la parole contenue dans les reportages, cette dernière apportant souvent des informations complémentaires par rapport aux notices. La définition de liens entre documents servira de base à une structuration navigable de la collection. On étudiera par exemple des méthodes de construction de graphes à partir d'une mesure de la distance sémantique entre documents: élagage d'un graphe complet, recherche des cliques, clustering de noeuds, etc. Enfin, on s'attachera à développer une interface de navigation exploitant le résultat de l'étape de structuration. Cette interface pourra être destinée soit à un usage grand public, dans l'optique de la mise à disposition d'archives audiovisuelles sur le site Ina.fr, soit à des usages scientifiques tels que ceux pratiqués par les chercheurs de l'Inathèque dans le centre de consultation de la Bibliothèque nationale de France.
Cette thèse se déroulera dans un double contexte industriel et académique, dans le cadre du projet QUAERO. Elle s'effectuera majoritairement dans les locaux de l'INA à Paris avec des séjours réguliers au sein de l'équipe Texmex de l'IRISA (UNR 6074) de Rennes.
Encadrement et contacts : G. Gravier (IRISA/CNRS, guillaume.gravier at irisa.fr), P. Sébillot (IRISA/INSA, guillaume.gravier at irisa.fr), J. Carrive (INA, jcarrive at ina.fr) Financement : INA, dans le cadre du projet OSEO/QUAERO École doctorale de rattachement : MATISSE / INSA de Rennes Liens : http://www.ina.fr, http://www.irisa.fr, http://www.quaero.org