[Corpora-List] DEFT 2010 - 2e appel à participation

Dominic Forest dominic.forest at umontreal.ca
Tue Apr 6 16:32:05 CEST 2010


********************************************************

DEFT 2010 - Appel à participation

~~ Où et quand un article de presse a-t-il été écrit ? ~~

Atelier d'évaluation en fouille de textes sur l'identification de la période et du lieu de publication d'articles de presse francophone

Date de l¹atelier : 23 juillet 2010 (conjointement à TALN 2010) Lieu : Montréal (Canada)

Site Internet : http://www.groupes.polymtl.ca/taln2010/deft.php Contact : deft10 at limsi.fr

Cette campagne d'évaluation bénéficie du soutien de CEDROM-SNi, du CNRTL et de ELDA.

********************************************************

DEFT2010, sixième édition de la campagne d'évaluation en fouille de textes, portera sur les variations diachroniques et géographiques en corpus de presse francophones. L'atelier de clôture se tiendra à Montréal dans le cadre de la conférence TALN 2010.

Un locuteur francophone natif est capable de détecter dans une conversation des expressions spécifiques à un pays (par exemple au niveau des nombres "septante" et "nonante" en Belgique et en Suisse contre "soixante-dix et "quatre-vingt-dix" en France et au Québec, et "huitante" en Suisse vs. "quatre-vingts" dans les trois autres pays).

Un lecteur est également capable de mobiliser des connaissances linguistiques, culturelles et historiques pour identifier la période (sur une échelle plus ou moins grande) de parution d'un article (en identifiant un événement particulier et/ou des tournures linguistiques ou des entités nommées jugées représentatives d'une période donnée).

Comme tout acte de communication, les documents ont une origine et un public visé ; leur nature, c'est-à-dire leurs contenu, niveaux de langue, etc. en dépend fortement. Dans cette édition du défi fouille de textes, nous nous intéressons à l'origine des documents, plus particulièrement à l'époque et au lieu de leur création.

Dans ce cadre, nous proposons plusieurs pistes distinctes et indépendantes.

* Piste 1. Cette piste, relative à la variation diachronique, concerne l'identification de la décennie de publication d'extraits d'articles français d'une taille de 300 mots. Les extraits de ce corpus couvrent une période comprise entre 1800 et 1944.

Le corpus d'apprentissage se composera d'extraits (300 mots) d'articles de quatre titres de journaux différents, le corpus de test intègrera des extraits provenant de ces quatre mêmes titres plus un cinquième titre absent du corpus d'apprentissage, de manière à éprouver la robustesse des systèmes.

* Piste 2. L'identification de l'origine géographique de chaque document (pays d'origine) constituera la seconde piste de cette campagne. Elle reposera sur des corpus de presse rassemblant plusieurs titres provenant de France et du Québec.

Pour ces deux pistes, les participants auront la possibilité d'utiliser des ressources externes (linguistiques, historiques, etc.) qu'ils devront obligatoirement déclarer lors de la soumission des résultats. En ce qui concerne plus spécifiquement la piste 1, les ressources provenant de Gallica ne seront pas autorisées.

Nous invitons les participants à participer aux deux pistes. Il est cependant possible de ne participer qu'à une seule des pistes.

Des corpus d'apprentissage seront fournis aux participants inscrits, à partir du 26 février 2010. Ces corpus sont composés de 60% des corpus d'origine. Les 40% de corpus restants seront utilisés pour le test. Le test aura lieu sur une fenêtre d'un mois, à partir de la mi-mars. À partir de la date qu'ils auront choisie dans cet intervalle, les participants auront trois jours pour appliquer, sur les corpus de test, les méthodes mises au point sur les corpus d'apprentissage et nous retourner leurs résultats d'analyse.

********************************************************

Dates importantes :

- Inscription : à partir du 25 janvier 2010. Les équipes souhaitant participer à DEFT 2010 devront s'inscrire à l'aide du formulaire en ligne et signer les accords de mise à disposition des corpus. - Diffusion des corpus d'apprentissage : fin mars 2010 - Test : au choix, 3 jours pris courant mai 2010 - Diffusion des résultats : fin mai 2010 - Soumission des articles : 14 juin 2010 - Atelier : le 23 juillet 2010 lors de la conférence TALN

********************************************************

Comité d'organisation : - Dominic Forest (EBSI, UdeM) - Cyril Grouin (LIMSI) - Lyne Da Sylva (EBSI, UdeM)

********************************************************

____________________________________________________________ Dominic Forest, Ph. D. Professeur adjoint

Adresse postale : École de bibliothéconomie et des sciences de l'information Université de Montréal C.P. 6128, succursale Centre-ville Montréal (Québec) H3C 3J7

Adresse géographique : École de bibliothéconomie et des sciences de l'information Université de Montréal Pavillon Lionel-Groulx 3150, rue Jean-Brillant, bureau C-2046 Montréal (Québec) H3T 1N8

Téléphone : (514) 343-6119 Télécopieur : (514) 343-5753

Courrier électronique : dominic.forest at umontreal.ca Sites Internet : www.dominicforest.name et www.ebsi.umontreal.ca ____________________________________________________________



More information about the Corpora mailing list