[Corpora-List] Call For Participation DEFT 2015

fraisse amel.fraisse at limsi.fr
Mon Feb 23 16:09:33 CET 2015


[English version below]

******************************************************** DEFT2015 -⁠ Appel à participation -⁠

Le défi DEFT est un atelier annuel d'évaluation francophone en fouille de textes. Cette onzième édition portera sur l'analyse de l'opinion, des sentiments et des émotions dans des tweets rédigés en français. Le corpus (15 000 tweets) et les annotations ont été réalisés dans le cadre du projet uComp. La thématique concerne les changements climatiques.

Site Web : http://deft.limsi.fr/2015/

Comité d'organisation : -⁠ Présidents : Amel Fraisse et Thierry Hamon -⁠ Amel Fraisse, Cyril Grouin, Thierry Hamon, Patrick Paroubek, Pierre

Zweigenbaum -⁠ contact : deft2015 at limsi.fr

******************************************************** Dates importantes : -⁠ Inscription : à partir du 16 février 2015 -⁠ Diffusion des corpus d'entraînement : 16 février 2015 -⁠ Test : 3 jours pris entre le 20 et le 24 avril 2015 -⁠ Soumission des articles décrivant les systèmes : 8 mai 2015 -⁠ Version définitive des articles : 22 mai 2015 -⁠ Atelier : 22 juin 2015, lors de la conférence TALN/⁠RECITAL à Caen

********************************************************

_Description des tâches_

Pour cette nouvelle édition du défi, nous proposons trois tâches d'analyse des tweets :

1. Classification des tweets selon leur polarité

Étant donné un tweet, cette tâche consiste à le classer, selon l’opinion/⁠sentiment/⁠émotion qu'il exprime, en positif, négatif, neutre ou mixte (si le tweet contient à la fois un sentiment positif et un sentiment négatif).

2. Classification fine des tweets

Cette tâche est divisée en deux sous-⁠tâches:

2.1 Identification de la classe générique de l'information exprimée

dans le tweet:

Cette sous-⁠tâche consiste à identifier la classe générique de l'information exprimée dans le tweet. Les 4 classes génériques proposées dans le cade de cette tâche sont:

INFORMATION : le tweet contient une information factuelle.

Exemple: Il a neigé cette nuit.

OPINION : le tweet exprime une opinion (une expression

intellective)

Exemple: Je suis d'accord, il faut plus de solutions alternatives!

SENTIMENT: le tweet exprime un sentiment (une expression

affective-⁠intellective)

Exemple: Satisfait! de ce qu'ils ont fait!

ÉMOTION: le tweet exprime une émotion (une expression affective)

Exemple: Le bruit de ces éoliennes, me met en colère.

2.2 Identification de la classe spécifique de l'opinion,

sentiment ou émotion:

Cette sous tâche consiste à identifier la classe de l'opinion, sentiment ou émotion parmi les 18 classes proposées dans le cadre du projet uComp.

Étant donné un tweet, cette tâche consiste à reconnaître l’opinion/⁠sentiment/⁠émotion principal(e) exprimé(e) explicitement dans ce tweet. Pour cela, 18 classes sont proposées : COLÈRE, PEUR, TRISTESSE, DÉGOÛT, ENNUI, DÉRANGEMENT, DÉPLAISIR, SURPRISE NÉGATIVE, APAISEMENT, AMOUR, PLAISIR, SURPRISE POSITIVE, INSATISFACTION, SATISFACTION, ACCORD, VALORISATION, DÉSACCORD et DÉVALORISATION (voir le tableau http://deft.limsi.fr/2015/descriptionTaches.fr.php#tab-OSEE). Par exemple, la classe PEUR regroupe les tweets exprimant plus spécifiquement une peur, une terreur, une inquiétude, ou une anxiété. Et la classe VALORISATION regroupe les tweets exprimant plus spécifiquement une valorisation, un intérêt, une appréciation, etc.

Le même tweet peut parfois exprimer plusieurs émotions, dans ce cas, la classe émotionnelle prépondérante lui sera attribuée.

3. Détection de la source, la cible et de l’expression d’opinion

Cette tâche consiste à identifier dans un tweet :

les groupes:

-⁠ SOURCE : l’empan du texte qui désigne explicitement la personne qui

exprime l'opinion/⁠sentiment/⁠émotion

-⁠ CIBLE : l’empan du texte qui désigne explicitement l’objet de

l’opinion/⁠sentiment/⁠émotion

-⁠ OSEE (Opinion Sentiment Emotion Expression) : l'empan de texte dont la

valeur sémantique correspond à l'expression

d'opinion/⁠sentiment/⁠émotion. L'expression sera annotée en lui

associant la classe émotionnelle correspondante parmi les 18 classes

proposées.

-⁠ MODIFIEUR : l'empan de texte correspondant aux modifieurs

-⁠ NÉGATION : l'empan de texte correspondant aux marqueurs de négation

Ainsi que les relations :

-⁠ DIT : permet de mettre en rapport la SOURCE avec l'OSEE.

-⁠ SUR : permet de mettre en rapport l'OSEE avec la CIBLE.

-⁠ MOD : permet de mettre en rapport les éventuels modifieurs

de l'OSEE.

-⁠ NEG : permet de mettre en rapport les éventuels marqueurs de

négation avec l'OSEE.

REMARQUES IMPORTANTES :

-⁠ Un guide d'annotation est disponible à cette adresse :

http://deft.limsi.fr/2015/guideAnnotation.php

-⁠ Si le tweet contient une information factuelle (class INFORMATION)

alors dans ce cas aucune annotation ne lui sera attribuée.

********************************************************

_Corpus_

Les participants disposeront d'un ensemble de tweets rédigés en français pour l'entraînement dans un premier temps, puis d'un deuxième ensemble de tweets pour la phase de test.

Conformément aux règles d'accès à Twitter et d'utilisation des tweets, lors des phases de développement et de test, les participants auront à disposition les identifiants des tweets et les outils permettant de constituer le corpus par eux-⁠mêmes. En cas de difficulté, les participants sont invités à contacter les organisateurs.

Les corpus d'entraînement seront fournis aux participants inscrits à partir du 16 février 2015. Le test aura lieu du 20 au 24 avril 2015. À partir de la date qu'ils auront choisie dans cet intervalle, les participants auront trois jours pour appliquer, sur les corpus de test, les méthodes mises en œuvre sur les corpus d'entraînement.

********************************************************

_Évaluation_

Il n'y a pas de limite quant au nombre de pistes auxquelles peut participer une équipe.

Le nombre maximum de systèmes différents présentés par une équipe pour une tâche donnée est limité à 3. Si une équipe souhaite présenter plus de 3 systèmes différents elle doit contacter au préalable les organisateurs.

À partir du moment où une équipe aura reçu le corpus de test, elle s'engage moralement à effectuer l'évaluation complètement en retournant les données annotées et en participant à l'atelier de clôture, où elle présentera les détails des algorithmes et méthodes utilisées.

Les équipes participant à DEFT2015 devront s'inscrire à l'aide du formulaire en ligne.

Les participants pourront utiliser toutes les ressources complémentaires qu'ils souhaitent, à l'exclusion des ressources utilisées par les organisateurs pour servir de base à la constitution des corpus ainsi que de toute autre source reproduisant tout ou partie de ces informations. Les participants devront mentionner les ressources qu'ils auront utilisées avec leur provenance lors de la présentation des résultats.

******************************************************** _Comité scientifique_

Frédérik Cailliau (Sinequa, Paris) Eric Charton (Yellow Page Group, Canada) Vincent Claveau (IRISA, Rennes) Béatrice Daille (LINA, Nantes) Michel Généreux (EURAC, Italy) Vincent Guigue (LIP6, Paris) Juan-⁠Manuel Torres-⁠Moreno (LIA, France & LANCI, Canada)

******************************************************** DEFT2015 -⁠ Text Mining Challenge -⁠ Call for participation -⁠

DEFT is an open, French speaking, text mining challenge, which takes place every year. The topic of this eleventh edition is opinion mining, sentiment analysis and emotion detection in tweets written in French. The corpus (15,000 tweets) and the annotations have been defined during the uComp project.

Web Site: http://deft.limsi.fr/2015/

Organization committee: -⁠ Presidents: Amel Fraisse and Thierry Hamon -⁠ Amel Fraisse, Cyril Grouin, Thierry Hamon, Patrick Paroubek, Pierre

Zweigenbaum -⁠ contact: deft2015 at limsi.fr

******************************************************** Important Dates: -⁠ Registration: from February 16th 2015 -⁠ Availability of training corpus: February 16th 2015 -⁠ Tests: 3 days chosen by the participant between the 20th and 24th of

April 2015 -⁠ Submission of the paper describing the participating systems and

results: May 8th 2015 -⁠ Final Version of the papers: May 22th 2015 -⁠ Workshop: June 22 2015, jointly with TALN/⁠RECITAL conference in Caen

******************************************************** Evaluation Tasks Description

For this new edition of DEFT, we propose 3 tasks for analyzing tweets:

1. Valence Classification of tweets

The aim of the task is the automatic classification of tweets depending on the opinion/⁠sentiments/⁠emotions expressed in the text: positive, negative, neutral or mixed, when the message holds both positive and negative opinions, sentiments or emotions.

2. Fine-⁠grained classification of the tweets

The aim of this task is to assess the performance of textual opinion, sentiment, emotion detection systems.

This task is divided into two sub-⁠tasks:

2.1 Detection of the generic class of the information expressed in

the tweet:

This sub-⁠task aims at detecting the generic class of the information expressed in the tweet. 4 generic classes are proposed in this context:

INFORMATION: the tweet expresses a factual information.

Example: Il a neigé cette nuit.

(It has been snowing this night)

OPINION: the tweet expresses an opinion (an intellective expression)

Example: Je suis d'accord, il faut plus de solutions alternatives!

(I agree, more alternative solutions are needed!)

SENTIMENT: the tweet expresses a sentiment (an affective-⁠intellective

expression)

Example: Satisfait! de ce qu'ils ont fait!

(Satisfied! of what they have done!)

EMOTION: the tweet expressed an emotion (an affective expression)

Example: Le bruit de ces éoliennes, me met en colère.

(the noise of these wind turbines, makes me angry.)

2.2 Detection of the specific class of the

opinion/⁠sentiment/⁠emotion:

This sub-⁠task aims at detecting the class of the opinion, sentiment, emotion among 18 classes, as proposed in the uComp project.

For each tweet of the corpus, the participating system will try to detect the main emotion expressed in the text. To this end, we propose 18 classes: COLÈRE (anger), PEUR (fear), TRISTESSE (sadness), DÉGOÛT (disgust), ENNUI (boredom), DÉRANGEMENT (disturbance), DÉPLAISIR (displeasure), SURPRISE NÉGATIVE (negative surprise), APAISEMENT (appeasement), AMOUR (love), PLAISIR (pleasure), SURPRISE POSITIVE (positive surprise), INSATISFACTION (dissatisfaction), SATISFACTION (satisfaction), ACCORD (agreement), VALORISATION (valorization), DÉSACCORD (disagreement) and DÉVALORISATION (devalorization) (see Table http://deft.limsi.fr/2015/descriptionTaches.en.php#tab-OSEE). For instance, the PEUR (fear) class regroups tweets that express fear, terror, worry or anxiety, while the VALORSATION (valorization) gathers messages expressing appreciation, valorziation, or interest.

Sometimes, a tweet may contain expressions of several emotions, in that case the main one will be associated to the whole tweet.

3. Detecting source, target and expression of opinion/⁠sentiment/⁠emotion

For this task, the system will identify in a tweet:

the groups:

-⁠ SOURCE: the text span which mentions explicitly the person who holds

the opinion/⁠sentiment/⁠emotion,

-⁠ CIBLE (TARGET): the text span which mentions explicitly the object of

the opinion/⁠sentiment/⁠emotion,

-⁠ OSEE (Opinion Sentiment Emotion Expression): the text span whose

semantics expresses the opinion/⁠sentiment/⁠emotion. The expression

will be tagged with one of the 18 semantics classes presented

previously.

-⁠ MODIFIEUR: the text span corresponding to the modifiers

-⁠ NÉGATION: the text span corresponding to the markers of the negation

and also the relations:

-⁠ DIT (SAY) : connects the SOURCE with the OSEE.

-⁠ SUR (ON): connects the OSEE with the CIBLE.

-⁠ MOD (MODIFIER): connects the potential modifiers

of the SEE.

-⁠ NEG (NEGATION): connects the potential markers of the negation

with the OSEE.

IMPORTANTES REMARKS :

-⁠ Annotation guidelines are available at this address:

http://deft.limsi.fr/2015/guideAnnotation.php

-⁠ If the tweet contains a factual information (class INFORMATION) then,

no annotation are provided for this tweet.

******************************************************** _Corpus_

The participants will process a set of French tweets divided into two batches. One provided with its annotation for the training phase of the evaluation, and another for the test phase.

In agreement with Twitter access and usage policy, the participants will only receive tweet identifiers and a toolkit to collect the data themselves from Twitter. If needed, support will be available from the DEFT organizers.

The training corpus will be available for the registered participants from February 16 2015. The test phase will take place between th 20th and 24th of April 2015. The participants will have 3 consecutive days chosen at their discretion within the test period to complete their runs and return the test corpus annotated to the organizers.

******************************************************** _Evaluation_

A team can participate to any number of tracks.

The maximum number of systems that a team may present for a track is 3. If a team wishes for a special reason to present more than 3 systems to a track he should contact first the organizers.

Receiving the test corpus is morally binding for a team who should do is best to annotate the test corpus and return it to the organizers in time for participating to the closing workshop, where the team is expected to present in details the methods and algorithms used to compute the annotations.

Teams who wish to participate should use the on-⁠line form to register.

The teams can use any complementary resources that they want, except resource which reproduce all or part of the information used by the organizers for making the evaluation corpus. The teams are expected to describe the resources that they have used as well as their origin during the closing workshop.

******************************************************** _Scientific Committee_

Frédérik Cailliau (Sinequa, Paris) Eric Charton (Yellow Page Group, Canada) Vincent Claveau (IRISA, Rennes) Béatrice Daille (LINA, Nantes) Michel Généreux (EURAC, Italy) Vincent Guigue (LIP6, Paris) Juan-⁠Manuel Torres-⁠Moreno (LIA, France & LANCI, Canada) ********************************************************



More information about the Corpora mailing list