[Corpora-List] CFP: ACor4French: Annotated Corpora for French, Orleans, extended deadline

Karën Fort karen.fort at paris-sorbonne.fr
Sat Apr 15 10:06:36 CEST 2017


ACor4French: Annotated Corpora for French, Available ressources and exploitation June 26, 2017 Orleans, France

extended deadline for submission: April 24, 2017

Submissions in English are possible for non French-speaking authors. Call for papers (in French, sorry !) below.

Atelier "Les corpus annotés du français : ressources disponibles et exploitation en TAL" le 26 juin 2017 dans le cadre de conférence TALN 2017 à Orléans http://talc2.loria.fr/caf2017

------------------------ Description de l’atelier ------------------------

Dans de nombreuses tâches du TAL, les corpus annotés (semi-)manuellement sont utilisés comme données d’apprentissage et/ou comme données de référence pour l’évaluation des outils. Dans les deux cas, le fait de disposer de corpus annotés de qualité est un enjeu essentiel. Pour la langue française, les corpus annotés ont fait l’objet de nombreux projets pendant ces dix dernières années (FTB, PFC, Valibel, Sequoia, FDTB, Rhapsodie, Annodis, Orféo, ...) que ce soit pour l’analyse syntaxique (en constituants ou en dépendances), pour l’analyse du discours, pour les anaphores pronominales, pour la prosodie, etc. Ces projets ont fait des choix linguistiques souvent indépendants les uns des autres et les données ne sont pas toujours facilement convertibles d’une ressource à l’autre. De plus, ces ressources ne sontpas forcément libres ou n’ont pas toutes des licences compatibles qui permettent de redistribuer de nouvelles versions corrigées. Par ailleurs, un nouveau projet international de création de corpus annotés en syntaxe de dépendances pour différentes langues a démarré (Universal Dependencies) qui pousse à réfléchir et à repositionner les données spécifiques au français. De plus, la création de ressources de ce type par myriadisation par le jeu (jeux ayant un but) pose de nouvelles questions, par exemple quant à l’expertise des annotateurs. L’objectif de cet atelier est que les chercheurs impliqués dans ces différents développements pour la langue française se rencontrent pour faire un état des lieux des corpus disponibles, des besoins futurs et des nouvelles initiatives qui pourraient se mettre en place pour coordonner les prochains projets de développement de corpus afin qu’ils s’enrichissent mutuellement.

----------------- Dates importantes ----------------- 17 avril 2017 : Date limite de soumission 15 mai 2017 : Retour aux auteurs 29 mai 2017 : Version finale 26 juin 2017 : Atelier

------------------- Types de soumission ------------------- Deux types de soumission sont attendus :

* Présentation d’un corpus annoté du français. Les auteurs

s’attacheront à souligner l’originalité éventuelle des annotations,

l’objectif visé, notamment en ce qui concerne les applications en

TAL, et/ou les méthodes utilisées pour réaliser les annotations. Ces

contributions devront préciser les méta-données suivantes :

- Auteurs des annotations

- Auteurs du corpus

- Autres contributeurs

- Genre du corpus (presse, littérature, radio, interview ...)

- Type d’annotation (morphosyntaxe, relation de discours, prosodie

...)

- Taille du corpus

- Licence

- Version actuelle, nouvelles versions prévues

- Site Web, gestion du développement et des corrections

- Publication de référence

- Réflexion sur la problématique de production de corpus pour le

français. Les thèmes suivants pourront être abordés (liste non

exhaustive) :

* Comparaison ou fusion de plusieurs corpus disponibles

- Reflexion sur les besoins futurs de développement de nouveaux corpus

pour le français

- Partage de méthodes

- Compatibilité à l’international

- Reflexion sur les modes de développement et de diffusion (licences)

- Modalités de soumission

Le format des soumissions attendues est identique à celui des articles courts de TALN. Il s’agit donc de 6 pages (+2 pages pour les références). Les articles seront rédigés en français pour les francophones et en anglais pour les auteurs qui ne maîtrisent pas le français. Les soumissions ne sont pas anonymes. Les soumissions doivent être en PDF et suivre le format défini dans le fichier de style TALN (http://taln2017.cnrs.fr/wp-content/uploads/2016/11/taln2017_styles.zip) Les soumissions se font via le easychair de TALN 2017 (https://easychair.org/conferences/?conf=taln2017) dans le “track” dédié Atelier Les corpus annotés du français : ressources disponibles et exploitation en TAL.

--------------------- Comité d’organisation --------------------- Laurence Danlos (LLF, Paris 7) Karën Fort (STIH, Paris-Sorbonne) Bruno Guillaume (Loria, Nancy) Sylvain Kahane (Modyco, Nanterre)

------------------- Comité scientifique ------------------- Christophe Benzitoun (ATILF, Nancy) Philippe Blache (LPL, Aix-Marseille) Marie Candito (LLF, Paris 7) Mathieu Constant (ATILF, Nancy) Laurence Danlos (LLF, Paris 7) Marie-Catherine de Marneffe (OSU, Ohio) Iris Eshkol-Taravella (LLL, Orléans) Carole Etienne (ICAR, Lyon) Cécile Fabre (ERESS, Toulouse) Karën Fort (STIH, Paris 4) Kim Gerdes (LPP, Paris 3) Bruno Guillaume (Loria, Nancy) Sylvain Kahane (Modyco, Nanterre) Anne Lacheret (Modyco, Nanterre) Frédéric Landragin (Lattice, Paris) Marie-Claude Lhomme (OLST, Montréal) Yann Mathet (GREYC, Caen) Philippe Muller (IRIT, Toulouse) Alexis Nasr (LIF, Aix-Marseille) Guy Perrier (Loria, Nancy) Sophie Rosset (Limsi, Paris) Djamé Seddah (Alpage, Paris 4) Anne-Catherine Simon (UCL, Louvain)

-- Karën Fort Maîtresse de Conférences en informatique Université Paris-Sorbonne laboratoire STIH 28, rue Serpente 75006 Paris Bureau D211 (privilégier les courriels) http://karenfort.org

-------------- next part -------------- A non-text attachment was scrubbed... Name: not available Type: text/html Size: 8370 bytes Desc: not available URL: <https://mailman.uib.no/public/corpora/attachments/20170415/0ea7f6a2/attachment.txt> -------------- next part -------------- A non-text attachment was scrubbed... Name: signature.asc Type: application/pgp-signature Size: 819 bytes Desc: OpenPGP digital signature URL: <https://mailman.uib.no/public/corpora/attachments/20170415/0ea7f6a2/attachment.asc>



More information about the Corpora mailing list