[Corpora-List] Atelier TALaRE : Traitement Automatique des Langues Régionales de France et d'Europe

Marianne Vergez-Couret marianne.vergez at gmail.com
Thu Feb 14 16:29:05 CET 2013


*Atelier TALaRE 2013 : Traitement Automatique des Langues Régionales de France et d’Europe***

*Le 21 juin*

*Atelier TALN 2013* 20e conférence sur le Traitement Automatique des Langues Naturelles, Sables d’Olonne, 17-21 juin 2013 (See English Below) Les recherches en traitement automatique des langues peu et moyennement dotées connaissent actuellement un regain d’intérêt à travers la constitution de corpus et de lexiques dans une perspective globale de préservation du patrimoine culturel. Les langues régionales sont généralement à ranger dans cette catégorie, car les ressources électroniques pour ces langues sont rares, peu visibles et sous exploitées, parfois inexistantes. Doter ces langues de ressources électroniques (notamment de corpus écrits, de lexiques et de dictionnaires) est un enjeu considérable pour leur diffusion, leur enseignement, leur sauvegarde, leur normalisation... Il est, entre autres, nécessaire de développer des corpus écrits, les plus représentatifs possibles des usages de la langue, en rassemblant des œuvres écrites de différents genres (littérature, théâtre, poésie, conte, presse...) et, pour certaines langues, en accueillant la variation (dialectale, phonologique, graphique). La seconde étape consiste logiquement à enrichir ces corpus d’annotations. L'élaboration des corpus annotés pour les langues régionales soulève de nombreuses questions méthodologiques. Il n'est notamment pas toujours possible de transposer directement les modèles existants pour les langues très dotées, notamment en raison des variations dialectales et phonologiques et du manque de standardisation graphique. Les corpus sont également une base nécessaire pour l'élaboration des dictionnaires, lexiques et glossaires. Sur le plan linguistique, les corpus sont nécessaires pour la description des usages réels d'une langue. Et en contre-partie, sur le plan technique, les dictionnaires et les lexiques sont nécessaires pour accompagner l’élaboration des corpus (reconnaissance optique de caractères, lemmatisation et analyse morpho-syntaxique). Lorsque ces ressources existent déjà pour une langue (dictionnaires, lexiques, glossaires bilingues couplant une langue régionale et une langue nationale), il se pose la question de la mutualisation des informations contenues dans ces ressources, de l'enrichissement de ses données avec des informations supplémentaires (phonétiques, morpho-syntaxiques, syntaxiques…) et de leur utilisation dans des outils de TAL. Corpus et lexiques sont enfin nécessaires pour le développement d'outils de traitement automatique des langues (analyse morpho-syntaxique, syntaxique…).

Au-delà des difficultés techniques et méthodologiques, il ne faut pas négliger les difficultés plus pragmatiques liées au manque de ressources financières et humaines pour mener à bien la constitution de ressources. Cet atelier a pour but de réunir des chercheurs qui participent à la constitution de ressources linguistiques et d'outils "de base" du TAL pour les langues régionales de France et d’Europe afin de partager nos questionnements et nos méthodologies, de mutualiser nos réflexions et les techniques développées.

Nous appelons à la soumission de travaux de recherche autour de la constitution de ressources et d'outils pour des langues régionales ou minoritaires de France et d’Europe (y compris les langues d’Outre Mer), sur les thématiques suivantes (sans s’y limiter):

v Ressources :

· Constitution de corpus écrits

· Elaboration de lexiques, dictionnaires, glossaires

v Outils :

· Outils pour la numérisation, l’océrisation et le codage des textes

· Annotations linguistiques (manuelle et automatique pour analyses morpho-syntaxiques, syntaxiques…)

· Interface et outils de recherche sur corpus

v Articulation entre théorie et pratique autour des questions de la variation

*CALENDRIER*

- Date limite de soumission : 29 mars 2013

- Notification aux auteurs : 19 avril 2013

- Date limite de soumission des versions définitives : 3 mai 2013

*SOUMISSION DES ARTICLES*

Les articles seront rédigés en français pour les francophones, en anglais pour ceux qui ne maîtrisent pas le français. Ils devront suivre le format de TALN 2013 et comprendront 12 à 14 pages. Une feuille de style LaTeX et un modèle Word sont disponibles sur le site web de la conférence ( http://www.taln2013.org/soumettre/). Les articles retenus donneront lieu à une présentation de 30 mn, discussion comprise.

Les articles, au format pdf, doivent être déposés à l’adresse https://www.easychair.org/conferences/?conf=talare2013

*CRITÈRES DE SÉLECTION*

Les critères de sélection sont les mêmes que ceux définis par TALN 2013 pour les articles de recherche.

*COMITE D’ORGANISATION*

Marianne Vergez-Couret

CLLE-ERSS, Université de Toulouse 2

Delphine Bernhard

LILPA, Université de Strasbourg

Jean-Michel Eloy

LESCLAP, Université de Picardie

Christophe Rey

LESCLAP, Université de Picardie

* *

*COMITE DE PROGRAMME (en cours de confirmation)*

*Contact* : Marianne Vergez-Couret (vergez at univ-tlse2.fr)

*Workshop TALaRE 2013: Natural Language Processing for French and European Regional Languages***

*June, 21st*

*Held in conjunction with TALN 2013* 20e conférence sur le Traitement Automatique des Langues Naturelles, Sables d’Olonne, june, 17th-21st 2013

Research in natural language processing for under-resources languages is currently an active area, in a global perspective of cultural heritage preservation. Regional languages generally fall into this category, as electronic resources for these languages are rare and sometimes non-existent. Providing electronic resources for these languages (including written corpora, lexicons and dictionaries) is a major asset for supporting their dissemination, teaching, preservation or standardization. It is, among others, necessary to develop written corpora, which are the most representative of language use, by collecting written works of various genres (literature, theater, poetry, storytelling, press ...) and, for some languages, by taking variation into account (dialectal, phonological or graphical variations). The second step is logically to enrich the corpora with annotations. The development of annotated corpora for regional languages raises many methodological issues. It is not always possible to directly transpose existing models for resource-rich languages, partly because of dialectal and phonological variation and the lack of writing standards. The corpora are also a basis for the development of dictionaries, lexicons and glossaries and are necessary for the description of the actual use of a language. On the other hand, dictionaries and lexicons are needed to support the development of the corpora (optical character recognition, lemmatization and morpho-syntactic analysis). When these resources already exist for a language (dictionaries, lexicons, bilingual glossaries coupling a regional and a national language), the question arises as to how information contained in these resources can be shared and possibly be enriched with additional annotations (phonetic, morphosyntactic, syntactic, ...). Finally, corpora and lexicons are necessary for the development of natural language processing tools (morpho-syntactic analysis or syntactic analyzers ...).

Beyond the technical and methodological challenges, the more pragmatic difficulties related to the lack of financial and human resources to carry out the creation of resources should not be neglected. This workshop aims to bring together researchers involved in the creation of language resources and "basic" NLP tools for French and European regional languages, in order to share their views, methodologies and techniques.

We invite submission of papers on the constitution of resources and tools for regional or minority languages of France and Europe (including languages from overseas departments and territories of France).

Topics of interest include, but are not limited to:

v Resources:

· Written corpus builing

· Development of lexicons, dictionaries, glossaries

v Tools :

· Scanning, OCR and text encoding

· Linguistic annotations (manual and automatic for morpho-syntactic or syntactic analysis,...)

· Corpus management and query

v Articulation between theory and practice when dealing with variation**

*IMPORTANT DATES*

- Paper submission deadline: March 29, 2013

- Notification of paper acceptance : April 19, 2013

- Deadline for camera-ready versions: May 3, 2013

*PAPER SUBMISSION*

Papers will be written in French for French-speaking authors or English for non-French-speaking authors. They should have from 12 to 14 pages in the TALN 2013 format. A LaTeX style file and a MS Word template are available on the conference website (http://www.taln2013.org/soumettre/). Selected articles will be allocated 30 minutes for the oral presentation (including discussion).

Authors should submit the papers in PDF through the submission page at https://www.easychair.org/conferences/?conf=talare2013**

*SELECTION CRITERIA*

The selection criteria will be the same as those that apply for TALN 2013 research articles.

*ORGANIZING COMMITTEE*

Marianne Vergez-Couret

CLLE-ERSS, Université de Toulouse 2

Delphine Bernhard

LILPA, Université de Strasbourg

Jean-Michel Eloy

LESCLAP, Université de Picardie

Christophe Rey

LESCLAP, Université de Picardie

* *

*PROGRAM COMMITTEE (in progress)*

*Contact* : Marianne Vergez-Couret (vergez at univ-tlse2.fr) -------------- next part -------------- A non-text attachment was scrubbed... Name: not available Type: text/html Size: 21352 bytes Desc: not available URL: <https://mailman.uib.no/public/corpora/attachments/20130214/32c3cf48/attachment.txt>



More information about the Corpora mailing list