[Corpora-List] TAL et humanités numériques - NLP and Digital Humanities

Jean-Gabriel Ganascia jean-gabriel.ganascia at lip6.fr
Thu Jan 31 09:43:28 CET 2019


Chères et chers collègues, veuillez trouver ci-dessous le premier appel du Numéro Spécial de la revue TAL “TAL et Humanités Numériques”.

(English version below)

Les coordinateurs Jean-Gabriel Ganascia, Francesca Frontini

Site: tal-60-3.sciencesconf.org <http://tal-60-3.sciencesconf.org/>

<>APPEL À PROPOSITION Les humanités numériques (HN) recouvrent aujourd’hui un champ en rapide expansion; si leurs frontières sont à la fois difficiles à identifier et en constante évolution (Dacos and Mounier, 2015; Terras et al., 2013; Ganascia, 2015), leur impact sur les humanités, c’est-à-dire sur les disciplines qui étudient les cultures humaines et/ou les œuvres humaines, ne doit pas être sous-estimé. En effet, la facilité d'accès aux ressources numériques, et en particulier la numérisation des contenus et la façon dont les ordinateurs les traitent, transforme les humanités et ouvre la voie à l'émergence de nouvelles pratiques scientifiques. Étant donné que bon nombre de ces contenus, que ce soit en littérature, en philosophie, en archéologie ou en histoire, sont donnés sous forme textuelle, les techniques du traitement automatique du langage naturel (TAL) sont potentiellement d'un grand profit pour les humanités numériques. Les HN et la recherche actuelle en TAL sont toutes deux issues d'une tradition commune, celle de « l'informatique littéraire et linguistique » (“Literary and Linguistic Computing”) (Hockey, 2004). En effet, nombre de chercheurs font souvent remonter les origines des HN au projet Index Thomisticus de Roberto Busa qui visait, dès 1949, à créer automatiquement un index de la Somme théologique de Thomas d’Aquin avec des ordinateurs. Et, aujourd'hui, le domaine que l'on peut qualifier d’« humanités numériques textuelles » constitue encore un vaste sous-domaine des HN. Cependant, alors que la recherche actuelle en TAL s'articule généralement autour de tâches bien identifiées et plus ou moins complexes (comme l'étiquetage syntaxique, la lemmatisation, la racinisation (stemming), la reconnaissance d’entités nommées, l'analyse syntaxique, l'extraction d'informations, les systèmes question-réponse, le résumé de texte, etc.), les HN utilisent des techniques et des méthodes de TAL comme outils, et les utilisent dans des scénarios de recherche complexes, allant de l'acquisition à l’annotation et l’analyse de textes, et pouvant aussi bien porter sur des collections de textes non structurées, que sur des éditions numériques hautement encodées. En conséquence, alors que les progrès en TAL sont supposés avoir des implications positives pour les recherches dans le secteur des humanités, les défis ultimes dans la perspective des HN ne visent pas uniquement à améliorer les performances des outils de TAL en eux-mêmes, mais leur utilisation en vue d’une recherche innovante qui pourrait vraiment faire avancer la connaissance disciplinaire dans les différents champs des humanités. Au-delà, la taille des corpus peut varier considérablement dans les HN, depuis de grandes bibliothèques de centaines de milliers d’ouvrages numérisées — avec malheureusement de trop fréquentes erreurs — à des petits ensembles de dizaines ou de centaines de livres. À ces différences de finalité, s’ajoutent la très grande variété et complexité des textes traités. Bien que la recherche en TAL n’ignore pas la nécessité d’adapter ses outils et méthodes à des textes d’époques, de registres ou de genres différents, la diversité des types de textes communément traités par les HN constitue souvent, par sa nature, un défi supplémentaire pour les outils et algorithmes courants. En particulier, les documents historiques consignés dans des variantes linguistiques anciennes ou les textes littéraires peuvent poser des problèmes tant d’un point de vue linguistique que pour la complexité de leur contenu.

Malgré ou plutôt du fait des problèmes susmentionnés, les applications des HN peuvent se présenter elle-même comme un banc d'essai idéal pour évaluer les dernières avancées dans le TAL.

Ce numéro spécial de la revue TAL sera consacré à la collecte de contributions originales à la croisée des chemins entre la HN et la TAL, avec un accent particulier sur les projets dans lesquels les outils de la TAL sont développés et/ou appliqués pour annoter, traiter et étudier le contenu textuel pour les différentes disciplines des humanités.

Les disciplines couvertes comprendront tous les champs des humanités, depuis la littérature et la philosophie, jusqu’à l'anthropologie et l'histoire. Tous les aspects et niveaux d'analyse du traitement de texte écrit peuvent être concernés, tels que : - la création de corpus, la numérisation, la transcription - l’enrichissement et l’annotation automatiques - l’interrogation et l’exploration de corpus - l’analyse automatique du texte

Les contributions peuvent concerner les domaines suivants (liste non exhaustive) : - alignement de texte monolingue ou multilingue - identification des similitudes de textes, attribution de la paternité d’une œuvre à un auteur, catégorisation de textes - repérage de références à des œuvres, des individus ou des personnages de fiction - extraction et annotation des thèmes et des sujets - extraction de motifs linguistiques récurrents à des fins d'analyse linguistique et stylistique - détection d’emprunts ou de réutilisations - adaptation des outils du TAL aux textes et langues historiques - extraction automatique des connaissances dans le but de créer des ontologies de domaines dans n'importe quel champ des humanités - outils pour la génétique textuelle - exploration de grands corpus textuels dans le but d'explorer l'intertextualité ou les variations linguistiques - exploration de grands corpus textuels pour l'identification d’évolutions culturelles et/ou historiques - ...

Les articles théoriques et les articles de réflexion seront considérés, à condition qu'ils soient basés sur des recherches et des projets antérieurs des auteurs ou sur des expériences existantes et qu'ils montrent clairement leurs contributions au TAL et aux HN.

RÉFÉRENCES

Dacos, M. and Mounier, P. (2015). Humanités Numériques : État Des Lieux et Positionnement de La Recherche Française Dans Le Contexte International.Research Report Institut français  <https://hal.archives-ouvertes.fr/hal-01228945>https://hal.archives-ouvertes.fr/hal-01228945 <https://hal.archives-ouvertes.fr/hal-01228945> (accessed 15 January 2019). Ganascia J.-G., The Logic of the Big Data Turn in Digital Literary Studies, Frontiers in Digital Humanities, vol. 2, 2015, number 7, https://www.frontiersin.org/articles/10.3389/fdigh.2015.00007/full <https://www.frontiersin.org/articles/10.3389/fdigh.2015.00007/full>, ISSN 2297-2668 Hockey, S. (2004). The History of Humanities Computing. In Schreibman, S., Siemens, R. and Unsworth, J. (eds), A Companion to Digital Humanities. Oxford: Blackwell. Terras, M., Vanhoutte, E. and Nyhan, J. (2013). Defining Digital Humanities: A Reader. London/New York: Routledge.

<>COORDINATION Francesca Frontini - Université Paul-Valéry Montpellier 3 Jean-Gabriel Ganascia – Sorbonne Université

<>

<>CALENDRIER · diffusion de l’appel à communication : fin janvier 2019 · déclaration d’intention : 15 avril 2019 · Date limite de soumission : 15 mai 2019 · Notification aux auteurs, premières relectures : 15 juillet 2019 · Notification aux auteurs, secondes relectures : 15 octobre 2019

· Version finale : 30 novembre 2019 · Publication : début 2020

<>LANGUE

<>Les articles sont écrits en français ou en anglais. Les soumissions en anglais ne sont acceptées qu’en cas de présence d’au moins un auteur non francophone.

LA REVUE La revue TAL (Traitement Automatique des Langues) est une revue internationale éditée depuis 1960 par l’ATALA (Association pour le Traitement Automatique des Langues) avec le concours du CNRS. Elle est maintenant publiée en format électronique, avec accès gratuit immédiate aux articles publiés, et impression annuelle à la demande.

<>

<>CONTACT tal-60-3 at sciencesconf.org <mailto:tal-60-3 at sciencesconf.org>

<>INSTRUCTIONS Les chercheurs ayant l’intention de soumettre une contribution sont invités à faire une déclaration d’intention en envoyant un mail aux coordinateurs en indiquant le titre prévisionnel et un paragraphe de description.

La soumission de l’article final se fera à travers la plateforme <scienceconf.org <http://scienceconf.org/>>. Ceux qui ne disposent pas d’un compte, sont invités à s’inscrire sur le site <http://www.sciencesconf.org <http://www.sciencesconf.org/>> (en haut à gauche, "créer un compte"), puis revenir sur la page <https://tal-60-3.sciencesconf.org <https://tal-60-3.sciencesconf.org/>>, se connecter et effectuer le dépôt en cliquant sur le menu "Soumission d’un article" (format PDF).

Chaque soumission sera relue par un membre du CR de la revue et deux membres du comité scientifique spécifique de ce numéro spécial.

Les articles doivent faire entre 20 et 25 pages. Les auteurs souhaitant obtenir une dérogation pour la longueur doivent contacter les coordinateurs. La revue TAL a un processus de relecture en double-aveugle. Merci d’anonymiser votre article et le nom du fichier. Les feuilles de style sont disponibles en ligne sur le site de la revue (http://www.atala.org/content/instructions-aux-auteurs-feuilles-de-style-0 <http://www.atala.org/content/instructions-aux-auteurs-feuilles-de-style-0>).

************ <>

ENGLISH VERSION

First call for papers: special issue of the TAL journal “NLP and Digital Humanities”

Digital Humanities (DH) is today a field in rapid expansion; while its boundaries are at times difficult to identify and constantly redefined (Dacos and Mounier, 2015; Terras et al., 2013; Ganascia, 2015), its impact on humanities, i.e. the disciplines that study human culture and/or human achievements, cannot be understated. Indeed the easy access to digital resources, and in particular the digitization of contents and the way computers process them is transforming the humanities and leads the way to the emergence of new scholarly practices. Since many of these contents, whether in literature, philosophy, archaeology or history, are given in textual form, the Natural Language Processing (NLP) techniques are potentially of great benefit for the Digital Humanities. DH and present day NLP research both stem from a common tradition, that of “Literary and Linguistic Computing” (Hockey, 2004). Indeed most researchers identify the origins of DH in Roberto Busa’s Index Thomisticus, a seminal project, started in 1949, which aimed to use computers in order to automatically create an index of Thomas Aquinas' Summa Theologica. Today, the area that we may call “text-based Digital Humanities” still constitutes a large subfield of DH.

However, while current NLP research typically develops around well identified tasks of varying degree of complexity (such as syntactic labelling, lemmatization, stemming, named entity recognition or syntactic parsing, information extraction, question answering, text summarization, ...), DH apply NLP techniques and methods as a scholarly tool, and utilize them in complex research scenarios, which may go from the acquisition to the annotation and analysis of texts, and may involve unstructured collections but also highly encoded digital editions. Therefore, while progress in NLP is expected to have positive implications for humanities research, the ultimate challenge from a DH perspective is not only an improvement the performance of NLP tools per se, but their use for innovative research that can truly advance disciplinary knowledge in the different fields of the humanities. Besides, the corpora size may considerably differ in DH, from big digitized — and unfortunately too often noisy — libraries of hundreds of thousands books to tiny book-sets of tens to hundreds of texts.

Alongside these differences in the goals, a further problem lies with the wide variety and complexity of the texts to be processed. While NLP research does not ignore the necessity of adapting tools and methods to different textual typologies, registers and genres, the types of texts commonly treated in DH research often constitute, in their nature, an additional challenge for current tools and algorithms. In particular historical documents, recording older varieties of language, or literary texts may pose problems from the linguistic point of view as well as for the complexity of their content.

Despite or rather thanks to the aforementioned issues, DH applications can present themselves as an ideal test bench to evaluate the latest advancements in Natural Language Processing.

This special issue of the TAL journal will be devoted to collecting original contributions at the crossroad between DH and NLP, with a special focus on projects in which NLP tools are developed and/or applied to annotating, processing and studying textual content for the purpose of humanities research.

The disciplines covered will include all fields of the humanities, from literature and philosophy, to anthropology and history. All aspects and levels of analysis in written text processing may be involved such as : - corpus creation, digitization, transcription - automatic enrichment and annotation - advanced corpus querying and exploration - automatic text analysis

Contributions may concern the following areas (non exhaustive list): - mono- or multilingual text alignment - identification of text similarities, authorship attribution, text clustering - annotation of references to works, individuals or fictional characters - extraction and annotation of themes and topics - extraction of recurring linguistic patterns and traits for the purpose of linguistic and stylistic analysis - detection of borrowings or re-uses - adaptation of NLP tools to historical texts and languages - automatic knowledge extraction for the purpose of creating domain ontologies in any field of humanities - tools for textual genetics - exploration of large quantities of text for the purpose of exploring intertextuality or linguistic variation - exploration of large quantities of text for the identification of cultural and or historical trends - ...

Theoretical and perspective articles will be taken into account, provided that they are based on previous research and projects by the authors or existing experiences and that they clearly show the contribution for NLP and DH.

REFERENCES

Dacos, M. and Mounier, P. (2015). Humanités Numériques : État Des Lieux et Positionnement de La Recherche Française Dans Le Contexte International.Research Report Institut français  <https://hal.archives-ouvertes.fr/hal-01228945>https://hal.archives-ouvertes.fr/hal-01228945 <https://hal.archives-ouvertes.fr/hal-01228945> (accessed 15 January 2019). Ganascia J.-G., The Logic of the Big Data Turn in Digital Literary Studies, Frontiers in Digital Humanities, vol. 2, 2015, number 7, https://www.frontiersin.org/articles/10.3389/fdigh.2015.00007/full <https://www.frontiersin.org/articles/10.3389/fdigh.2015.00007/full>, ISSN 2297-2668 Hockey, S. (2004). The History of Humanities Computing. In Schreibman, S., Siemens, R. and Unsworth, J. (eds), A Companion to Digital Humanities. Oxford: Blackwell. Terras, M., Vanhoutte, E. and Nyhan, J. (2013). Defining Digital Humanities: A Reader. London/New York: Routledge.

<>COORDINATION Francesca Frontini - Université Paul-Valéry Montpellier 3 Jean-Gabriel Ganascia - Sorbonne University

<>

<>CALENDAR OF EVENTS - Dissemination of the call for papers: end of January 2019 - Declaration of intent: April 15, 2019 - Deadline for submission: May 15, 2019 - Notification to authors, first proofreading: July 15, 2019 - Notification to authors, second proofreading: October 15, 2019 - Final version: November 30, 2019 - Publication: early 2020

<>LANGUAGE The articles can be in French or English. Submissions in English are only accepted if at least one of the authors is non-French-speaking.

<>The journal TAL (acronym for “Traitement Automatique des Langues”, which means in French Natural Language Processing) is an international journal published since 1960 by ATALA (Association pour le Traitement Automatique des Langues).

<>CONTACT

<>tal-60-3 at sciencesconf.org <mailto:tal-60-3 at sciencesconf.org>

INSTRUCTIONS Researchers are kindly invited to communicate their intention to submit a contribution by sending an email to the coordinators of this special issue, including a provisional title and a short description (one paragraph).

The final submission will be done via the scienceconf.org <http://scienceconf.org/> platform. Those who do not already have an account can create one on the website <http://www.sciencesconf.org <http://www.sciencesconf.org/>> (use the top left button, "create account"), then go to <https://tal-60-3.sciencesconf.org <https://tal-60-3.sciencesconf.org/>>, connect and deposit the paper (in PDF format) using the “Submit and article” menu.

Each paper will be reviewed by a member of the TAL permanent scientific committee as well as by two members of the special issue scientific committee.

Papers will be between 20 and 25 pages. Authors requiring an exemption on the length limitation should get in touch with the coordinators. The TAL journal applies a double blind review process; please make sure to remove from your paper and the filename all information that allows the author re-identification. Please use the TAL stylesheets, which are available on the journal’s website (http://www.atala.org/content/instructions-aux-auteurs-feuilles-de-style-0 <http://www.atala.org/content/instructions-aux-auteurs-feuilles-de-style-0>). -------------- next part -------------- A non-text attachment was scrubbed... Name: not available Type: text/html Size: 59271 bytes Desc: not available URL: <https://mailman.uib.no/public/corpora/attachments/20190131/23b004e0/attachment.txt>



More information about the Corpora mailing list