13/07/2021

L'arménien occidental se dote de son propre corpus arboré


Le département des communautés arméniennes de la Fondation Calouste Gulbenkian vient d'annoncer la publication du « Western Armenian Universal Dependencies Treebank » (Corpus arboré des dépendances universelles de l'arménien occidental), qui sera disponible sur le site « Universal Dependencies Consortium ».

Un Treebank (corpus arboré) est essentiel pour la vitalité de toute langue. C'est un outil linguistique qui analyse et décrit la structure de la langue, en identifiant ses différentes composantes de manière à ce que les programmes informatiques puissent fonctionner avec elle. Grâce aux Treebanks, les programmes liés au langage pourraient identifier, par exemple, quel est le verbe dans la phrase, quel est le nom, l'adverbe, le point d'interrogation, etc., sur la base desquels des applications pratiques peuvent être développées. En termes techniques, il s'agit d'une base de données de phrases annotées avec des informations syntaxiques. Treebanks a révolutionné la linguistique informatique au début des années 1990, après l'expansion des méthodes d'apprentissage automatique et des réseaux de neurones artificiels dans le domaine du traitement du langage naturel.

Les Treebanks jouent un rôle crucial dans le développement de systèmes modernes de traitement du langage tels que la traduction automatique, les analyseurs sémantiques, etc. « Pour qu'une langue soit traduisible via des outils en ligne, qu'elle ait ses propres programmes de correction orthographique et de grammaire, et qu'elle ait les moyens de traiter l'intelligence artificielle dans cette langue, elle doit posséder son propre Treebank », a expliqué Razmik Panossian, le directeur du département des communautés arméniennes de la Fondation Calouste Gulbenkian. « Nous sommes heureux que la Fondation ait joué un rôle central dans la mise à disposition d'un Treebank en arménien occidental à tous ceux qui souhaitent travailler dans le domaine de la langue et de la technologie. »

Universal Dependencies est un projet qui développe une annotation Treebank cohérente sur le plan linguistique pour de nombreuses langues. Il fournit un inventaire universel de catégories et de directives pour aider à une annotation cohérente de constructions similaires dans toutes les langues, tout en permettant des extensions spécifiques à la langue si nécessaire.

Le nouveau Treebank est basé sur la section arménienne occidentale du Treebank de la dépendance arménienne, développée par l'équipe ArmTDP dirigée par Marat M. Yavroumian (Université d'État d'Erevan) et Hrant H. Khatchatrian (Laboratoire de recherche YerevaNN). Le Treebank en arménien occidental est l'un des 202 Treebanks disponibles en 114 langues. Il a été créé entièrement manuellement et peut donc être utilisé comme données de référence de Treebank dans la plupart des tâches de traitement du langage naturel pour l'arménien occidental. D'ici la fin de 2021, la deuxième version étendue de la Treebank sera publiée.

Le corpus arboré d'arménien occidental se compose actuellement de 1 780 phrases et comprend 7,5 millions de mots, compilées à partir de 110 oeuvres de plus de 50 auteurs de 1895 à 2010, dans de nombreux genres tels que la fiction, les correspondances personnelles et officielles, les récits de voyage, les discours politiques et littéraires, les mémoires et récits de voyage. Il est basé sur le corpus de la bibliothèque numérique de littérature arménienne de l'Université américaine d'Arménie (Digilib).

Le corpus arboré d'arménien occidental et les solutions de traitement du langage naturel développées sur à partir de lui sont décisives pour apporter des technologies linguistiques de pointe à l'arménien, garantissant la vitalité de la langue dans l'ère du numérique.

Partager
Imprimer
Dernière mise à jour : 13/07/2021 18:00