Un treebank pour le serbe : constitution et exploitations

Miletic, Aleksandra (2018)

Thèse

Numéro national de thèse: 2018TOU20030
Titre en français: Un treebank pour le serbe : constitution et exploitations
Titre en anglais: A treebank for Serbian : creation and applications
Auteur: Miletic, Aleksandra
Directeur de recherche: Fabre, Cécile
Co-directeur de recherche: Stosic, Dejan
Date de soutenance: 20 juin 2018
Établissement: Université Toulouse-Jean Jaurès
École doctorale: CLESCO : Comportement, Langage, Éducation, Socialisation, Cognition
Diplôme: Doctorat en Sciences du Langage
Unité de recherche: Cognition, Langues, Langage, Ergonomie - CLLE
Sujet: Russe et langues slaves
Mots-clés en français: Treebank; Serbe; Parsing
Mots-clés en anglais: Treebank; Serbian; Parsing
Résumé en français: Au début de cette thèse, aucun corpus annoté syntaxiquement (treebank) n’était disponible pour le serbe. Or, les treebanks annotés manuellement sont une condition sine qua non du développement (entraînement et évaluation) d’outils statistiques dédiés à l’annotation syntaxique automatique (parsers). L’existence des parsers performants permet à son tour l’annotation syntaxique de corpus plus larges, qui peuvent ensuite alimenter des recherches en linguistique théorique. De fait, l’absence de ces ressources pour le serbe freine le développement des recherches sur cette langue dans ces deux directions, et plus généralement les efforts visant l’informatisation et la valorisation du serbe. Afin de combler cette lacune, nous avons constitué un ensemble de ressources pour le traitement automatique du serbe. Il s’agit en premier lieu du treebank ParCoTrain-Synt, qui contient 101 000 tokens annotés en morphosyntaxe, en lemmes et en syntaxe de dépendances. Nous avons également confectionné le lexique ParCoLex, doté de 7 millions d’entrées provenant de 157 000 lemmes différents. En exploitant ces deux ressources, nous avons développé des modèles pour le parsing, pour l’étiquetage et pour la lemmatisation.Toutes les ressources citées sont librement diffusées à l’adresse suivante : https://github.com/aleksandra-miletic/serbian-nlp-resources. Les ressources constituées ont également été exploitées dans le cadre de deux études linguistiques, montrant ainsi que le corpus ParCoTrain-Synt ouvre la porte aux études empiriques basées sur des analyses quantitatives dans le domaine de la linguistique serbe.
Résumé en anglais: At the beginning of this PhD, no treebank for Serbian was available. However, manually annotated treebanks are an essential resource for developing (training and evaluating) statistical tools for syntactic analysis (parsers). Efficient parsers, in turn, facilitate the annotation of large corpora, which can be used as a basis for research in theoretical linguistics. The lack of these resources for Serbian slows down the research in these two directions. It also hinders the creation of digital resources for Serbian in general. In order to address this issue, we created a suite of NLP resources for Serbian. Firstly, we created the ParCoTrain-Synt treebank, a 101 000 token corpus, complete with morphosyntactic annotation, lemmatisation and syntactic dependency annotation. We also built the ParCoLex lexicon, containing 7 million entries for 157 000 different lemmas. Using these two resources, we trained models for parsing, morphosyntactic tagging and lemmatisation. All of the above resources are available at the following address : https: //github.com/aleksandra-miletic/serbian-nlp-resources. We also used these resources in two experiments in Serbian linguistics, demonstrating that the ParCoTrain-Synt treebank is well suited to empirical studies based on quantitative data analysis.
Accès au document: Accès libre

Aleksandra.Miletic_these_8179.pdf
Accès libre
- Visualiser
- Télécharger
Aleksandra.Miletic_these_4991.pdf
Accès libre
- Visualiser
- Télécharger

Citation bibliographique

Miletic, Aleksandra (2018), Un treebank pour le serbe : constitution et exploitations [Thèse]

Un treebank pour le serbe : constitution et exploitations

Citation bibliographique

Ce document est en accès restreint