Favoriser la réutilisation de corpus annotés : conversion vers le standard d’annotation Universal Dependencies
- Caule, Clémence (2022)
Mémoire
- Titre en français
- Favoriser la réutilisation de corpus annotés : conversion vers le standard d’annotation Universal Dependencies
- Auteur
- Caule, Clémence
- Directeur de recherche
- Miletic, Aleksandra (1989-....)
- Co-directeur de recherche
- Stosic, Dejan (1974-....)
- Date de soutenance
- 20 juin 2022
- Établissement
- Université Toulouse-Jean Jaurès
- UFR ou composante
- Département Sciences du langage
- Sujet
- Informatique et langage
- Mots-clés en français
- Conversion d'annotations
- Surface-syntax Universal Dependencies
- Universal Dependencies
- Corpus annoté
- Résumé en français
-
Ce mémoire s’inscrit dans la suite d’un travail précédent (Miletic, 2018), qui a porté sur la création d’un premier treebank pour le serbe. Ce corpus, nommé ParCoTrain, est d’un intérêt spécial pour le TAL du fait que le serbe est une langue avec très peu de ressources libres. Ce corpus a été constitué dans le cadre du projet ParCoLab lancé en 2010 dont l’objectif est la constitution d’un corpus parallèle serbe-français-anglais.
En effet, lors de la conception du corpus ParCoTrain, il existait peu de corpus annotés pour le Serbe. De plus, une grande majorité de ressources n’est pas en libre accès donc la constitution de corpus de grande envergure est compliquée. Il est difficile de développer des outils automatiques pour le Serbe en TAL du fait de ce manque d’outils et de ressources préalables. Il est donc important de rendre accessible, pour le plus grand nombre possible, les ressources déjà existantes comme ParCoTrain.
Ainsi, nous cherchons, dans ce mémoire, à favoriser la réutilisation de corpus annotés. Pour se faire, nous proposerons une conversion des annotations de ParCoTrain vers le standard d’annotation Universal Dependencies à l’aide de l’outil préexistant Grew. - Accès au document
- Accès libre
Citation bibliographique
Caule, Clémence (2022), Favoriser la réutilisation de corpus annotés : conversion vers le standard d’annotation Universal Dependencies [Mémoire]