Favoriser la réutilisation de corpus annotés : conversion vers le standard d’annotation Universal Dependencies
- Caule, Clémence (2022)
Mémoire
Accès libre
-
- Favoriser la réutilisation de corpus annotés : conversion vers le standard d’annotation Universal Dependencies
-
- 20 juin 2022
-
- Conversion d'annotations
- Surface-syntax Universal Dependencies
- Universal Dependencies
- Corpus annoté
-
-
Ce mémoire s’inscrit dans la suite d’un travail précédent (Miletic, 2018), qui a porté sur la création d’un premier treebank pour le serbe. Ce corpus, nommé ParCoTrain, est d’un intérêt spécial pour le TAL du fait que le serbe est une langue avec très peu de ressources libres. Ce corpus a été constitué dans le cadre du projet ParCoLab lancé en 2010 dont l’objectif est la constitution d’un corpus parallèle serbe-français-anglais.
En effet, lors de la conception du corpus ParCoTrain, il existait peu de corpus annotés pour le Serbe. De plus, une grande majorité de ressources n’est pas en libre accès donc la constitution de corpus de grande envergure est compliquée. Il est difficile de développer des outils automatiques pour le Serbe en TAL du fait de ce manque d’outils et de ressources préalables. Il est donc important de rendre accessible, pour le plus grand nombre possible, les ressources déjà existantes comme ParCoTrain.
Ainsi, nous cherchons, dans ce mémoire, à favoriser la réutilisation de corpus annotés. Pour se faire, nous proposerons une conversion des annotations de ParCoTrain vers le standard d’annotation Universal Dependencies à l’aide de l’outil préexistant Grew.
-
Ce mémoire s’inscrit dans la suite d’un travail précédent (Miletic, 2018), qui a porté sur la création d’un premier treebank pour le serbe. Ce corpus, nommé ParCoTrain, est d’un intérêt spécial pour le TAL du fait que le serbe est une langue avec très peu de ressources libres. Ce corpus a été constitué dans le cadre du projet ParCoLab lancé en 2010 dont l’objectif est la constitution d’un corpus parallèle serbe-français-anglais.
Citation bibliographique
Caule, Clémence (2022), Favoriser la réutilisation de corpus annotés : conversion vers le standard d’annotation Universal Dependencies [Mémoire]