Qualification sémantique des parcours de recherche sur le Web en utilisant des modèles vectoriels
- Ibarboure, Claire (2021)
Mémoire
Non consultable
-
- Qualification sémantique des parcours de recherche sur le Web en utilisant des modèles vectoriels
-
- 25 juin 2021
-
- Recherche d'information
- Word embeddings
- Parcours de recherche
- Expertise de l'individu
- Complexité de la tâche
-
- Information retrieval
- Word embeddings
- Information retrieval path
- Person’s expertise
- Task's complexity
-
- Cette étude s’intéresse à la qualification sémantique et automatique des parcours de recherche sur le Web par le biais d’outils du TAL. Pour ce faire, nous avons étudié la similarité sémantique entre les reformulations en utilisant des modèles vectoriels, plus particulièrement des embeddings. Ainsi, les mots des requêtes sont représentés par des vecteurs construits à partir de grands corpus nous permettant de calculer un coefficient de similarité entre les requêtes. Pour évaluer cette qualification automatique, nous avons annoté manuellement les stratégies de recherche utilisées entre deux requêtes par les utilisateurs. En effet, les stratégies de recherche sont définies selon des sauts sémantiques. Ainsi, nous avons pu vérifier que des sauts sémantiques importants annotés manuellement correspondent à des coefficients de similarité faibles, et inversement. De ce fait, nous avons pu conclure sur l’utilité des outils du TAL pour mener une qualification automatique des parcours de recherche. Afin d’aller plus loin, nous avons décidé d’observer nos résultats en fonction de l’expertise de l’individu par rapport au domaine de recherche et la complexité de la tâche. Cependant, nous n’avons pu dégager de réelles tendances pour ces facteurs sur l’échantillon étudié.
-
- This study aims to semantically and automatically analyse the information retrieval paths on the Web with NLP (Natural Language Processing) tools. We studied the semantic similarity between reformulations using distributional models, particularly word embeddings. In this way, vectors, defined from large corpora, represent the queries’ words and allow to calculate a similarity coefficient between queries. To evaluate this automatic qualification, we manually annotated research strategies defined as semantic distances. So we were able to verify that the significant semantic distances annotated by a human match with the low similarity coefficients, and vice versa. Thereby, we conclude that NLP tools are useful to automatically analyse the information retrieval paths. Further, we observed results considering the person’s expertise on the task’s subject, and the task’s complexity. However, we don’t have real trends for these factors for the studied sample.
Citation bibliographique
Ibarboure, Claire (2021), Qualification sémantique des parcours de recherche sur le Web en utilisant des modèles vectoriels [Mémoire]