Typologies des parcours de recherche d'information sur le Web : étude des variations thématiques dans les sessions complexes
- Ibarboure, Claire (1997-.... ; docteure en sciences du langage) (2025)
Thèse
Accès restreint
- Numéro national de thèse
- 2025TLSEJ050
- Titre en français
- Typologies des parcours de recherche d'information sur le Web : étude des variations thématiques dans les sessions complexes
- Titre en anglais
- Typologies of Information Retrieval Paths: A Study of Thematic Variations in Complex Search Sessions
- Directeur de recherche
- Tanguy, Ludovic (19..-....)
- Co-directeur de recherche
- Amadieu, Franck (1978-....)
- Date de soutenance
- 18 septembre 2025
- Diplôme
- Doctorat en Sciences du Langage
- Unité de recherche
- Cognition, Langues, Langage, Ergonomie - CLLE
- Sujet
- Informatique et langage
- Mots-clés en français
- Traitement Automatique des Langues
- Recherche d'information
- Stratégie de recherche d'information
- Requête
- Comportement utilisateur
- Mots-clés en anglais
- Natural Language Processing
- Information Retrieval
- Search Strategy
- Query
- User Behavior
- Résumé en anglais
-
This thesis addresses users’ behavioral variations when conducting a complex web search session. More specifically, we focus on the strategies employed when the user is confronted with sub-goals that pertain to distinct topics. To this end, we study planning through the queries submitted to the search engine, based on the assumption that sessions are trajectories within a semantic space (Mitra, 2015). We conducted three exploratory studies to model behavioral variations using experimental data and to identify a typology of behaviors. To do this, we employed various techniques to automate the semantic representation of query content, aiming to uncover behavioral patterns through statistical analysis.
In the first study, we automatically represented queries using vector models. We tested both static embeddings (FastText (Grave et al., 2018)) and contextual embeddings (CamemBERT (Martin et al., 2020) and FlauBERT (Le et al., 2020)) through two evaluation steps based on query similarity. We found that using FastText was preferable, as contextual embeddings are highly dependent on parameter choices and do not necessarily yield significantly better results. However, despite being able to visualize sessions as trajectories in semantic space, we were not able to interpret the variations.
In the second study, we manually annotated the queries according to their sub-goals. By combining the analysis of standard variables (e.g., session duration or number of queries) with exploratory variables related to sub-goals (e.g., the total number of sub-goals addressed in the session, or the presence of consecutive queries tied to the same sub-goal), we identified user groups with specific characteristics. For example, we observed users who showed very little engagement, users who submitted few but long queries that included multiple sub-goals, and users who addressed a greater number of sub-goals across long sessions in terms of time or number of queries.
However, limitations related to the dataset led us to collect our own data, specifically designed around the thematic distinction of two sub-goals. The PRIVaThe corpus (Information Retrieval Paths with Thematic Variations, in French Parcours de Recherche d’Information avec Variations Thématiques) consists of 3,162 queries issued by 100 participants in response to two search tasks on Google. For all sessions, we have access to the users’ formulated answers, which we evaluated ourselves. We also recorded and transcribed think-aloud verbalizations from 20 participants during the task.
This led us to a third study in which we tested automatic annotation of queries based on sub-goals using generative AI models across the entire corpus. Identifying user groups with distinctive characteristics was not entirely conclusive. However, we did observe traces of analytical behavior (searching one sub-goal at a time), global behavior (submitting queries that address multiple sub-goals), and exploratory behavior (alternating between different sub-goals), which echo the strategies defined in the cognitive psychology literature (Marchionini, 1995; Navarro-Prieto et al., 1999; Thatcher, 2006). These patterns are particularly observable through certain exploratory variables, such as changes corresponding to shifts from one sub-goal to another, or queries that address both sub-goals equally. - Résumé
-
Cette thèse traite des variations comportementales des utilisateurs lorsqu'ils effectuent une session de recherche complexe sur le Web. Plus précisément, nous nous intéressons aux stratégies mises en place lorsque l'utilisateur est confronté à des sous-objectifs faisant référence à des thématiques distinctes. Pour ce faire, nous étudions la planification à travers les requêtes soumises au moteur de recherche en partant du principe que les sessions sont des trajectoires dans un espace sémantique (Mitra, 2015). Nous avons réalisé trois études exploratoires pour modéliser les variations comportementales à partir de données expérimentales afin de dégager une typologie des comportements. Pour cela, nous avons mobilisé plusieurs techniques pour automatiser la représentation sémantique du contenu des requêtes, afin de faire émerger des régularités à travers les comportements à partir d’analyses statistiques.
Dans une première étude, nous avons représenté automatiquement les requêtes avec des modèles vectoriels. Nous avons testé des embeddings statiques (FastText (Grave et al., 2018)) et contextuels (CamemBERT (Martin et al., 2020) et FlauBERT (Le et al., 2020)) sur deux étapes d'évaluation basées sur la similarité des requêtes. Nous avons constaté qu'il était préférable d'utiliser FastText, puisque les embeddings contextuels sont très dépendants du choix des paramètres et n'apportent pas pour autant des résultats significativement meilleurs. Toutefois, malgré la possibilité de visualiser les sessions comme une trajectoire dans un espace sémantique, nous n'avons pas été capables d'interpréter les variations.
Dans une deuxième étude, nous avons annoté manuellement les requêtes selon les sous-objectifs. En combinant l'étude de variables classiques (p.e. la durée des sessions ou le nombre de requêtes) et de variables exploratoires liées aux sous-objectifs (le nombre total de sous-objectifs formulés dans la session, ou la présence de requêtes consécutives en lien avec un même sous-objectif), nous avons dégagé des groupes d'utilisateurs avec des caractéristiques spécifiques. Ainsi, nous avons pu observer des utilisateurs qui montrent très peu d'investissement, d'autres qui formulent peu de requêtes, mais longues et composées de plusieurs sous-objectifs, ou encore d'autres qui recherchent un plus grand nombre de sous-objectifs à travers de longues sessions en durée ou en nombre de requêtes.
Toutefois, des limites liées au jeu de données utilisé nous ont amenés à recueillir notre propre corpus basé spécifiquement sur la distinction thématique de deux sous-objectifs. Le corpus PRIVaThe (Parcours de Recherche d’Information avec Variations Thématiques) est composé de 3162 requêtes formulées par 100 participants pour répondre à deux tâches de recherche sur Google. Pour l’ensemble des sessions, nous avons les réponses formulées par les utilisateurs et évaluées par nous-mêmes. Nous avons également enregistré et retranscrit les verbalisations en concomitance à la tâche de 20 participants.
Cela nous a amené à une troisième étude où nous avons testé une annotation automatique des requêtes en fonction des sous-objectifs avec des modèles d'IA générative pour l’ensemble du corpus. L’identification de groupes d’utilisateurs avec des caractéristiques distinctives n’a pas été totalement concluante. Cependant, nous retrouvons des traces de comportements de type analytique (rechercher un sous-objectif à la fois), globaux (formuler des requêtes composées des différents sous-objectifs) et exploratoires (alternance entre les différents sous-objectifs), faisant écho aux stratégies définies dans la littérature en psychologie cognitive (Marchionini, 1995 ; Navarro-Prieto et al., 1999 ; Thatcher, 2006). Ces phénomènes sont observables notamment à partir de certaines variables exploratoires telles que les changements correspondant au passage d'un sous-objectif à un autre, ou encore les requêtes formulées des deux sous-objectifs de façon équivalente. - Accès au document
- Accès restreint
Citation bibliographique
Ibarboure, Claire (1997-.... ; docteure en sciences du langage) (2025), Typologies des parcours de recherche d'information sur le Web : étude des variations thématiques dans les sessions complexes [Thèse]