Approches du dysfonctionnement technique dans les REX d'Ariane 5 : de l'analyse linguistique outillée de son expression vers la modélisation TRIZ du problème

Numéro national de thèse

2025TLSEJ064

Titre en français

Titre en anglais

Analysing technical dysfunction in Ariane 5 anomaly reports : from its linguistic expression to TRIZ modeling of the problem

Auteur

Maarouf, Mariame (1993-.... ; docteure en sciences du langage)

Directeur de recherche

Tanguy, Ludovic (19..-....)

Date de soutenance

16 octobre 2025

Établissement

Université de Toulouse

Université Toulouse-Jean Jaurès

École doctorale

CLESCO : Comportement, Langage, Éducation, Socialisation, Cognition

Diplôme

Doctorat en Sciences du Langage

Unité de recherche

Cognition, Langues, Langage, Ergonomie - CLLE

Sujet

Informatique et langage

Mots-clés en français

Traitement automatique des langues

Résolution de problèmes techniques

Linguistique de corpus

TRIZ

Lanceurs spatiaux

Mots-clés en anglais

Natural Language processing

Technical problem solving

Corpus linguistic

TRIZ

Space launchers

Résumé en français

Les REX (Retours d’EXpérience) sont des documents textuels dont la visée est de rapporter un problème, ou un dysfonctionnement, et qui jouent un rôle important dans la maîtrise des risques au sein d’une organisation. Plusieurs travaux de TAL (Traitement Automatique des Langues) ont donc vu le jour afin de capitaliser les connaissances qu’ils abritent. Par ailleurs, des méthodes de résolution de problèmes techniques ont été développées, comme la méthode TRIZ, et présentent un intérêt non négligeable pour les dysfonctionnements qui peuvent être rapportés dans les REX. De ce fait, un partenariat s’est créé entre le CNES qui cherche à exploiter ses REX liés aux lanceurs spatiaux, et la société MeetSYS, spécialisée dans la méthode TRIZ pour la capitalisation du savoir expert. Cette thèse s’est vue comme l’opportunité d’explorer l’utilisation du TAL et de la linguistique de corpus pour l’extraction fine d’information dans les REX d’Ariane 5 en vue de modéliser un dysfonctionnement technique sous forme de vépole (formalisme propre à TRIZ). Cela signifie être capable de partir d’un texte brut, spécialisé et bruité vers un formalisme conçu indépendamment des données en question. À cette fin, une démarche en plusieurs étapes a été mise en place en vue de se rapprocher autant que possible de ce formalisme. L’un des piliers sur lequel s’appuie cette démarche est la sémantique des cadres, et la ressource FrameNet qui en découle, qui nous permet d’identifier et de qualifier les éléments textuels qui constituent le problème. Nous explorons dans cette thèse plusieurs approches de TAL et de linguistique de corpus dans l’étude des REX, soit des textes spécialisés et bruités, pour identifier les structures sémantiques qui composent l’expression d’un dysfonctionnement technique. Nous mêlons ainsi des techniques comme le Topic Modeling, word2vec et de l’analyse lexicale outillée pour de l’exploration de corpus, du fine-tuning de modèles neuronaux pour de l’étiquetage automatique, l’utilisation de LLMs pour de la normalisation et de l’annotation automatique, mais aussi de l’analyse syntaxique et de la reconnaissance de patrons pour l’analyse fine des structures langagières. Dans un premier temps, une analyse du corpus nous a permis de dégager une typologie d’expressions d’un dysfonctionnement technique en neuf classes. Elle est basée sur la détection de marqueurs lexicaux au sein de la description de l’anomalie qui a été repérée et décrite. À partir de cette typologie, nous avons pu effectuer une annotation des marqueurs lexicaux spécifiques au sein du corpus. Celle-ci nous a permis d’explorer l’utilisation d’annotateurs non experts du domaine sur des données spécialisées et, par la suite, d’entraîner un modèle neuronal à base de transformers pour l’étiquetage automatique des rapports d’anomalies. Nous avons aussi mené une étude afin de normaliser automatiquement ces rapports pour en supprimer le bruit, avant de tester l’impact de cette normalisation sur l’entraînement du modèle. Cette étude n’ayant pas montré d’améliorations sur la tâche d’étiquetage automatique nous entraîne à interroger la pertinence de la normalisation des données bruitées, et notamment en fonction de la tâche visée. Par la suite, nous avons pu focaliser notre étude sur deux catégories de la typologie qui sont la Fuite d’un liquide ou d’un gaz et la Présence d’un obstacle. Pour la première, nous avons mis en place une approche impliquant plusieurs méthodes complémentaires de linguistique de corpus afin de faire émerger un frame de la fuite dans un environnement technique. Nous avons ainsi pu identifier les différents éléments qui composent l’expression de la fuite. Pour la catégorie Présence d’un obstacle, nous avons utilisé des LLMs génératifs pour l’annotation automatique de ces textes. Par ce biais, nous avons pu explorer les capacités et les limites d’un LLM à effectuer une annotation de type Frame Semantic Role Labeling, mais aussi à traiter un texte spécialisé et bruité.

Résumé en anglais

Anomaly reports are textual documents whose purpose is to report a problem or malfunction, and play an important role in risk management within an organisation. Numbers of NLP (Natural Language Processing) projects have therefore been developed to capitalise on the knowledge they contain. In addition, methods for solving technical problems exists, such as TRIZ, which are of considerable interest for the type of malfunction reported in incident or anomaly reports. As a result, a partnership has been formed between CNES, seeking to exploit these reports, and MeetSYS, a company specialised in using TRIZ to capitalise on expert knowledge. This thesis was seen as an opportunity to explore the use of NLP and corpus linguistics for the fine-grained extraction of information from the Ariane 5 anomaly reports in order to model a technical malfunction in the form of a vepole (formalism specific to the TRIZ method). This means being able to move from a raw, specialised and noisy text to a formalism independently designed. To this end, a multi-stage approach was put in place to get as close as possible to this formalism. One of its pillars is frame semantics, and the resulting FrameNet resource, which allows the identification and qualification of the textual elements of the problem. In this thesis, we explore several NLP and corpus linguistic approaches in the study of the reports, i.e. specialised and noisy texts, in order to identify the semantic structures that constitute the expression of technical malfunction. We thus combine various techniques such as Topic Modeling, word2vec and tool-based lexical analysis for corpus exploration, fine-tuning of neural models for automatic labelling, the use of LLMs for normalisation and automatic annotation, as well as syntactic analysis and pattern recognition for fine-grained analysis of language structures. A first corpus study allowed the identification of a nine-class typology of technical malfunction expression. It is based on lexical markers detection within the anomaly description. Using this typology allowed the annotation of specific lexical markers within the corpus. This enabled us to explore non-domain expert annotation on specialised data and, subsequently, to train a neural model based on transformers for anomaly reports automatic labelling. We also conducted a study for automatic normalisation of the reports to remove noise, before testing its impact on model training. Since this study did not show any improvement in the automatic labelling task, we are thus questioning the relevance of noisy data normalisation, particularly regarding the target task. We then focused our study on two class of the typology : Leakage of a liquid or a gas and Presence of an obstacle. For the former, we implemented several complementary corpus linguistic methods in order to bring out the frame of the leak in a technical environment. We were thus able to identify what elements make up the expression of leakage. For Presence of an obstacle, we explored the use of generative LLMs for automatic labeling. In this way, we were able to explore the capabilities and limitations of an LLM for Frame Semantic Role Labeling, as well as processing specialised and noisy text.

Accès au document

Accès libre

Citation bibliographique

Ce document est en accès restreint