Étude des glissements de sens induits par le contact de langues en anglais québécois : apports conjoints de la modélisation vectorielle sur corpus et de l'approche sociolinguistique variationniste
- Miletic, Filip (1995-....) (2022)
Thèse
Accès libre
-
- Étude des glissements de sens induits par le contact de langues en anglais québécois : apports conjoints de la modélisation vectorielle sur corpus et de l'approche sociolinguistique variationniste
-
- An investigation into contact-induced semantic shifts in Quebec English : conciliating corpus-based vector models and variationist sociolinguistic inquiry
-
- 20 juin 2022
-
- Glissements de sens
- Anglais québécois
- Modèles sémantiques vectoriels
- Corpus de tweets
- Sociolinguistique variationniste
- Contact de langues
-
- Semantic shifts
- Quebec English
- Vector space models
- Twitter corpora
- Variationist sociolinguistics
- Language contact
-
-
Cette thèse étudie les glissements de sens induits par le contact de langues en anglais québécois, à savoir des mots anglais préexistants utilisés avec un sens différent en raison d’une influence potentielle du français. Nous proposons une approche novatrice à l’intersection du traitement automatique des langues et de la sociolinguistique variationniste, afin de fournir une description exhaustive de ce phénomène ainsi que d’évaluer les contributions des approches sur corpus mises en œuvre ici.
Afin d’effectuer des analyses computationnelles de variation sémantique, nous avons constitué un corpus composé de 78,8 millions de tweets de Montréal, Toronto et Vancouver. Le corpus a été utilisé pour mettre en œuvre différents types de modèles vectoriels, à savoir des représentations computationnelles du sens des mots. Les modèles statiques ont permis d’identifier de nouveaux glissements de sens, alors que les modèles contextuels ont permis de caractériser plus finement leurs utilisations. Malgré des résultats prometteurs, ces méthodes sont limitées par le bruit lié à leurs caractéristiques intrinsèques et à la structure du corpus.
Ces approches ont été complétées par des données plus fines recueillies au moyen d’entretiens sociolinguistiques avec 15 locuteurs vivant à Montréal. Les corrélations entre les variables linguistiques et différents facteurs sociodémographiques, ainsi que les remarques qualitatives sur leur utilisation, indiquent quatre patterns de variation synchronique ; ceux-ci pourraient à leur tour refléter des processus diachroniques. Par ailleurs, la variabilité inter-locuteurs suggère un rôle important des locuteurs bilingues et plus jeunes dans l'utilisation des glissements de sens. Enfin, les scores d'acceptabilité sont faiblement corrélés avec les mesures computationnelles, ce qui suggère que ceux-ci reflètent d’autres dimensions de variation sémantique.
Dans l'ensemble, cette thèse a fourni la première description systématique des glissements de sens en anglais québécois. Elle a également mis en évidence la complémentarité des approches développées dans des disciplines différentes. Ces considérations ouvrent la voie à une utilisation plus avisée des méthodes computationnelles basées sur corpus dans des études de phénomènes sociolinguistiques.
-
Cette thèse étudie les glissements de sens induits par le contact de langues en anglais québécois, à savoir des mots anglais préexistants utilisés avec un sens différent en raison d’une influence potentielle du français. Nous proposons une approche novatrice à l’intersection du traitement automatique des langues et de la sociolinguistique variationniste, afin de fournir une description exhaustive de ce phénomène ainsi que d’évaluer les contributions des approches sur corpus mises en œuvre ici.
-
-
This dissertation investigates contact-induced semantic shifts in Quebec English, i.e., preexisting English words which are used with a different meaning due to the potential influence of French. I propose a novel approach at the intersection of natural language processing and variationist sociolinguistics, aiming to provide a more comprehensive descriptive account as well as assess the contributions of the implemented methods.
In order to conduct computational analyses of semantic variation, I created a corpus containing 78.8 million tweets from Montreal, Toronto, and Vancouver. It was used to implement different types of vector space models, i.e., computational representations of word meaning. Type-level models were used to identify new semantic shifts based on the semantic differences between Montreal and the other two cities. Token-level models were used in finer-grained analyses and allowed to further characterize their use. Despite promising results, systematic quantitative evaluation and extensive qualitative analyses suggest that these methods are hampered by noise related to their inherent characteristics as well as corpus structure.
These large-scale approaches were complemented with finer-grained data collected through sociolinguistic interviews with 15 speakers living in Montreal. Varying correlations between lexical items and a range of sociodemographic factors, coupled with qualitative remarks on their use, point to four distinct patterns of synchronic variation; these in turn reflect potential diachronic processes. Interspeaker variability suggests that the use of semantic shifts is driven by speakers who tend to be younger and proficient in both English and French. The acceptability ratings are weakly correlated with computational variation measures, suggesting that they capture different dimensions of semantic variation.
Overall, this dissertation has provided the first systematic description of contact-induced semantic shifts in Quebec English, and highlighted the complementarity of approaches used in different disciplines. These considerations have provided a pathway towards a better-informed use of corpus-based computational methods in studies of sociolinguistic phenomena.
-
This dissertation investigates contact-induced semantic shifts in Quebec English, i.e., preexisting English words which are used with a different meaning due to the potential influence of French. I propose a novel approach at the intersection of natural language processing and variationist sociolinguistics, aiming to provide a more comprehensive descriptive account as well as assess the contributions of the implemented methods.
Citation bibliographique
Miletic, Filip (1995-....) (2022), Étude des glissements de sens induits par le contact de langues en anglais québécois : apports conjoints de la modélisation vectorielle sur corpus et de l'approche sociolinguistique variationniste [Thèse]