Confrontation des procédés dérivationnels et des catégories sémantiques dans les modèles distributionnels - Université Toulouse - Jean Jaurès Accéder directement au contenu
Thèse Année : 2020

Confrontation of derivational processes and semantic categories in distributional semantic models

Confrontation des procédés dérivationnels et des catégories sémantiques dans les modèles distributionnels

Résumé

Form and meaning are closely related in derivational morphology, the affix of a derived word giving a cue on the semantic category to which the word belongs. Yet the relationship between affixes and categories is not exclusive. Studies traditionally approach this many-to-many relationship through affix rivalry, taking into account phonological, diachronic, syntactic or semantic factors. Among all these factors, semantic ones are arguably the most difficult to assess on a empirical and statistical basis, and they have long relied on intuition. Recently, distributional semantics established itself as one of the most popular alternatives, providing a vectorial representation of word meaning based on corpus use. In this thesis, we use such representations to analyze derived words in light of these many-to-many relationships, along four main axes. First, we quantify the semantic proximity of lexemes belonging to derivational families based on their distributional proximity in vector space models, validating on a large scale the hypothesis that verbs and action nouns tend to be closer than other members in the families. Second, we confirm the semantic differences between -eur, -euse and -rice nouns induced by the depreciative axiological characteristics of their referents through the comparison of unified representations of these classes of nouns. Third, we investigate the semantic and morphological heterogeneity of the lexical category of agent nouns based on the unified representation of its prototypical representatives. Fourth, we examine the semantic differentiation of -age, -ion and -ment action nouns, which we approach based on their variable degree of technicality. We combine distributional and statistical clues to model the difference in technicality. This thesis explores various degrees of adaptation of vector space models for linguistics research, as a validation and investigation tool, demonstrating both its potential and its limitations.
La forme et le sens sont intimement liés en morphologie dérivationnelle, l’affixe d’un dérivé renseignant généralement sur son appartenance à une catégorie sémantique donnée. Cette relation entre affixes et catégories sémantiques n’est cependant pas exclusive, et est étudiée à partir de facteurs phonologiques, syntaxiques, ou encore sémantiques. Ces derniers sont sans doute parmi les facteurs les plus difficiles à évaluer empiriquement, et ont longtemps reposé sur une approche intuitive. La sémantique distributionnelle se présente depuis peu comme une alternative, proposant une représentation vectorielle du sens des mots. Nous mettons à profit dans cette thèse les modèles distributionnels pour analyser des dérivés morphologiques au regard de ces relations many-to-many, selon quatre axes. Dans un premier temps, nous quantifions la proximité sémantique entre membres de familles dérivationnelles à l’aide de la proximité distributionnelle dans les espaces vectoriels, validant à grande échelle l’hypothèse d’une plus grande proximité du verbe et du nom d’action. Dans un second temps, nous étayons les différences sémantiques entre les noms en -eur, -euse et -rice relatives aux propriétés axiologiques de leurs référents, en comparant les représentations globales de ces trois classes. Dans un troisième temps, nous évaluons l’hétérogénéité morphologique et sémantique de la catégorie lexicale des noms d’agent à partir de l’analyse de la représentation globale de ses représentants prototypiques. Enfin, nous explorons la différenciation sémantique des noms d’action en -age, -ion et -ment, au regard de leur degré de technicité. Nous combinons des indices distributionnels et statistiques afin de modéliser cette différence de technicité. Au travers de ces quatre questions, cette thèse présente différents degrés d’adaptation des modèles distributionnels pour l’analyse linguistique, illustrant leur potentiel mais aussi leurs limites en tant qu’outil de validation et d’exploration.
Fichier principal
Vignette du fichier
Wauquier_Marine.pdf (1.95 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03543115 , version 1 (25-01-2022)

Identifiants

  • HAL Id : tel-03543115 , version 1

Citer

Marine Wauquier. Confrontation des procédés dérivationnels et des catégories sémantiques dans les modèles distributionnels. Linguistique. Université Toulouse le Mirail - Toulouse II, 2020. Français. ⟨NNT : 2020TOU20066⟩. ⟨tel-03543115⟩
195 Consultations
162 Téléchargements

Partager

Gmail Facebook X LinkedIn More