Le test de substituabilité à l'épreuve des corpus : utiliser l'analyse distributionnelle automatique pour l'étude des relations lexicales

Résumé : Notre objectif, dans le cadre de cet article, est d'étudier les résultats produits par un système d'analyse distributionnelle automatique afin de mieux comprendre sous quelles conditions le critère distributionnel permet de repérer les relations lexicales les plus usuelles - synonymie, antonymie, hyperonymie, méronymie. Le test de substituabilité est le critère clé auquel les lexicologues ont recours pour identifier la plupart des relations de nature paradigmatique entre mots (Cruse 1986 ; Murphy 2003). Un système d'analyse distributionnelle automatique offre précisément la possibilité de mettre en œuvre ce test à grande échelle, sur un large corpus. Il constitue un outil intéressant pour la vérification empirique de ce principe et, de façon plus générale, pour l'étude de ces relations sémantiques en corpus. Nous avons choisi d'aborder cette question en confrontant les résultats du programme d'AD dont nous disposons avec des données issues de ressources lexicales recensant différents types de relations sémantiques (synonymie, antonymie, hyperonymie, méronymie). Cette confrontation montre de forts décalages entre la ressource distributionnelle et ces lexiques. Si une part importante des paires reliées dans les lexiques sont des voisins distributionnels, c'est loin d'être toujours le cas, même quand il s'agit d'unités lexicales fréquentes dans le corpus. Nous essayons de comprendre les raisons de ces décalages en nous appuyant sur les informations que nous fournit l'analyse automatique. Cette étude est menée sur des données en français.
Complete list of metadatas

Cited literature [20 references]  Display  Hide  Download

https://hal-univ-tlse2.archives-ouvertes.fr/hal-00926559
Contributor : François Morlane-Hondère <>
Submitted on : Thursday, January 9, 2014 - 5:26:03 PM
Last modification on : Wednesday, July 10, 2019 - 1:35:17 AM
Long-term archiving on : Thursday, April 10, 2014 - 12:00:45 PM

File

shsconf_cmlf12_000293.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00926559, version 1

Citation

François Morlane-Hondère, Cécile Fabre. Le test de substituabilité à l'épreuve des corpus : utiliser l'analyse distributionnelle automatique pour l'étude des relations lexicales. CMLF 2012, Jul 2012, France. pp.1001 - 1015. ⟨hal-00926559⟩

Share

Metrics

Record views

675

Files downloads

404