RFreeStem un raciniseur pour le malgache - Université Toulouse - Jean Jaurès Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

RFreeStem un raciniseur pour le malgache

Résumé

Stemming is a step in text pre-processing that groups together words that are morphologically different but semantically similar, and which therefore, when used in a query in a search engine, should match similar or even identical documents. For many languages, stemmers are rule-based. For languages without tools, the stemming problem remains unsolved. This is the case of Malagasy. This paper analyzes the efficiency of a stemmer, RFreeStem, based on the statistical analysis of texts and without rules. We study the hyperparameters of this stemmer and their influence on the efficiency of the stemming for Malagasy by comparing it to an existing test collection containing manually obtained word roots.
La racinisation est une étape dans le pré-traitement des textes qui regroupe des mots qui sont morphologiquement différents mais sémantiquement similaires, et qui donc, utilisés dans une requête, devraient correspondre à des résultats d'un moteur de recherche similaires voire identiques. Pour de nombreuses langues, les raciniseurs sont à base de règles. Pour des langues non outillées, le problème de racinisation demeure non résolu. C'est le cas du malgache. Cet article analyse l'efficacité d'un raciniseur, RFreeStem, basé sur l'analyse statistique des textes et sans règle. Nous étudions les hyperparamètres de ce raciniseur et leur influence sur l'efficacité du raciniseur pour le malgache en se comparant à une collection de test existante et contenant des racines obtenues manuellement.
Fichier principal
Vignette du fichier
RFreeStem un raciniseur pour le malgache.pdf (760.98 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03360868 , version 1 (01-10-2021)

Identifiants

  • HAL Id : hal-03360868 , version 1

Citer

Andonirina Andriamihasinoro, Josiane Mothe, Oihana Coustié, Olivier Teste. RFreeStem un raciniseur pour le malgache. 17ème conférence francophone en Recherche d’Information et Application (CORIA 2021), Apr 2021, Grenoble, France. pp.1-10. ⟨hal-03360868⟩
69 Consultations
72 Téléchargements

Partager

Gmail Facebook X LinkedIn More