Jochre, océrisation par apprentissage automatique : étude comparée sur le yiddish et l'occitan - Université Toulouse - Jean Jaurès Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Jochre, océrisation par apprentissage automatique : étude comparée sur le yiddish et l'occitan

Résumé

To create textual databases for less-resourced languages such as Yiddish and Occitan, we need tools and resources enabling high-quality OCR (optical character recognition). One of the main difficulties to overcome for these two languages is their considerable spelling variation (and dialectal variation for Occitan). It is generally admitted that a lexicon can improve OCR quality, but it is not clear how to take such variation into account within the lexicon. In this study, we use Jochre, a supervised machine learning OCR system. We compare several methods of generating and using lexicons. The best method allows us to attain an accuracy of 91.2% (words) and 97.4% (letters) for the Yiddish corpus, and 93.2% (words) and 97.9% (letters) for the Occitan corpus.
Pour constituer des bases de textes pour des langues peu dotées comme le yiddish et l'occitan, il faut créer des outils et des ressources permettant une reconnaissance optique de caractères (océrisation) de qualité. Une des difficultés principales à surmonter pour ces deux langues est leur grande variation graphique (et dialectale pour l'occitan). Il est généralement admis qu'un lexique augmente la qualité de l'océrisation, mais la façon dont il faut tenir compte de la variation au sein du lexique n'est pas toujours clair. Dans cette étude, nous avons utilisé un logiciel d'apprentissage automatique supervisé, Jochre. Nous comparons plusieurs façons de constituer et d'utiliser les lexiques. La meilleure méthode nous permet d'atteindre une exactitude de 91,2 % (mots) et 97,4 % (lettres) sur le corpus yiddish, et de 93,2 % (mots) et 97,9 % (lettres) pour le corpus occitan.
Fichier principal
Vignette du fichier
talare-2013-long-004.pdf (656.73 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-00979665 , version 1 (16-04-2014)

Identifiants

  • HAL Id : hal-00979665 , version 1

Citer

Assaf Urieli, Marianne Vergez-Couret. Jochre, océrisation par apprentissage automatique : étude comparée sur le yiddish et l'occitan. TALARE 2013 : Traitement automatique des langues régionales de France et d'Europe, Jun 2013, Les Sables d'Olonne, France. pp.221. ⟨hal-00979665⟩
497 Consultations
219 Téléchargements

Partager

Gmail Facebook X LinkedIn More