Jochre, océrisation par apprentissage automatique : étude comparée sur le yiddish et l'occitan

Assaf Urieli; Marianne Vergez-Couret

Communication Dans Un Congrès Année : 2013

Jochre, océrisation par apprentissage automatique : étude comparée sur le yiddish et l'occitan

(1) , (1)

Assaf Urieli

Fonction : Auteur
PersonId : 955287

Cognition, Langues, Langage, Ergonomie

Marianne Vergez-Couret

Fonction : Auteur
PersonId : 179854
IdHAL : marianne-vergez-couret
ORCID : 0000-0002-0483-0525
IdRef : 153254564

Cognition, Langues, Langage, Ergonomie

Résumé

To create textual databases for less-resourced languages such as Yiddish and Occitan, we need tools and resources enabling high-quality OCR (optical character recognition). One of the main difficulties to overcome for these two languages is their considerable spelling variation (and dialectal variation for Occitan). It is generally admitted that a lexicon can improve OCR quality, but it is not clear how to take such variation into account within the lexicon. In this study, we use Jochre, a supervised machine learning OCR system. We compare several methods of generating and using lexicons. The best method allows us to attain an accuracy of 91.2% (words) and 97.4% (letters) for the Yiddish corpus, and 93.2% (words) and 97.9% (letters) for the Occitan corpus.

Pour constituer des bases de textes pour des langues peu dotées comme le yiddish et l'occitan, il faut créer des outils et des ressources permettant une reconnaissance optique de caractères (océrisation) de qualité. Une des difficultés principales à surmonter pour ces deux langues est leur grande variation graphique (et dialectale pour l'occitan). Il est généralement admis qu'un lexique augmente la qualité de l'océrisation, mais la façon dont il faut tenir compte de la variation au sein du lexique n'est pas toujours clair. Dans cette étude, nous avons utilisé un logiciel d'apprentissage automatique supervisé, Jochre. Nous comparons plusieurs façons de constituer et d'utiliser les lexiques. La meilleure méthode nous permet d'atteindre une exactitude de 91,2 % (mots) et 97,4 % (lettres) sur le corpus yiddish, et de 93,2 % (mots) et 97,9 % (lettres) pour le corpus occitan.

Mots clés

lexicon dialects supervised machine learning

OCR océrisation yiddish occitan lexique dialectes apprentissage automatique supervisé

Domaines

Informatique et langage [cs.CL] Linguistique Traitement du texte et du document

Fichier principal

talare-2013-long-004.pdf (656.73 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Assaf Urieli : Connectez-vous pour contacter le contributeur

https://univ-tlse2.hal.science/hal-00979665

Soumis le : mercredi 16 avril 2014-20:12:51

Dernière modification le : vendredi 19 avril 2024-16:18:56

Archivage à long terme le : lundi 10 avril 2017-14:32:04

Dates et versions

hal-00979665 , version 1 (16-04-2014)

Identifiants

HAL Id : hal-00979665 , version 1

Citer

Assaf Urieli, Marianne Vergez-Couret. Jochre, océrisation par apprentissage automatique : étude comparée sur le yiddish et l'occitan. TALARE 2013 : Traitement automatique des langues régionales de France et d'Europe, Jun 2013, Les Sables d'Olonne, France. pp.221. ⟨hal-00979665⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EPHE UNIV-TLSE2 CNRS CLLE PSL UNIV-BORDEAUX-MONTAIGNE

500 Consultations

222 Téléchargements

Jochre, océrisation par apprentissage automatique : étude comparée sur le yiddish et l'occitan

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager