Accueil > Ressources > TAL > Modèle morphosyntaxique du français médiéval pour le logiciel TreeTagger

Modèle morphosyntaxique du français médiéval pour le logiciel TreeTagger

jeudi 3 mars 2011

TreeTagger est un logiciel d’étiquetage morphosyntaxique et de lemmatisation développé dans les années 1990 par Helmut Schmid. Il peut être installé en tant qu’extension à la plateforme TXM.

Le modèle linguistique fro.par est basé sur les 47 textes de la BFM étiquetés et vérifiés manuellement par des experts en Cattex 2009. Il est encodé en Unicode (UTF-8). Cette ressource est mise à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International. Notez que ce modèle ne permet pas de lemmatiser les textes.

Un modèle expérimental permettant de lemmatiser les textes peut être fourni sur demande. Il est basé sur un jeu d’étiquettes simplifié compatible avec celui du lexique LGeRM.

Nous contacter pour plus de détails techniques.

- Modèle linguistique BFM (pour le TreeTagger)

Un modèle linguistique généré à partir des données de la BFM est également disponible pour le logiciel RNNTagger développé par Helmut Schmid plus récemment. Par rapport au TreeTagger, ce logiciel donne de meilleurs résultat, mais est moins rapide et demande plus d’espace disque.