Base de français médiéval

lundi 7 novembre 2016

La Base de français médiéval contient un ensemble de textes français du Moyen Âge (IX^e - fin XV^e siècle) rassemblés depuis 1989 dans un corpus numérique diachronique. Son objectif principal est d’offrir des ressources utiles à l’enseignement et à la recherche sur la langue, la littérature et la civilisation médiévale et d’ouvrir de nouvelles perspectives de recherche grâce au support informatique et aux outils d’analyse linguistique.

Grâce à sa taille et à la richesse de ses ressources, la BFM constitue un outil unique et internationalement reconnu pour l’étude de l’histoire du français. Depuis sa création, elle a permis la réalisation d’un grand nombre de thèses sur le français ancien. Elle est très largement exploitée par de nombreux chercheurs français et étrangers.

La BFM est accessible par un portail Web qui permet de lire les textes et d’y faire des recherches. L’accès à la Base est gratuit et ouvert au grand public comme aux spécialistes. Il se fait par la plateforme d’analyse textométique TXM, qui offre un riche panel de fonctionnalités de lecture, de recherche et d’analyse : création d’index, de concordances de mots ou de motifs textuels, vocabulaire du corpus ou d’un texte particulier, navigation dans les pages d’édition, téléchargement des textes au format PDF, etc.

Les ressources de la BFM sont encodées selon les standards internationaux (format XML, balises recommandées par la TEI/P5). Elles sont diffusées dans le respect de Conditions générales d’utilisation. La lecture en ligne et le téléchargement au format PDF de la plupart des textes sont accessibles librement et sans inscription. Les fichiers sources au format XML-TEI sont librement téléchargeables à partir de l’entrepôt Nakala (licence ouverte Etalab).

Les éditions de référence qui constituent la BFM sont diversifiées du point de vue sociolinguistique. Elles sont décrites grâce à un système de métadonnées spécialisé : données bibliographiques, date de création des textes et des manuscrits, forme des textes (vers/prose), genre et domaine textuel, etc. Ce système a été élaboré en collaboration avec les membres du Consortium international pour les corpus de français médiéval dans le cadre du projet CoRPTeF. Les métadonnées des textes de la BFM sont exposées dans un entrepôt OAI mis en place par le consortium CAHIER (TGIR Huma-Num).

Les textes de la Base ont fait l’objet d’une annotation linguistique multi-niveau : encodage exhaustif des passages au discours direct, étiquetage morphosyntaxique automatique vérifié dans un grand nombre de textes, et annotation automatique ou manuelle des structures syntaxiques d’un sous-corpus plus réduit (corpus PROFITEROLE-V1-0). Ces annotations décuplent les possibilités d’exploitation de la Base.

Fondée par Christiane Marchello-Nizia et implantée depuis l’origine au sein de l’ENS de Lyon (anciennement ENS Fontenay / Saint-Cloud, puis ENS LSH), la BFM est actuellement développée au sein du laboratoire IHRIM (CNRS, ENS de Lyon). Elle est gérée par cinq personnes : Céline Guillot-Barbance (responsable scientifique et administrative), Serge Heiden (responsable de l’instrumentation informatique), Alexei Lavrentiev (responsable de la philologie numérique, administrateur du portail Web), Matthieu Decorde (développeur informatique) et Nadine Pontal (éditorialisation et accompagnement juridique).

Développements en cours

La BFM offre des ressources numériques pour les projets de l’équipe. Ces projets de recherche associés enrichissent en retour la Base.

La BFM s’enrichit régulièrement de nouveaux textes, sous la forme d’éditions imprimées numérisées ou d’éditions numériques natives, réalisées dans le cadre d’une collection de Sources médiévales.

Elle étend progressivement ses limites diachroniques vers les origines du français et la latinité tardive (projet PALAFRA). Elle s’équipe de nouvelles annotations linguistiques, grâce à la lemmatisation des unités lexicales et à l’annotation des chaînes de référence dans un sous-ensemble de textes (projet Democrat) et des relations syntaxiques (projet PROFITEROLE).

Historique

Dès les années 1980, les travaux de syntaxe historique réalisés par Christiane Marchello-Nizia et ses doctorants ont rendu nécessaire la création d’une banque de données pour la période médiévale. D’autres bases en cours de création à la même époque (la base FRANTEXT, la base élaborée en vue de la création du Dictionnaire du Moyen Français, etc.) montraient la voie. La Base de français médiéval est née en 1989. Elle s’est constituée grâce à une politique de saisie et de scannage systématique et grâce à des échanges continus avec des partenaires français et internationaux.

Comme dans le cas du Dictionnaire du Moyen Français, on a choisi de numériser les textes dans leur intégralité et à partir d’éditions de référence. Les variantes n’ont pas été saisies et l’on n’a pas eu recours aux manuscrits d’origine, sauf pour le texte de la Queste del Saint Graal.

La BFM ayant été conçue à l’origine comme un complément de la base du Dictionnaire du Moyen Français, elle a pendant longtemps contenu majoritairement des textes antérieurs à 1320 et des textes littéraires. Elle s’est beaucoup diversifiée ensuite, étendue vers le très ancien français et le moyen français, et enrichie de textes non littéraires (religieux, historiques, scientifiques ou didactiques, etc.)

Une dizaine de personnes ont participé à l’élaboration de la BFM, avec l’aide ponctuelle de collègues, de jeunes chercheurs et d’étudiants pour la saisie, le scannage et la relecture des textes. La BFM est actuellement gérée par Alexei Lavrentiev (CNRS, UMR IHRIM).

Financements

Depuis 1989, la BFM a bénéficié de financements locaux et nationaux :
crédits des unités de recherche successives de l’équipe : ELI (1989 à 1997), Anacorpus (1997-2002), ICAR (2003-2015), IHRIM (depuis 2016).
dotation de l’Institut Universitaire de France de 1994 à 2004 (délégation de C. Marchello-Nizia) et de 2010 à 2015 (délégation de C. Guillot-Barbance)
subvention de la DGLFLF (2005)
subvention de la région Rhône-Alpes, Cluster 13 (2009-2010)
subvention Huma-Num dans le cadre du consortium CAHIER (2012)
subvention de l’ENS de Lyon, fonds de la recherche (2013-2014)

Elle a également reçu le soutien financier de plusieurs programmes de recherche nationaux et internationaux :
projet ILF MorphoMultiDim : Étiquetage morpho-syntaxique de textes en français médiéval dans un cadre multidimensionnel (resp. S. Heiden, 2004-2006)
GTRC Modéliser le changement (2005-2009)
projet ILF Constitution et saisie d’un corpus de documents coutumiers et juridiques (Base de textes de français médiéval et de la Renaissance) (resp. H. Gerner ATILF, 2006)
ANR ELICO (2006-2009) ;
ANR Textométrie (2007-2010) ;
ANR CoRPTeF (2008-2011) ;
ANR-DFG SRCMF (2009-2012) ;
ANR Oriflamms (2013-2016) ;
ANR-DFG PRESTO (2013-2016)
ANR-DFG PALAFRA (2015-2018)
ANR DEMOCRAT (2016-2020)
ANR PROFITEROLE (2017-2022)
Biblissima+ Fabliaux (depuis 2022)

Base de français médiéval

Développements en cours

Historique

Financements

Accès direct

Contact

Liens