Accueil > Corpus

Liste des corpus de la BFM

Les corpus de la BFM sont mis à jour régulièrement et sont généralement nommés par année.

Versions courantes

BFM2022

BFM2022 est le corpus principal diffusé par la Base de français médiéval. Il contient 219 textes, soit près de 6 450 000 occurrences-mots.

Si le message "Aucune donnée à afficher" apparait lorsque vous accédez au portail, vous pouvez utiliser l’adresse alternative du portail : txm-bfm.huma-num.fr ou bien autoriser les cookies provenant du site txm-bfm.huma-num.fr dans votre navigateur.

PROFITEROLE-V1-0 : Corpus annoté syntaxiquement

Le Corpus PROFITEROLE a été développé dans le cadre d’un programme de recherche PRocessing Old French Instrumented TExts for the Representation Of Language Evolution financé par l’Agence nationale de la recherche (2017-2022), visant d’une part à enrichir les ressources linguistiques pour le français médiéval par la constitution d’un corpus annoté et de lexiques, d’autre part à développer des outils d’annotation et d’exploration de données linguistiques hétérogènes, et enfin à esquisser la modélisation de certains aspects morpho-syntaxiques et syntaxiques de l’évolution du français médiéval.

Le corpus PROFITEROLE est composé de 63 textes intégraux ou échantillonnés, soit 992 117 mots au total.

Graal

Accéder à l’édition numérique interactive

PALAFRALAT-V2-0, PALAFRAFRO-V2-2 et PALAFRAPAR : Passage du latin au français

Le projet ANR-DFG PaLaFra (http://palafra.org) vise à documenter et à étudier le passage du latin au français dans une perspective diachronique large, qui restitue la continuité de l’évolution linguistique du latin classique au français moderne. Il est porté par quatre équipes (Université de Lille, ENS de Lyon, Université de Regensburg, Université de Tübingen) et développe un corpus de textes de latin tardif et d’ancien français.

Vous pouvez :
- interroger le corpus latin PALAFRALAT-V2-0 sur le portail BFM
- afficher la liste des textes du corpus latin
- interroger le corpus français PALAFRAFRO-V2-2 sur le portail BFM
- afficher la liste des textes du corpus français
- interroger le corpus parallèle PALAFRAPAR sur le portail BFM
- afficher la liste des textes du corpus parallèle
- visiter le site web du projet PaLaFra

BFMMSS : Transcriptions de manuscrits

Accéder au corpus

- faites un clic-droit sur le nom de corpus "BFMMSS" pour l’interroger

Vous pouvez par ailleurs consulter les références des sources du corpus et connaitre les dimensions et les descripteurs typologiques des textes

Versions précédentes

BFM2019

BFM2019 est le corpus diffusé par la Base de français médiéval entre octobre 2019 et juin 2023. Il contient 170 textes, soit près de 4 700 000 occurrences-mots. Tous les textes du corpus BFM2019 se retrouvent dans le nouveau corpus principal BFM2022.

BFM2016

Le corpus BFM2016 a été diffusé sur le portail BFM du 1/11/2016 au 1/02/2020. Il contenait 153 textes], soit près de 4 100 000 occurrences-mots.

BFM2014

Le corpus BFM2014 a été diffusé sur le portail BFM du 1er août 2014 au 30 juin 2017. Ce corpus comportait 126 unités textuelles, soit près de 3 550 000 occurrences-mots).

BFM2013

Corpus diffusé du 6/11/2013 au 8/8/2014

Le corpus BFM2013 a été diffusé sur le portail BFM du 6 novembre 2013 au 8 août 2014. Ce corpus comportait 142 unités textuelles, soit près de 4 700 000 occurrences-mots).

Vous pouvez également télécharger une table des métadonnées :

BFM2012

Corpus diffusé du 15/5/2012 au 31/12/2013

Le corpus BFM2012 a été diffusé sur le portail BFM du 15 mai 2012 au 31 décembre 2013. Ce corpus comportait 75 unités textuelles, soit près de 3 300 000 occurrences-mots.

BFM1_09

Corpus diffusé du 29/10/2010 au 31/12/2012

Voir la liste des textes

CORPTEF : Corpus représentatif des premiers textes français

Le Corpus représentatif des premiers textes français (CoRPTeF) a été développé dans le cadre d’un programme de recherche financé par l’Agence nationale de la recherche (2008-2010), visant à élaborer un corpus de référence pour le très ancien français (du IXe au XIIe siècle) et à développer la recherche sur cette période de l’histoire du français.

Ce corpus est désormais accessible en tant que sous-corpus de la BFM2022. Le corpus original reste accessible sur l’ancien portail de la BFM jusqu’au 30 juin 2023.

Vous pouvez :
- [interroger le sous-corpus CORPTEF de la BFM2022 >https://txm-bfm.huma-num.fr/?command=page&path=/BFM2022/CORPTEF]
- interroger le corpus CORPTEF sur l’ancien portail BFM
- afficher la liste des textes
- visiter le site web du projet CoRPTeF