La linguistique de corpus et les très grands corpus outillés sont utilisés depuis plusieurs dizaines d’années pour l’étude diachronique du français. Ils ont permis d’affiner notre connaissance de son évolution et de mettre au jour des phénomènes qui n’avaient jusque-là pas été étudiés. Pourtant, leur constitution et leurs fonctionnalités de recherche souffrent de certains points aveugles liés à la procédure d’annotation mise en œuvre et à la prise en compte des informations philologiques, paléographiques et paratextuelles. Cette contribution examine ces difficultés et fait plusieurs suggestions quant au développement des procédures d’encodage et d’analyse des textes intégrés dans les corpus.