Lecture de fichiers PDF sur les projets Wikimedia

Vitruve Man

Depuis quelques années, le logiciel MediaWiki (sur lequel reposent Wikipedia et tous les autres sites hébergés par la Wikimedia Foundation) permet de visualiser directement le contenu d'un fichier DjVu. DjVu est un « format de fichier destiné à l'archivage de documents numériques ».

Cette fonctionnalité de lecture directe est particulièrement utile pour le projet Wikisource, la bibliothèque numérique construite par Wikimedia. Les participants du projet Wikisource relisent des documents scannés, convertis en format DjVu, et les transcrivent en plein texte. Il utilisent généralement un programme de reconnaissance automatique de caractères pour effectuer le plus gros du travail, et corrigent ensuite manuellement les erreurs ou les caractères non reconnus. L'affichage direct du contenu des fichiers DjVu (à n'importe quelle page) facilite cette relecture, en affichant1 côte à côte le fichier scanné et le texte reconnu.

Le support des fichiers DjVu par MediaWiki est vraiment très pratique ; cela dit, ce format est assez peu utilisé. La majorité des documents produits aujourd'hui sont exportés au format PDF, dont l'affichage n'est pas nativement supporté par MediaWiki. Ainsi, lorsque j'ai téléchargé sur Wikimedia Commons ma thèse de doctorat, j'ai importé le fichier PDF original , et une version DjVu du même document, afin de permettre la consultation directe du document en ligne (sans avoir besoin de le télécharger).

La bonne nouvelle du jour est que MediaWiki sait maintenant afficher, de façon analogue aux fichiers DjVu, le contenu d'un fichier PDF, grâce à une extension de MediaWiki appelée PDFHandler. Il est donc désormais possible de consulter les fichiers PDF directement via MediaWiki, comme par exemple les présentations effectuées à Wikimania.

Cette nouvelle fonctionnalité sera également particulièrement utile dans le cadre de la Wikimedia documents initiative, car elle permettra de consulter les documents produits, dans leur ensemble, sans avoir besoin de les télécharger préalablement.

Notes et références

  1. Par l'intermédiaire d'une extension de MediaWiki appelée Proofread Page, autrement dit « relecture de page ».