Europalg : mise en ligne sous Omeka

Suite à l’extraction de données réalisée pour le Centre Roland Mousnier, LeCube a mis en ligne le guide des sources, Les Européens en Algérie (1830-1962), de Corinne Gomez-Le Chevanton à travers le site web Europalg. Ce dernier repose sur le CMS Omeka et offre aux utilisateurs une base de données de plus de 3 500 sources via un moteur de recherche et un index thématique.

Omeka : un outil adapté à la valorisation de données de recherche

Omeka est un CMS (Content Management System) développé par l’organisation Digital Scholarship. Il offre aux chercheurs un outil collaboratif pour organiser et valoriser leur recherche. Il permet de saisir et de structurer simplement et rapidement les données selon un schéma collection/objet, ainsi que de les décrire à l’aide de métadonnées.

Ses avantages sont nombreux. L’outil est facile à déployer et à prendre à main. Omeka dispose d’une communauté active dans les sciences humaines et sociales et répond aux standards de la gestion de données en matière d’humanités numériques. Dans le cas du projet Europalg, le choix s’est porté sur la version Omeka-S, car celle-ci répondait à tous les besoins en plus d’être déjà utilisée par l’équipe de recherche.

Schéma de données Omeka

Le site Europalg doit restituer le guide des sources dans un format web à l’aide d’Omeka. Le travail d’extraction réalisé précédemment a permis d’extraire la donnée de l’ouvrage. Il convient maintenant de l’adapter au modèle d’Omeka et de concevoir un site dont la navigation valorise tous les éléments du guide des sources comme l’introduction ou l’index thématique.

Omeka gère les données avec MySQL, un système de gestion de base de données relationnelles. Cependant, son interface et son utilisation se rapproche d’une base de données documents. Europalg utilise trois types de ressources :

Un item Omeka

Un item est l’objet de base d’Omeka. Il représente l’objet à valoriser, ici des cartons d’archives. L’utilisateur peut décrire ces items à l’aide de métadonnées sous la forme de paires clés-valeurs. Omeka puise ses clés dans des vocabulaires comme Dublin Core. Il est possible d’en ajouter des nouveaux. Les valeurs de ces clés peuvent prendre trois formes :

Dans le cas d’Europalg, chaque carton d’archive comporte une cote, une description et une borne chronologique. Le dernier élément (le champs Editeur) correspond à une page interne à Europalg rassemblant les collections archivistiques dans un index. Nous avons aussi utilisé la fonctionnalité d’annotation pour intégrer les notes de bas de page associées au carton.

Exemple d'un item d'Europalg et ses métadonnées sous Omeka.
Exemple d’un item d’Europalg et ses métadonnées sous Omeka.

Une collection Omeka

Une collection est un ensemble d’items et repose sur le même système de métadonnées. En ce qui nous concerne, il existe deux types de collections : les thématiques et les séries archivistiques.

Exemple d'une collection d'Europalg et ses métadonnées sous Omeka
Exemple d’une collection d’Europalg et ses métadonnées sous Omeka

A noter qu’Omeka ne permet pas à une collection de contenir d’autres collections. Contrairement à d’autres bases de données documents, il y a une distinction assez rigide entre un item et une collection. Le guide des sources a besoin de cette fonctionnalité pour représenter l’arborescence de l’index thématique. Le module Collection Tree permet de contourner en partie cette limitation mais n’a pas donné pleine satisfaction. Nous avons donc décidé de reproduire cette hiérarchie à l’aide de balises HTML.

Une page Omeka

La page Omeka permet à l’utilisateur de produire des pages web plus classiques. Elles sont construites à l’aide de blocs à empiler. Dans le cas d’Europalg, il s’agit de la page d’accueil ainsi que des pages associées aux sections Guide des sources, Annexes, Archives / Localisations.

Interface omeka permettant de gérer les pages
Interface omeka permettant de gérer les pages

Les possibilités sont assez limitées en comparaison avec un CMS orienté édition d’articles comme WordPress. Il est néanmoins possible d’utiliser du code HTML comme ici avec une page de la section Guide des sources.

Interface Omeka permettant de gérer une page.
Interface Omeka permettant de gérer une page.

Intégration des données à Omeka

Dans le but d’adapter les données au modèle d’Omeka, nous avons utilisé un script Python afin de structurer les données et de générer les pages HTML de façon automatisée.

Une fois ce travail fini, il convient d’importer les données dans Omeka. Un module permet de le faire dans l’interface administrateur du site. Néanmoins il ne prend pas en charge certaines fonctionnalités importantes pour Europalg comme les annotations. L’intégration des données s’est donc faite directement dans MySQL.

MySQL : la base de données Omeka-S

La base de données MySQL s’organise autour de plusieurs tables. Une partie d’entre elles porte sur les données à valoriser :

Une seconde partie des tables MySQL portent sur les pages web, servant notamment à la navigation et à l’interface utilisateur :

En définitive, 11 tables sont nécessaires pour importer les données du guide des sources sur le site Europalg. En plus des 7 tables citées plus haut, les données Europalg utilisent 4 autres tables :

Vue des tables MySQL d'une base de données Omeka-S
Vue des tables MySQL d’une base de données Omeka-S

Les données issues de l’extraction du guide des sources

Suite à l’extraction de données réalisée sur le guide des sources, on dispose d’un fichier CSV contenant l’ensemble du guide des sources hormis l’introduction et les annexes.

Ces données ont été structurées dans un unique tableau de plus de 4 000 entrées. Chacune d’entre elles représente un élément du guide des sources (chapitres, séries archivistiques, cartons) et est accompagnée d’éventuelles descriptions ou notes de bas de pages. Les lignes représentant un carton d’archive comportent aussi des informations sur la thématique et la série parente.

Extrait du csv contenant les données issue de l'extraction du guide des sources
Extrait du csv contenant les données issue de l’extraction du guide des sources

Structuration des données à l’aide d’un script python

Les données propres aux items et collections sont, dans leurs majeures parties, déjà structurées. Il reste à assigner celles-ci aux multiples tables MySQL. Plus de travail est nécessaire pour proposer à l’utilisateur un index thématique organisant les collections.

Le guide des sources contient environ 300 thématiques réparties sur cinq niveaux. Les deux premiers niveaux, trois grandes parties et 19 chapitres, ne comportent pas d’archives contrairement aux trois niveaux suivants. Ces deux niveaux ont donc été utilisés comme pages dans Omeka. Chacune accueille en son sein leurs sous-thématiques. Ces dernières sont, elles, représentées comme des collections dans Omeka puisqu’elles doivent contenir des items (des cartons).

Exemple du code html structurant les collections en arborescence.
Exemple du code html structurant les collections en arborescence.

Pour chacune de ces pages, il a donc fallu produire un code HTML organisant les collections associées (leurs sous-thématiques) dans le bon ordre.

Extrait du script python générant les pages HTML pour les index thématiques.
Extrait du script python générant les pages HTML pour les index thématiques.

L’introduction, les annexes, la bibliographie et les pages archives ont aussi été générées de cette façon. Dans le cas de l’introduction, il a aussi fallu trouver un moyen d’intégrer les notes de bas de page dans le corps du texte pour faciliter la lecture.

Introduction du guide des sources
Introduction du guide des sources

Le site Europalg

Pour finir, ce travail permet à Europalg de valoriser le guide des sources de Corinne Gomez-Le Chevanton sur Les Européens en Algérie (1830-1962). Il donne la possibilité à l’utilisateur d’explorer une base de données de plus de 3 500 items par un index, thématique ou archivistique, ainsi qu’un moteur de recherche.