Si vous avez lu le rapport Lier l’avenir numérique des arts de la scène ou tout autre ouvrage sur la découvrabilité numérique, il est fort probable que vous ayez buté sur le terme « graphe de connaissances » et que vous vous soyez demandé ce que cela peut bien manger en hiver.
N’ayez crainte, vous n’êtes pas seuls. Même les experts ont de la difficulté à s’entendre sur ce qu’est un « graphe de connaissances ». On peut néanmoins dégager de ces débats qu’un graphe de connaissances est la combinaison de deux choses :
- Un modèle de données (un modèle conceptuel pour représenter les informations sous forme de données, avec des ontologies formelles régissant l’organisation du savoir à l’intérieur d’un domaine de connaissances); et,
- Des données, entreposées dans une base de donnée graphes.
Cette définition, bien que simplifiée, comporte plus de matière que ce qu’un billet de blogue ne permet d’aborder. Aussi, écartons la première partie et penchons-nous uniquement sur la seconde : « des données, entreposées dans une base de données graphes ».
Alors, qu’est-ce qu’une base de données graphe?
Selon Wikipédia, une « base de données orientée graphe est une base de données orientée objet utilisant la théorie des graphes, donc avec des nœuds [c’est-à-dire les objets ou les données] et des arcs [c’est-à-dire les relations entre entre les objets], permettant de représenter et stocker les données. »
Cette définition contient de nombreux éléments mais le plus importants d’entre eux est l’arc – la relation – qui lie un nœud à un autre nœud. La base de données graphe accorde une grande priorité à la relation. Sans relations, les données ne peuvent être liées, il ne peut y avoir de base données graphe et il ne peut exister de graphe de connaissances.
Voici un exemple :
— Christine Beaulieu fait partie de la distribution de J’aime Hydro.
Si cette phrase était un graphe, Christine Beaulieu et la production de théâtre documentaire J’aime hydro seraient toutes deux des nœuds. Et « fait partie de la distribution » serait leur arc ou relation.
Supposons que l’on supprime cette relation :
— Christine Beaulieu. J’aime Hydro.
La phrase s’en trouve scindée en deux. Il n’y a plus de sujet ni de prédicat. Il ne reste que deux objets (ou nœuds) formant des fragments de phrases dénués de sens.
Supposons maintenant que cette relation soit remplacée par « est la créatrice de ». Un nouvel arc est alors créé, associant un sens nouveau à ces deux même nœuds. De surcroît, ces nœuds peuvent aussi être liés à de nombreux autres nœuds. Le graphe de connaissances ressemble donc énormément aux réseaux sociaux entre êtres humains (lesquels se prêtent, au demeurant, très bien à une modélisation sous forme de graphe). Les réseaux sociaux (comme les graphes) sont multi-relationnels et multidimensionnels : la même personne peut être à la fois une collègue pour plusieurs personnes au travail, la mère de trois enfants à la maison et une bonne amie pour une autre personne. De la même façon, J’aime hydro peut être à la fois un projet de création pour une compagnie de théâtre, un contrat de travail pour un comédien, une offre de spectacle en tournée pour des diffuseurs, un spectacle à l’affiche pour des amateurs de théâtre, ainsi qu’un objet de curiosité pour quiconque s’intéresse à l’hydro-électricité.
Pour résumer ce qui précède, on pourrait affirmer que le graphe de connaissances ainsi que la base de données graphe portent tous deux sur les relations et la signification. À l’instar des réseaux sociaux. Ou de la chaîne du spectacle.
En quoi cela est-il pertinent pour le secteur des arts?
Une base de données graphe est fondamentalement différente de base de données relationnelle traditionnelle. Leur structure est différente. Elle rendent possibles différentes utilisations de la donnée. Et elle peuvent mener à penser différemment à propos de la données.
Voici un tableau comparatif entre la base de données relationnelle et la base de données graphe.
Base de données relationnelle | Base de données graphe |
Les relations entre les tables (par exemple entre une liste d’organismes de diffusion et une liste de lieux de diffusion) sont implicites. Elles sont définies à même la structure de la base de données par le biais d’un index et de clés. | Les relations entre les objets sont explicites. Chaque arc désigne une relation précise et cette relation constitue une entité à part entière dans la base de donnée au même titre que les nœuds. |
Linéaire ou hiérarchique. Elle gère très bien les relations un-à-un ou un-à-plusieurs entre les occurrences de la base de données. Elle a cependant plus de difficulté avec les relations plusieurs-à-plusieurs. | Multi-directionnelle. Elle excelle avec les relations plusieurs-à-plusieurs, chaque nœud pouvant avoir un grand nombre de relations avec plusieurs autres nœuds. Un nœud peut être une plusieurs choses à la fois (tout comme un être humain). |
Efficace pour protéger des données. Une base de données relationnelle peut néanmoins échanger des données avec une autre base de données par le biais d’une API. | Efficace pour exposer et échanger des données. La base de données graphe permet de désigner des objets et des relations selon le Resource Description Framework, une spécification du W3C pour l’échange de données dans le Web des données. Les bases de données graphe suivant la spécification RDF peuvent être exposées sous forme de données ouvertes liées, lesquelles peuvent être aisément liées à d’autres bases de données graphe RDF. |
Permet d’accumuler beaucoup de données du même type. | Flexible. La base de données graphe peut facilement être adaptée pour recevoir de nouveaux types de données dès que le besoin s’en fait sentir. |
La base de données relationnelle peut fournir des données d’entraînement pour l’apprentissage automatique. | La base de données graphe rend possible l’apprentissage automatique. La théorie des graphes est l’un des fondements de l’intelligence artificielle. |
Ainsi que le démontre cette table, les bases de données relationnelles et les bases de données graph sont fondamentalement différentes non pas uniquement dans leurs façons d’organiser les données mais aussi et surtout dans ce qu’elles rendent possible. En cela, elles sous-tendent des façons différentes d’entrevoir la donnée et ses usages (actuels et potentiels).
L’une met l’accent sur l’enregistrement de données dans des tables. L’autre met l’accent sur les relations entre des objets.
Il me semble que la seconde sera plus propice à faire émerger le genre de collaboration radicale dont a besoin le secteur des arts afin de réaliser sa transformation numérique.
En guise de conclusion, je citerai les propos d’un récent billet de Josée Plamondon :
La mise en valeur de répertoires et collections, ainsi que des actifs informationnels (textes, images, sons) d’organisations ne devrait plus reposer sur des bases de données classiques. Les bases de données en graphes permettent de raisonner sur des données et de générer de la connaissance, en faisant des liens, à l’image de la pensée humaine.
Josée Plamondon, Produire des données : entre outils de marketing et bases de connaissances.
L’auteur remercie Gregory Saumier-Finch, de La culture créé, et Jai Djwa, de Agentic Communications, pour leurs apports à ce billet.
Lectures suggérées
Josée Plamondon, Web sémantique : de choc culturel à transformation numérique, 16 juillet 2018.
MT Buzzer, Graph database vs. relational database, 26 juillet 2018.
Favio Vázquez, Graph Databases. What’s the Big Deal?, 22 janvier 2019.
Stefan Summesberger et Juan Sequeda, Knowledge Graphs Need Social-Technical Solutions, 24 mai 2019.
Josée Plamondon, Produire des données : entre outils de marketing et bases de connaissances, 21 août 2019.
Trackbacks & Pingbacks
[…] plutôt que de considérer des approches plus ouvertes et flexibles comme les ontologies RDF et les bases données graphe. On me répond souvent qu’une base de données relationnelle peut être ouverte par le biais […]
Leave a Reply
Want to join the discussion?Feel free to contribute!