Interopérabilité sémantique ouverte : l’industrie peut-elle enfin s’accorder sur la signification de « chiffre d’affaires » ?

Vincent VIKOR
La question n’est plus de savoir si nous avons besoin d’une interopérabilité sémantique, mais comment la rendre opérationnelle en pratique. 

Le problème de l’interopérabilité n’est pas nouveau

I

À la fin des années 1990, le Groupe de normalisation pour l’exploration de données (Data Mining Group, DMG) a créé PMML — langage de balisage pour modèles prédictifs (Predictive Model Markup Language) — une norme basée sur le langage de balisage extensible (XML) permettant de représenter et d’échanger des modèles prédictifs entre des plateformes d’analytique.

Modèles de régression, réseaux de neurones, arbres de décision : PMML permettait d’exporter depuis un outil et d’importer dans un autre. Des solutions comme SAS, SPSS et les premières plateformes d’apprentissage automatique automatisé l’ont adopté avec succès dans certains cas d’usage spécialisés.

Mais PMML n’a jamais atteint une adoption universelle. La norme était complexe, la neutralité vis-à-vis des éditeurs s’est révélée difficile à maintenir, et les implémentations sont restées fragmentées selon les plateformes. PMML a fonctionné là où le périmètre était limité — des définitions de modèles portables entre outils compatibles — et a peiné partout où le périmètre était plus large.

À la même époque, l’initiative du Web sémantique promettait quelque chose de bien plus ambitieux. La vision de Tim Berners-Lee, formalisée via des standards du World Wide Web Consortium (W3C) comme le cadre de description des ressources (RDF), le langage d’ontologie du Web (OWL) et le langage de requête SPARQL, visait à rendre l’ensemble du Web lisible par les machines — des données porteuses de sens, pas seulement de structure.

En 2009, lors d’une rencontre communautaire à San Francisco où nous présentions les capacités d’apprentissage automatique automatisé de KXEN, j’ai demandé à des chercheurs ce qui viendrait après le Web 2.0. La réponse a été unanime : le Web sémantique — le Web 3.0¹.

Cette grande vision ne s’est jamais matérialisée comme prévu. Ajouter des métadonnées sémantiques était trop fastidieux, les incitations à l’adoption trop faibles, et l’approche trop académique pour accompagner la croissance organique du Web. Les moteurs de recherche ont résolu une grande partie des mêmes problèmes de manière pragmatique, grâce à des méthodes statistiques et à des graphes de connaissances.

Mais l’intuition de départ était juste : sans sémantique partagée, les machines ne peuvent pas interpréter les données de façon pertinente d’un système à l’autre.

Avançons jusqu’en septembre 2025 : Snowflake réunit l’industrie autour de l’Interopérabilité sémantique ouverte (Open Semantic Interchange, OSI), une norme ouverte destinée à partager des métadonnées sémantiques entre plateformes de données.

Même promesse fondamentale, époque différente. Cette fois, il existe un facteur de contrainte que PMML et le Web sémantique n’avaient pas : l’intelligence artificielle a besoin de cohérence sémantique pour fonctionner.

 

Pourquoi cela compte maintenant : la couche sémantique comme socle de l’IA

Aujourd’hui, les organisations utilisent des dizaines d’outils d’analytique — plateformes d’intelligence d’affaires, entrepôts de données, agents d’intelligence artificielle, systèmes de production de rapports — chacun avec sa propre interprétation des concepts métier. « Chiffre d’affaires » signifie une chose pour le marketing, une autre pour la finance, une troisième pour les ventes. Les tableaux de bord affichent des chiffres contradictoires en comité de direction. Personne n’a tort, mais personne n’est d’accord.

Une couche sémantique résout ce problème en créant une couche unique et gouvernée, où les indicateurs métier sont définis une seule fois dans le code et utilisés de manière cohérente partout. Définissez « chiffre d’affaires » une fois — en incluant sa logique de calcul, ses relations dimensionnelles, sa granularité temporelle et ses contrôles d’accès — et chaque outil, chaque analyste, chaque agent d’intelligence artificielle utilisera la même définition. La mise en mémoire intermédiaire par pré-agrégation offre des performances inférieures à une seconde. La sécurité au niveau des lignes et des colonnes applique la gouvernance directement dans l’infrastructure, plutôt que de supposer que chaque outil l’implémente correctement.

La direction doit pouvoir faire confiance aux données pour prendre des décisions en toute assurance. Des définitions sémantiques universelles répondent directement à cet enjeu : elles ne se contentent pas d’améliorer la cohérence, elles évitent les écarts d’interprétation métier qui ralentissent les projets et fragilisent la prise de décision.

L’arrivée de l’intelligence artificielle amplifie le problème de façon exponentielle. Les tableaux de bord traditionnels affichent passivement des chiffres contradictoires — quelqu’un finit par repérer l’écart. Les agents d’intelligence artificielle, eux, présentent des chiffres contradictoires avec assurance, à grande échelle, accompagnés d’explications qui paraissent autoritaires. Comme l’a indiqué l’analyste du cabinet Gartner, Rita Sallam, dans ses prévisions pour 2025, les organisations qui priorisent la modélisation sémantique augmenteront la précision de l’intelligence artificielle de 80 % et réduiront les coûts de 60 %. Sans ancrage sémantique, on n’obtient pas de l’intelligence : on obtient une confusion automatisée, sûre d’elle.

C’est dans ce contexte qu’émerge l’Interopérabilité sémantique ouverte (OSI) — non pas comme un exercice académique, mais comme une réponse de l’industrie à un problème rendu urgent par l’intelligence artificielle.


OSI : ce que c’est, qui le porte, et où cela en est

La spécification

 L’Interopérabilité sémantique ouverte (OSI) repose sur un format déclaratif en YAML, développé en collaboration avec le cadre applicatif MetricFlow de dbt Labs. La spécification définit des modèles sémantiques comme des conteneurs de premier niveau comprenant des ensembles de données, des relations, des mesures, des dimensions et — point crucial à l’ère de l’intelligence artificielle — des métadonnées de contexte. 

 

__________________

Les ensembles de données représentent des entités métier logiques (tables de faits et tables de dimensions), avec leurs champs, clés primaires et correspondances vers les sources. Les mesures définissent des calculs quantitatifs (sommes, moyennes, ratios) pouvant s’étendre sur plusieurs ensembles de données. Les dimensions sont des attributs catégoriels permettant de segmenter et d’analyser les données. Les relations précisent la logique de jointure et la cardinalité entre les ensembles de données.

Ce qui distingue l’Interopérabilité sémantique ouverte (OSI) des précédentes tentatives de normalisation, c’est l’existence explicite du champ contexte d’intelligence artificielle (ai_context) — une section dédiée du format YAML dans laquelle vous fournissez des instructions en langage naturel aux agents d’intelligence artificielle qui exploitent le modèle.

C’est ici que vous indiquez à un agent d’intelligence artificielle : « Utilise ce modèle sémantique pour l’analytique du commerce de détail. Il prend en charge l’analyse temporelle, la segmentation client et la performance des produits. » Il ne s’agit pas d’une métadonnée décorative : c’est le pont entre des définitions structurées et la compréhension en langage naturel dont les grands modèles de langage ont besoin pour interroger les données avec précision.

La promesse est simple : définir une fois, utiliser partout — à travers les outils d’intelligence d’affaires, les agents d’intelligence artificielle et les plateformes d’analytique. Le tout sous licence Apache 2.0, et conçu pour rester neutre vis-à-vis des éditeurs.

Un modèle sémantique simple ressemble à ceci :


 

semantic_model:
  - name: retail_model
    description: Retail semantic model for sales analytics
    ai_context:
      instructions: "Use this model for retail analytics.
        Supports time-based analysis and customer segmentation."
    datasets:
      - name: store_sales
        source: schema.store_sales
        primary_key: [item_id, ticket_number]
    measures:
      - name: order_total
        expression: SUM(store_sales.sale_price)
    dimensions:
      - name: order_date
        type: time
        type_params:
          time_granularity: day

 

Point important : une réserve à garder en tête

Même si la spécification de l’Interopérabilité sémantique ouverte (OSI) définit des champs comme ai_context, dialect et synonyms, ceux-ci ne sont pas encore pris en charge dans MetricFlow. Lorsque je les ai testés dans mon environnement technique, dbt a renvoyé une erreur d’analyse syntaxique :
« Des propriétés supplémentaires ne sont pas autorisées (“ai_context”, “dialect”, “synonyms” sont inattendues). »

La spécification OSI a une longueur d’avance sur les outils : la vision est définie, mais les implémentations ne l’ont pas encore pleinement intégrée.


 Chronologie 

Snowflake mérite un crédit significatif pour avoir fédéré l’écosystème autour de cette initiative. Le passage du concept à la spécification a été rapide :

  • Février 2023 — dbt Labs acquiert Transform, intégrant MetricFlow à l’écosystème dbt.
  • 23 septembre 2025 — Snowflake lance OSI avec des partenaires fondateurs : Salesforce (Tableau), dbt Labs, BlackRock, Alation, Atlan, Cube, Hex, Honeydew, Mistral AI, Omni, RelationalAI, Select Star, Sigma, ThoughtSpot, entre autres.
  • 14 octobre 2025 — dbt Labs publie MetricFlow en logiciel libre sous licence Apache 2.0 lors de l’événement Coalesce 2025. Ce changement de licence est déterminant : MetricFlow était auparavant sous licence publique générale affero (AGPL), puis sous licence commerciale restreinte (Business Source License). Passer à Apache 2.0 signifie que tout éditeur peut s’appuyer sur MetricFlow sans contraintes juridiques — un engagement réel en faveur d’un standard communautaire.
  • 17 octobre 2025 — Première session du groupe de travail dans les bureaux de Snowflake à Menlo Park.
  • Novembre 2025 — Starburst rejoint l’initiative.
  • Décembre 2025 — Collibra, DataHub et Strategy (anciennement MicroStrategy) rejoignent l’initiative.
  • 27 janvier 2026 — Publication de la spécification OSI version 1.0 sur GitHub. De nouveaux membres rejoignent l’initiative : Databricks, AtScale, Qlik, JetBrains, Lightdash, Coalesce et Credible.
  • 3 février 2026 — Collate rejoint l’initiative.

La séquence de janvier est révélatrice : la dynamique industrielle s’accélère nettement. Databricks, initialement absent, a rejoint l’initiative au moment de la publication officielle de la spécification.

Le cas d’AtScale est particulièrement instructif. L’éditeur mettait initialement en avant son propre langage de modélisation sémantique comme une approche plus complète. En janvier, AtScale a rejoint l’initiative. Ce type de position critique suivi d’une participation active est un signe de maturité : une adhésion fondée sur une évaluation approfondie plutôt que sur un effet d’annonce.


La suite

La feuille de route d’OSI prévoit trois phases.

Nous sommes actuellement en Phase 1 (quatrième trimestre 2025 – premier trimestre 2026) : finalisation de la spécification, implémentations de référence et mise en place d’une gouvernance communautaire — en grande partie accomplies avec la publication de la version 1.0 en janvier 2026.

La Phase 2 (deuxième au quatrième trimestre 2026) vise une adoption élargie avec un support natif dans plus de 50 plateformes, des extensions spécifiques à certains secteurs d’activité et des programmes pilotes avec des adopteurs précurseurs.

La Phase 3 (2027 et au-delà) projette OSI comme un standard de facto de l’industrie, avec une possible reconnaissance internationale et une place de marché de modèles sémantiques partagés.


Absences notables

Microsoft demeure remarquablement absent. Compte tenu de la position dominante de Power BI sur le marché — leader du Magic Quadrant de Gartner — cette non-participation crée un manque significatif.

SAP, IBM et Oracle, tous dotés d’une expertise historique en matière de couche sémantique dans leurs plateformes d’intelligence d’affaires, sont également absents.

Du côté des acteurs majeurs de l’intelligence artificielle, seul Mistral AI participe. OpenAI, Anthropic et Google Gemini ne sont pas impliqués.


De la spécification à la pratique : tester OSI dans mon environnement moderne de données

Lire une spécification est une chose. L’expérimenter concrètement en est une autre.

Dans ce projet libre fondé sur une architecture moderne de données (Trino, dbt, Cube.js, Metabase — orchestrés via Docker Compose), j’avais déjà défini des indicateurs dans Cube.js : calculs de chiffre d’affaires, nombre de commandes, segmentations par dimensions.

Ajouter MetricFlow signifiait redéfinir ces mêmes concepts métier une seconde fois, dans une syntaxe différente. Or, OSI promet précisément d’éliminer ce type de duplication.

L’intégration de dbt MetricFlow a nécessité certains ajustements techniques. Une table chronologique continue est obligatoire : MetricFlow a besoin d’une table de dates complète pour ancrer les calculs temporels.

Les dimensions préfixées par entité suivent une convention de nommage distincte (par exemple order_id__customer_name plutôt que simplement customer_name).

La syntaxe YAML est plus détaillée que les définitions en JavaScript de Cube.js, mais elle reste déclarative et versionnable.


 

Voici ce que j’ai défini dans MetricFlow pour mon modèle sémantique des commandes :



semantic_models:
  - name: orders
    defaults:
      agg_time_dimension: order_date
    model: ref('fct_orders')
    entities:
      - name: order_id
        type: primary
    measures:
      - name: order_total
        agg: sum
        expr: revenue
      - name: order_count
        agg: count
        expr: order_id
      - name: total_revenue
        description: "Sum of order amounts"
        agg: sum
        expr: revenue
        agg_time_dimension: order_date
    dimensions:
      - name: order_date
        type: time
        expr: order_date
        type_params:
          time_granularity: day

 

And validated it against the same metrics served through Cube.js. Total revenue: $12,629.50 in both tools.

SBI Group - Query Metrics

SBI Group - Cube.js playground results are identical

Figure 3: Cube.js playground results are identical

 

 

Les définitions sémantiques sont cohérentes. Les calculs sont corrects. L’Interopérabilité sémantique ouverte (OSI) permettrait, en théorie, de définir ces éléments une seule fois et de laisser plusieurs outils exploiter le même modèle. Mais c’est précisément à ce stade que mon test s’est arrêté — et c’est normal, ce n’est pas une critique.

La version 1.0 de la spécification a été publiée le 27 janvier 2026. L’adoption élargie et l’intégration native dans les plateformes sont prévues pour le deuxième au quatrième trimestre 2026. Aucun éditeur n’a encore livré d’outil d’importation, tout simplement parce que la spécification vient d’être publiée. Les fondations sont posées ; les outils d’interopérabilité viendront ensuite.


La voie vers le succès : là où OSI doit évoluer

Le problème des 80/20

Les indicateurs simples de mon environnement de démonstration — sommes, comptes, moyennes ventilées par période et catégorie — s’expriment naturellement en YAML. Ils représentent probablement 80 % des besoins analytiques courants.

Mais les 20 % restants correspondent aux cas complexes des grandes organisations — et c’est là qu’OSI doit encore progresser.

Prenons l’exemple du taux de couverture des stocks — un indicateur que j’ai mis en œuvre pour une grande entreprise afin de répondre à une question en apparence simple : combien de mois de demande prévisionnelle le stock actuel peut-il couvrir ?

Le calcul nécessitait de croiser trois domaines distincts :

  • les stocks issus de la chaîne d’approvisionnement,
  • les prévisions de ventes issues de la consolidation financière,
  • les attributs produits provenant d’un référentiel central.

Il utilisait des fonctions de fenêtre avec décalages variables sur un horizon de 24 mois, calculait des cumuls prévisionnels période par période, puis comparait le stock à ces seuils à l’aide d’une logique conditionnelle complexe. Certaines dimensions s’appliquaient uniquement aux stocks (et non aux prévisions), ce qui nécessitait un contrôle précis de la granularité par mesure. Des attributs classaient les centres de distribution (« Stock central » versus « Stock local »), des filtres de sécurité limitaient la visibilité par zone géographique, et l’absence de périodes de prévision pouvait entraîner des distorsions silencieuses.

Surtout, cet indicateur devait fonctionner de manière interactive dans les tableaux de bord : filtres à la demande, explorations détaillées, découpages temporels dynamiques.

La version finale reposait sur des conditions en cascade sur l’horizon complet, avec un mécanisme de repli fondé sur une moyenne lorsque le stock dépassait l’ensemble de la période prévisionnelle. Exprimer cela de manière complète et portable dans la version actuelle d’OSI fondée sur YAML reste complexe.

Il ne s’agit pas d’un cas artificiel — c’est la réalité quotidienne de l’intelligence d’affaires en entreprise : fonctions de fenêtre, agrégations conditionnelles, calculs transverses entre domaines avec des sémantiques dimensionnelles variables, logique temporelle dynamique.

La spécification OSI pose des bases solides, mais les discussions communautaires (notamment les contributions n°29 et n°19 sur GitHub) mettent déjà en lumière plusieurs limites : absence de mesures au niveau des ensembles de données, absence de hiérarchies de dimensions, expressions d’indicateurs sous forme de chaînes limitant la portabilité entre plateformes, absence de distinction entre indicateurs additifs et non additifs, et traçabilité limitée pour les calculs dérivés.


Le défi de la couche sémantique dans le marché actuel

OSI doit également composer avec une réalité structurelle du marché.

Microsoft Power BI, positionné comme leader dans le Magic Quadrant 2025 de Gartner pour les plateformes d’analytique et d’intelligence d’affaires, dispose d’une couche sémantique. Toutefois, la logique métier — mesures DAX, calculs, relations — est contenue dans des modèles individuels et ne peut pas être partagée de manière modulaire entre eux.

Dans les déploiements à grande échelle, le modèle fréquent consistant à créer un ensemble de données par rapport engendre des problèmes de contrôle de version, des calculs dupliqués, des indicateurs incohérents et une perte de confiance dans les données.

Au-delà de ces enjeux internes, il existe une réalité interplateforme. Comme l’ont documenté plusieurs analyses indépendantes, la logique métier de Power BI repose sur DAX, un langage propriétaire spécifique à l’écosystème Microsoft. Gartner souligne également que la solution reste limitée à l’environnement Azure. En pratique, Power BI peut fonctionner comme couche sémantique interne, mais pas comme couche universelle pour d’autres outils.

Ce constat dépasse Power BI : la plupart des plateformes d’intelligence d’affaires ont développé leurs capacités sémantiques comme des fonctionnalités intégrées, non comme une infrastructure interopérable.

Dans les grandes organisations utilisant plusieurs plateformes, cela entraîne duplication, incohérence et dette technique. Des outils indépendants de couche sémantique comme AtScale, Cube ou Mosaic (Strategy) proposent des solutions pour les organisations cherchant une couche gouvernée au-dessus ou à côté de plateformes non portables.

Le succès d’OSI dépendra en partie de sa capacité à relier ces environnements hétérogènes — des organisations exploitant trois ou quatre outils différents, chacun avec ses propres capacités sémantiques.


Apprendre du passé

Toute initiative de normalisation rappelle la même leçon : la syntaxe est la partie facile ; l’adoption est la vraie difficulté.

PMML a réussi dans un créneau précis sans atteindre une adoption universelle. Le Web sémantique a produit des technologies fondamentales, comme les graphes de connaissances, mais n’a pas émergé comme standard universel.

OSI présente des atouts que ses prédécesseurs n’avaient pas :

  • un facteur de contrainte puissant (l’intelligence artificielle exige une cohérence sémantique),
  • le soutien d’acteurs majeurs ayant des intérêts commerciaux alignés,
  • une implémentation existante (MetricFlow), et non une simple spécification.

Mais les risques demeurent :

  • un standard minimaliste couvrant uniquement les cas simples,
  • des éditeurs affichant un soutien symbolique sans réel investissement dans l’interopérabilité.

L’intelligence artificielle : variable décisive

Un contre-argument intéressant consiste à dire que l’intelligence artificielle pourrait réduire l’importance des standards sémantiques explicites. Si les grands modèles de langage peuvent interpréter le contexte à la volée, faut-il encore formaliser les définitions en YAML ?

Peut-être que l’avenir reposera sur une orchestration hybride : un agent enrichi par les connaissances organisationnelles (via des mécanismes d’enrichissement contextuel) travaillant aux côtés d’un agent compatible OSI pour assurer l’interopérabilité structurelle.

Mais cela reste prospectif. Aujourd’hui, sans ancrage sémantique, l’intelligence artificielle produit des interprétations erronées. Le standard demeure essentiel précisément parce que l’intelligence artificielle n’est pas encore capable d’inférer le contexte métier de manière fiable.


Et maintenant ?

OSI constitue la tentative la plus crédible d’interopérabilité sémantique que l’industrie des données ait produite.

L’initiative de Snowflake et la rapidité d’adhésion de l’écosystème témoignent d’un réel appétit pour résoudre la fragmentation sémantique. Le moment est propice, la coalition est large et l’intelligence artificielle crée un besoin pressant de cohérence.

La version 1.0 marque le passage de l’annonce à la substance. L’adoption prévue en 2026 constituera le véritable test. À l’horizon 2027, l’objectif affiché est celui d’un standard de facto — ambitieux, mais plausible au regard de la dynamique actuelle.

Mon positionnement est prudemment optimiste.

PMML a apporté une interopérabilité partielle. Le Web sémantique a donné naissance aux graphes de connaissances. Dans les deux cas, l’impact a été réel, même s’il a pris une forme différente de celle initialement promise.

OSI suivra probablement une trajectoire comparable :

  • une valeur considérable pour les 80 % d’indicateurs simples,
  • des solutions spécifiques aux plateformes pour les 20 % les plus complexes,
  • une interopérabilité croissante à mesure que les outils évolueront.

La question clé reste la persévérance de l’industrie après l’enthousiasme initial — et la capacité des outils de la Phase 2 à concrétiser la promesse de la Phase 1.


Conclusion pratique

Pour les praticiens, le message est clair : se former dès maintenant à dbt MetricFlow est un investissement pertinent.

Que le standard atteigne ou non une adoption universelle, la maîtrise d’une couche sémantique devient une compétence essentielle pour toute plateforme moderne de données.

OSI pose les bases d’une interopérabilité sémantique : définir les indicateurs une fois, les réutiliser partout — dans les outils d’intelligence d’affaires comme dans les agents d’intelligence artificielle.

Le défi des prochains mois portera sur les outils et l’adoption. En attendant, développer des compétences en couche sémantique — notamment avec MetricFlow — constitue une démarche concrète pour améliorer la cohérence des indicateurs et la fiabilité de l’intelligence artificielle.

 

 

Sources:

 


Footnotes

¹ : Originally Semantic Web; now commonly blockchain/decentralized ownership Web3.

Partagez cet article

Nos Actus

Événements Données
25 février 2026
Expérience et Interface Utilisateur en Intelligence d’Affaires : Transformer vos Tableaux de Bord en Décisions

Chaque jour, les organisations collectent, traitent et partagent plus de données que jamais. Les tableaux de bord d’intelligence d’affaires sont...

Données
25 février 2026
Comment déployer votre couche sémantique dans une stratégie de catalogue de données entièrement intégrée et opérationnelle

SBI a conçu « The Watcher », un accélérateur stratégique visant à renforcer l’usage, la fiabilité et la valeur opérationnelle des catalogues de...

Événements Finance et Performance Intelligence Artificielle
25 février 2026
Les Agents IA pour la Finance : l'analyse financière en temps réel

Et si vos données financières pouvaient enfin vous parler ? Finies les heures perdues à attendre un rapport, à naviguer dans des tableaux de bord...