Data Analytics

Document Grounding : Interroger vos Données Structurées en Langage Naturel

📅 Mars 2026 ⏱️ 12 min de lecture 👤 Yellowsys Research

Les techniques traditionnelles de document grounding – injection de contexte, recherche BM25, chunking et retrieval par embeddings – ont été conçues pour le texte non structuré et échouent lorsqu'appliquées à de grands jeux de données structurées.

Chez Yellowsys, nous avons développé une approche novatrice pour YellowMind : le Schema Grounding, une architecture agentive où des AI spécialisés collaborent pour traiter les requêtes en langage naturel sur des données analytiques à l'échelle de l'entreprise.

💡 Insight Clé

Plutôt que d'essayer de faire entrer les données brutes dans le contexte du LLM, nous fournissons les informations de schéma et les profils statistiques aux modèles, qui génèrent ensuite les requêtes SQL ou le code Python approprié.

Le Problème : Context Window vs Big Data

Imaginez vouloir interroger une base de données de 10 millions de lignes de ventes avec une simple question en langage naturel : "Quels sont nos top 5 produits par région ce trimestre ?"

L'approche naïve consisterait à charger les données dans le contexte du LLM. Problème : même les modèles les plus avancés ne peuvent gérer que quelques millions de tokens. 10 millions de lignes = des milliards de tokens. Impossible.

La Solution : Architecture Agentive

Notre approche repose sur plusieurs composants innovants qui travaillent ensemble :

1. File Registry avec Ingestion à la Demande

Catalogue des milliers de fichiers en quelques secondes
Diffère le traitement réel des données jusqu'au moment de la requête
Métadonnées légères : nom, taille, colonnes, types

2. Session Workspace

Cache des datasets activement utilisés
Exécution "warm path" pour les requêtes suivantes
Isolation par session utilisateur

3. Adaptive Engine Selection

Tier A : Requêtes simples → DuckDB direct
Tier B : Requêtes complexes → SQL optimisé
Tier C : ML/Algorithmique → Code Interpreter Python

4. Schema Grounding

Le LLM reçoit le schéma de la table, pas les données
Génère la requête SQL appropriée
Le moteur exécute sur les données réelles
Résultats interprétés et présentés naturellement

~7s Première requête

<2s Requêtes suivantes

-75% Latence vs approche naïve

Comparaison avec les Approches Existantes

vs. Outils BI Traditionnels

Les outils BI demandent de connaître le schéma, d'écrire des requêtes ou de naviguer dans des interfaces complexes. YellowMind permet de poser des questions naturellement.

vs. Systèmes Text-to-SQL

Les systèmes Text-to-SQL classiques sont limités à des requêtes simples. Notre architecture agentive gère les cas complexes avec raisonnement multi-étapes et validation.

vs. Code Interpreters Génériques

Les interpreters génériques manquent de contexte métier. Notre système connaît vos données, vos conventions et optimise automatiquement.

Exemple Concret

Question utilisateur :

"Montre-moi l'évolution des ventes par catégorie depuis janvier, avec une prévision pour le prochain trimestre"

Ce qui se passe en coulisses :

L'agent analyse l'intention et identifie les tables nécessaires
Le schéma est chargé (pas les données)
SQL généré pour l'historique, Python pour la prévision
Exécution parallèle sur DuckDB + Code Interpreter
Résultats agrégés et visualisés
Réponse naturelle avec insights automatiques

Sécurité et Gouvernance

Isolation stricte des données par tenant
Aucune donnée envoyée aux LLMs – seulement métadonnées
Audit trail complet des requêtes
Contrôle d'accès au niveau ligne/colonne

Conclusion

Le Schema Grounding révolutionne l'analytique en entreprise. Plus besoin de choisir entre la puissance du SQL et la simplicité du langage naturel. Avec YellowMind, vos équipes peuvent interroger des millions de lignes de données comme si elles parlaient à un expert métier.

Cette architecture est au cœur de notre plateforme YellowMind, déployée chez plusieurs de nos clients pour démocratiser l'accès aux données.