Les techniques traditionnelles de document grounding – injection de contexte, recherche BM25, chunking et retrieval par embeddings – ont été conçues pour le texte non structuré et échouent lorsqu'appliquées à de grands jeux de données structurées.

Chez Yellowsys, nous avons développé une approche novatrice pour YellowMind : le Schema Grounding, une architecture agentive où des AI spécialisés collaborent pour traiter les requêtes en langage naturel sur des données analytiques à l'échelle de l'entreprise.

💡 Insight Clé

Plutôt que d'essayer de faire entrer les données brutes dans le contexte du LLM, nous fournissons les informations de schéma et les profils statistiques aux modèles, qui génèrent ensuite les requêtes SQL ou le code Python approprié.

Le Problème : Context Window vs Big Data

Imaginez vouloir interroger une base de données de 10 millions de lignes de ventes avec une simple question en langage naturel : "Quels sont nos top 5 produits par région ce trimestre ?"

L'approche naïve consisterait à charger les données dans le contexte du LLM. Problème : même les modèles les plus avancés ne peuvent gérer que quelques millions de tokens. 10 millions de lignes = des milliards de tokens. Impossible.

La Solution : Architecture Agentive

Notre approche repose sur plusieurs composants innovants qui travaillent ensemble :

1. File Registry avec Ingestion à la Demande

2. Session Workspace

3. Adaptive Engine Selection

4. Schema Grounding

~7s Première requête
<2s Requêtes suivantes
-75% Latence vs approche naïve

Comparaison avec les Approches Existantes

vs. Outils BI Traditionnels

Les outils BI demandent de connaître le schéma, d'écrire des requêtes ou de naviguer dans des interfaces complexes. YellowMind permet de poser des questions naturellement.

vs. Systèmes Text-to-SQL

Les systèmes Text-to-SQL classiques sont limités à des requêtes simples. Notre architecture agentive gère les cas complexes avec raisonnement multi-étapes et validation.

vs. Code Interpreters Génériques

Les interpreters génériques manquent de contexte métier. Notre système connaît vos données, vos conventions et optimise automatiquement.

Exemple Concret

Question utilisateur :

"Montre-moi l'évolution des ventes par catégorie depuis janvier, avec une prévision pour le prochain trimestre"

Ce qui se passe en coulisses :

  1. L'agent analyse l'intention et identifie les tables nécessaires
  2. Le schéma est chargé (pas les données)
  3. SQL généré pour l'historique, Python pour la prévision
  4. Exécution parallèle sur DuckDB + Code Interpreter
  5. Résultats agrégés et visualisés
  6. Réponse naturelle avec insights automatiques

Sécurité et Gouvernance

Conclusion

Le Schema Grounding révolutionne l'analytique en entreprise. Plus besoin de choisir entre la puissance du SQL et la simplicité du langage naturel. Avec YellowMind, vos équipes peuvent interroger des millions de lignes de données comme si elles parlaient à un expert métier.

Cette architecture est au cœur de notre plateforme YellowMind, déployée chez plusieurs de nos clients pour démocratiser l'accès aux données.