Les techniques traditionnelles de document grounding – injection de contexte, recherche BM25, chunking et retrieval par embeddings – ont été conçues pour le texte non structuré et échouent lorsqu'appliquées à de grands jeux de données structurées.
Chez Yellowsys, nous avons développé une approche novatrice pour YellowMind : le Schema Grounding, une architecture agentive où des AI spécialisés collaborent pour traiter les requêtes en langage naturel sur des données analytiques à l'échelle de l'entreprise.
💡 Insight Clé
Plutôt que d'essayer de faire entrer les données brutes dans le contexte du LLM, nous fournissons les informations de schéma et les profils statistiques aux modèles, qui génèrent ensuite les requêtes SQL ou le code Python approprié.
Le Problème : Context Window vs Big Data
Imaginez vouloir interroger une base de données de 10 millions de lignes de ventes avec une simple question en langage naturel : "Quels sont nos top 5 produits par région ce trimestre ?"
L'approche naïve consisterait à charger les données dans le contexte du LLM. Problème : même les modèles les plus avancés ne peuvent gérer que quelques millions de tokens. 10 millions de lignes = des milliards de tokens. Impossible.
La Solution : Architecture Agentive
Notre approche repose sur plusieurs composants innovants qui travaillent ensemble :
1. File Registry avec Ingestion à la Demande
- Catalogue des milliers de fichiers en quelques secondes
- Diffère le traitement réel des données jusqu'au moment de la requête
- Métadonnées légères : nom, taille, colonnes, types
2. Session Workspace
- Cache des datasets activement utilisés
- Exécution "warm path" pour les requêtes suivantes
- Isolation par session utilisateur
3. Adaptive Engine Selection
- Tier A : Requêtes simples → DuckDB direct
- Tier B : Requêtes complexes → SQL optimisé
- Tier C : ML/Algorithmique → Code Interpreter Python
4. Schema Grounding
- Le LLM reçoit le schéma de la table, pas les données
- Génère la requête SQL appropriée
- Le moteur exécute sur les données réelles
- Résultats interprétés et présentés naturellement
Comparaison avec les Approches Existantes
vs. Outils BI Traditionnels
Les outils BI demandent de connaître le schéma, d'écrire des requêtes ou de naviguer dans des interfaces complexes. YellowMind permet de poser des questions naturellement.
vs. Systèmes Text-to-SQL
Les systèmes Text-to-SQL classiques sont limités à des requêtes simples. Notre architecture agentive gère les cas complexes avec raisonnement multi-étapes et validation.
vs. Code Interpreters Génériques
Les interpreters génériques manquent de contexte métier. Notre système connaît vos données, vos conventions et optimise automatiquement.
Exemple Concret
Question utilisateur :
"Montre-moi l'évolution des ventes par catégorie depuis janvier, avec une prévision pour le prochain trimestre"
Ce qui se passe en coulisses :
- L'agent analyse l'intention et identifie les tables nécessaires
- Le schéma est chargé (pas les données)
- SQL généré pour l'historique, Python pour la prévision
- Exécution parallèle sur DuckDB + Code Interpreter
- Résultats agrégés et visualisés
- Réponse naturelle avec insights automatiques
Sécurité et Gouvernance
- Isolation stricte des données par tenant
- Aucune donnée envoyée aux LLMs – seulement métadonnées
- Audit trail complet des requêtes
- Contrôle d'accès au niveau ligne/colonne
Conclusion
Le Schema Grounding révolutionne l'analytique en entreprise. Plus besoin de choisir entre la puissance du SQL et la simplicité du langage naturel. Avec YellowMind, vos équipes peuvent interroger des millions de lignes de données comme si elles parlaient à un expert métier.
Cette architecture est au cœur de notre plateforme YellowMind, déployée chez plusieurs de nos clients pour démocratiser l'accès aux données.