0. Fondations & Philosophie

ECHO (Espace Cognitif Heuristique Opérationnel) est un cadre logiciel d'intelligence artificielle auto-hébergée. Contrairement à un simple wrapper d'API, ECHO constitue une couche d'abstraction souveraine qui prend en charge sa propre mémoire, son propre état et sa propre interface utilisateur par-dessus Open WebUI. Le modèle de langage - Gemini - y joue le rôle de moteur d'inférence, tandis qu'ECHO assure la cohérence, la persistance et la sécurité de l'ensemble.

💡 L'analogie du véhicule

Si Gemini est le moteur, ECHO est le véhicule complet : châssis (infrastructure Docker), capteurs (filtres d'interception), mémoire à long terme (Qdrant), boîte noire inaltérable (SQLite Ombres) et habitacle de pilotage (HUD). L'utilisateur conduit ; ECHO s'assure que le moteur dispose toujours de l'information complète pour avancer.

Origine et histoire

Le nom ECHO

L'acronyme décompose la philosophie du projet en quatre dimensions :

Espace : un domaine opérationnel délimité, isolé du cloud public.
Cognitif : un lieu où le modèle peut raisonner avec ses propres outils et sa propre mémoire.
Heuristique : la capacité du système à s'adapter, à apprendre de ses sessions passées et à découvrir par lui-même.
Opérationnel : l'aptitude concrète à agir - naviguer sur le web, exécuter du code, indexer des fichiers.

Évolution V4 → V5

La V4 (Legacy), conservée dans le répertoire _v4-legacy-concept/, est un prompt de personnalisation avancé pour Gemini. Elle établit les fondements conceptuels d'ECHO - la Mémoire, la Suture, la Souveraineté - mais s'exécute entièrement dans le contexte de la conversation, sans infrastructure dédiée.

La V5 (actuelle) matérialise ces concepts en une infrastructure conteneurisée. Elle introduit l'Ombre Riche (persistance SQLite bit-perfect), le double RAG vectoriel (Qdrant), les filtres Python d'interception, et le Pipe comme orchestrateur central.

Les trois piliers fondamentaux

Pilier	Engagement technique	Mise en œuvre
Auto-Hébergement	Isolation locale. Pas de télémétrie. L'Espace Personnel ne quitte jamais l'infrastructure.	Docker sur Hyper-V, volumes locaux, BunkerWeb WAF, clés API stockées dans `identity.db`.
Véracité	Recherche contre les hallucinations et la capacité de mobiliser des connaissances externes.	Un prompt système orienté sur la non complaisance dans une hiérarchie de principes très stricte et des outils de recherche web avancée.
Autonomie	Arsenal d'outils sensoriels et exécutifs pilotés par le Kernel sans intervention humaine.	Browser Agent, Python Worker, SearxNG, Qdrant RAG, STT Worker, TTS Worker.

Phénomènes architecturaux clés

La Vallée de la Mort Contextuelle

Les modèles de langage à grande fenêtre contextuelle souffrent d'un phénomène documenté : au-delà d'environ 30 % de remplissage de la fenêtre, le mécanisme d'attention accorde un poids décroissant aux tours les plus anciens. Les informations restent techniquement présentes dans le contexte, mais leur influence sur la génération devient négligeable. Au-delà de 50 %, la dégradation est critique.

ECHO y répond par une architecture mémorielle à deux niveaux :

RAG Organique (echo_meta_artifacts) : mémoire long terme permanente, survit aux sessions. Outils : update_meta_artifact / search_meta_artifacts.
Mémoire Vectorisée de Session (echo_session_rag) : mémoire de travail de la session courante, purgée automatiquement en fin de session. Outils : save_session_context / search_sessions_context (consultable également depuis d'autres sessions).

Corrélation contextuelle et routage cognitif

Au-delà de 50 % de remplissage de la fenêtre contextuelle, le Pipe considère qu'une escalade vers MODEL_PRO est justifiée, quelle que soit la complexité apparente de la tâche. En pratique, ce basculement s'effectue via l'outil new_cognitive_level - c'est le modèle actif qui déclare lui-même son insuffisance et déclenche le transfert. Ce n'est pas un switch automatique du Pipe. La Mémoire Vectorisée de Session (save_session_context) est la réponse préventive : décharger l'information hors du contexte avant saturation.

L'Inférence Distante (Edge Computing)

La vectorisation (Embedding) est une opération très gourmande en ressources CPU. L'infrastructure ECHO intègre un paradigme d'Edge Computing : le déchargement de l'inférence vectorielle directement vers le navigateur du client via WebGPU et WASM.

Grâce à ce pont (injecté dynamiquement par le Filtre 3), l'Embedding Worker (serveur) délègue le calcul des vecteurs BAAI/bge-m3 au client. Ce n'est qu'en cas de non-réponse du client (timeout asynchrone de 15s) que le serveur reprend la charge en Fallback CPU local. Cela allège drastiquement la consommation énergétique du serveur d'auto-hébergement et accélère la création de la Mémoire Vectorisée de Session.

← Introduction High-Level Design (HLD) →