Retour aux ressources
RAGRÉALISATION

Indexer SharePoint et vos emails avec un RAG souverain

2025-04-22
Evolia Stratégie
7 min
Architecture RAG souverain SharePoint

SharePoint, Outlook, Teams, OneDrive : la grande majorité des entreprises françaises stocke l'essentiel de leur savoir opérationnel dans l'écosystème Microsoft 365. Comment indexer ce patrimoine documentaire dans un RAG souverain, sans envoyer les données dans le cloud OpenAI américain ? Voici l'architecture et les connecteurs pour y parvenir.

Architecture d'un RAG souverain connecté à Microsoft 365

Étape 1

Authentification et autorisation

L'application RAG s'authentifie via Azure Active Directory avec des permissions minimales et limitées au périmètre nécessaire. Utilisez des permissions d'application avec un compte de service dédié.

Étape 2

Extraction des documents SharePoint

L'API Microsoft Graph liste et télécharge les fichiers SharePoint par site, bibliothèque et dossier. Extrayez les formats prioritaires : PDF, Word, Excel, PowerPoint. Stockez les métadonnées essentielles : chemin, date, auteur, permissions.

Étape 3

Indexation des emails

Via l'API Graph, indexez les boîtes de réception des comptes de service sur les 12 à 24 derniers mois. Filtrez les emails marketing et notifications automatiques, indexez le corps et les métadonnées (expéditeur, date, objet).

Étape 4

Respect des droits d'accès

Votre RAG ne doit pas permettre à un utilisateur d'accéder à des documents qu'il n'a pas le droit de voir. Recommandé : créer des index séparés par niveau de confidentialité et router les requêtes vers l'index approprié.

Souveraineté : garder les données dans votre périmètre

  • Extraction via API Graph : les données restent dans votre tenant Microsoft 365 européen.
  • Traitement des documents (extraction texte, chunking) : sur vos serveurs internes.
  • Génération des embeddings : via un modèle déployé localement (Sentence-BERT, Mistral embeddings).
  • Stockage des vecteurs : dans votre instance Qdrant ou pgvector on-premise.
  • Génération des réponses : via Mistral déployé localement via vLLM ou Ollama.

Maintenance de l'index : rester à jour

  • Webhook Microsoft Graph pour être notifié en temps réel des modifications de fichiers.
  • Job de synchronisation quotidien pour les documents modifiés depuis la dernière synchronisation.
  • Stratégie de dépréciation pour les vieilles versions de documents remplacés.

Résultats typiques : réduction de 70 % du temps de recherche documentaire. L'onboarding des nouveaux collaborateurs, qui nécessitait 3 à 6 semaines pour trouver les bons documents et contacts, se réduit à quelques jours avec un RAG bien indexé.

La connexion de SharePoint et des emails à un RAG souverain est un projet de 8 à 14 semaines pour une PME de 100 à 500 personnes. C'est l'investissement IA qui génère le plus d'impact immédiat sur la productivité des équipes et la capitalisation du savoir organisationnel.