Ministral 3 8B · Programme de Français FWB · Serveur IA Light · Série 2

Test RAG comparatif · Ollama + AnythingLLM · PDF brut (N0) · TXT converti (N1) · Markdown (N2) · Embedding bge-m3

Fiche du test

Modèle	Ministral 3 8B
Éditeur	Mistral AI
Quantisation	Q4_K_M · ~5 Go
Environnement	Ollama + AnythingLLM
Embedding	bge-m3 (BAAI) · GPU
Corpus	Programme de Français FWB (S1-S2-S3)
Niveaux	N0 (PDF brut) · N1 (TXT) · N2 (Markdown)

Machine	Serveur IA Light
CPU	Ryzen 5 3600
RAM	16 Go
GPU	RTX 3050 · 8 Go VRAM
OS	Linux Mint 22

Scores moyens	N0	N1	N2
Moyenne	2,83 / 5	3,50 / 5	3,33 / 5
Vitesse	~13,5 – 16 tok/s (stable)

Résultats par question

Q	Type	N0	N1	N2
Q1	Compétences de cycle	3/5	4/5	2/5
Q2	Objectif du programme	4/5	3/5	5/5
Q3	Approche en lecture	4/5	4/5	4/5
Q4	Piège interdisciplinaire	1/5	1/5	2/5
Q5	Piège anti-hallucination	1/5	5/5	3/5
Q6	Différenciation pédagogique	4/5	4/5	4/5
Moyenne		2,83	3,50	3,33

Point critique · Q4 · échec persistant sur les trois niveaux

La question sur les liens entre français et disciplines d'éveil (FHGES, ECA, EPC) génère une confusion systématique : le modèle remonte la section “Éveil aux langues” du primaire au lieu des croisements interdisciplinaires explicitement balisés dans le référentiel. En N2, une amorce apparaît avec la mention du PECA et des langues anciennes, ce qui justifie un score de 2/5, mais les liens disciplinaires réels restent absents. Ce comportement est probablement lié à la structure du chunk retrieval sur un corpus de 400 pages où les sections “Éveil aux langues” du primaire dominent quantitativement les résultats de recherche sémantique.

Point critique · Q5 · erreur grave en N0 · correction en N1 · régression partielle en N2

En N0, le modèle produit une réponse hallucinée (34 périodes par semaine), vraisemblablement due au bruit de mise en page du PDF brut qui confond les données tabulaires. En N1, la correction est totale : le tableau des 6/4/4 périodes est restitué avec précision et une nuance pertinente sur la distinction période/heure. En N2, la réponse est partiellement correcte (4 périodes en S3 uniquement) mais le tableau complet disparaît. Cette instabilité sur une question factuelle simple est le signal le plus préoccupant du test.

Comportement notable · Q3 et Q6 · stabilité sur les trois niveaux

Les questions portant sur l'approche pédagogique en lecture et sur la différenciation pour les élèves en difficulté obtiennent un score constant de 4/5 quel que soit le niveau de préparation du corpus. Le modèle structure correctement ses réponses autour des postures de lecture, des stratégies de remédiation et des dispositifs de différenciation (coenseignement, tutorat, groupes de besoins). Cette stabilité indique une bonne capacité de retrieval sur les sections méthodologiques du programme, moins sensibles au bruit de mise en page que les sections tabulaires.

Comportement notable · Q2 · la citation clé réapparaît en N2

La formulation centrale du programme “Faire du français, c'est apprendre à lire le monde, à dire le réel et à penser avec les autres” est correctement restituée en N0 et en N2, mais disparaît en N1 au profit d'une reformulation générique. Ce phénomène d'instabilité sur une citation courte mais sémantiquement forte illustre la sensibilité du retrieval bge-m3 à la structure du document source.

Enseignements

bge-m3 : embedding plus puissant, mais retrieval plus sensible à la structure

Par rapport à la série 1 (all-MiniLM), l'embedding bge-m3 améliore la qualité de retrieval sur les sections rédigées du corpus mais se révèle plus instable sur les contenus tabulaires et les sections à forte densité de mise en page. La préparation du corpus reste déterminante : le gain de N1 sur N0 (+0,67 point) confirme que la conversion TXT élimine le bruit le plus pénalisant pour ce type d'embedding.

N1 meilleur niveau global : conversion TXT prioritaire sur ce corpus

Avec 3,50/5, N1 obtient le meilleur score moyen du test, devant N2 (3,33/5) et N0 (2,83/5). Ce résultat contre-intuitif s'explique par la nature du corpus : un programme pédagogique de 400 pages avec de nombreux tableaux et listes imbriquées se convertit mieux en TXT qu'en Markdown, où la conversion introduit une complexité structurelle supplémentaire que le retrieval gère moins bien sur Q1 et Q5.

Corpus dense et hétérogène : la préparation N0 reste risquée

Avec 2,83/5 et une erreur factuelle grave en Q5, le niveau N0 n'est pas recommandé pour ce corpus. Un programme officiel de 400 pages en PDF, avec colonnes, tableaux de périodes et acronymes, génère suffisamment de bruit pour induire des hallucinations sur des questions pourtant simples. La conversion TXT (N1) est le minimum recommandé avant tout déploiement.

Comparaison série 1 / série 2 sur le même corpus

Le passage à bge-m3 ne produit pas de gain univoque sur ce corpus par rapport à la série 1 (all-MiniLM). Les scores N2 régressent sensiblement (3,33 vs 4,67 en série 1) tandis que N1 progresse modérément. L'embedding multilingue bge-m3 excelle sur les sections de texte courant mais introduit une instabilité sur les structures tabulaires denses qui caractérisent ce programme. Ce constat nuance l'idée qu'un embedding plus puissant améliore systématiquement les résultats RAG sur tous les types de corpus.

Verdicts

N0 · ★★☆☆☆ · Non adapté · hallucination factuelle confirmée · usage non recommandé dans cette configuration

2,83/5 en moyenne. Erreur grave sur Q5 (34 périodes hallucinées) et échec total sur Q4. Le corpus PDF brut génère suffisamment de bruit pour compromettre la fiabilité sur les questions factuelles. Usage sans préparation déconseillé sur ce type de document.

N1 · ★★★☆☆ · Limité · meilleur niveau du test · usage avec supervision uniquement

3,50/5 en moyenne. La conversion TXT corrige l'hallucination de N0 et améliore significativement Q1 et Q5. Reste en échec sur Q4. Utilisable avec supervision active, notamment sur les questions à ancrage disciplinaire croisé.

N2 · ★★★☆☆ · Limité · instable sur les questions factuelles · usage avec supervision uniquement

3,33/5 en moyenne. La conversion Markdown apporte un gain sur Q2 (citation exacte restituée) mais dégrade Q1 et Q5 par rapport à N1. Le profil de réponses est inégal. Supervision recommandée, en particulier sur les données chiffrées et les croisements disciplinaires.

Ressources

Corpus et questionnaires utilisés · page Téléchargements

Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org