Ministral 3 8B · Programme de Français FWB · Serveur IA Light

Test RAG comparatif · Ollama + AnythingLLM · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test

Modèle	Ministral 3 8B
Éditeur	Mistral AI
Quantisation	Q4_K_M · ~5 Go
Environnement	Ollama + AnythingLLM
Embedding	AnythingLLM natif (all-MiniLM · CPU)
Corpus	Programme de Français FWB
Niveaux	N0 (PDF brut) · N1 (TXT) · N2 (Markdown)

Machine	Serveur IA Light
CPU	Ryzen 5 3600
RAM	16 Go
GPU	RTX 3050 · 8 Go VRAM
OS	Linux Mint 22

Scores moyens	N0	N1	N2
Moyenne	4,17 / 5	4,17 / 5	4,67 / 5
Vitesse	~16,2 – 17,6 tok/s (stable)

Résultats par question

Q	Type	N0	N1	N2
Q1	Compétences de cycle	3/5	3/5	3/5
Q2	Objectif du programme	4/5	4/5	5/5
Q3	Approche en lecture	4/5	4/5	5/5
Q4	Piège culturel	5/5	5/5	5/5
Q5	Piège anti-hallucination	5/5	5/5	5/5
Q6	Différenciation pédagogique	4/5	4/5	5/5
Moyenne		4,17	4,17	4,67

Comportement notable · Q4 et Q5 · 5/5 sur les trois niveaux

Le modèle ne fabrique aucune information sur les deux questions pièges, quel que soit le niveau de préparation du corpus. En N1, il va même plus loin en distinguant la notion de période et d'heure dans le contexte FWB. C'est le comportement anti-hallucination le plus solide observé parmi les modèles testés sur ce corpus.

Comportement notable · Q2 et Q3 · progression N0 vers N2

Sur les deux questions les plus discriminantes du protocole, la qualité des réponses progresse clairement avec la préparation du corpus. En N2, le modèle cite les sections du programme avec précision et structure ses réponses autour des grands principes pédagogiques du référentiel. La conversion Markdown du corpus produit un gain mesurable et reproductible.

Point d'attention · temps de génération sur les longues réponses

Sur Q6, les temps de réponse atteignent 56 à 57 secondes sur les trois niveaux. Ce plafond s'explique par la densité des réponses générées et la limite de bande passante de la RTX 3050 à 8 Go VRAM. Le débit reste stable mais la génération de contenus longs est perceptiblement plus lente que sur les configurations avec plus de VRAM.

Enseignements

8 Go VRAM : suffisant pour un modèle 8B en usage RAG

Le modèle tient entièrement en mémoire GPU sur la RTX 3050. La vitesse se maintient entre 16 et 18 tok/s sur toute la session sans dégradation progressive. Configuration viable pour un déploiement RAG sur corpus dense en contexte associatif ou scolaire.

Longues réponses : plafond à surveiller

Les questions nécessitant une synthèse étendue atteignent 56 secondes de génération. Ce délai reste acceptable en usage monoposte mais pourrait devenir problématique en accès partagé multi-utilisateurs. Un modèle plus petit ou une limite de tokens de sortie peut corriger ce point.

N0 et N1 à parité : base solide dès le PDF brut

Contrairement aux modèles 3B testés précédemment, Ministral 3 8B produit des résultats équivalents en N0 et N1 sur ce corpus. La préparation TXT n'apporte pas de régression. Le gain de N2 est net et régulier sur toutes les questions.

Meilleurs scores 8B de la série sur ce corpus

Avec 4,17 en N0/N1 et 4,67 en N2, ce test établit les meilleures moyennes observées sur un modèle 8B dans le cadre du test sur le programme de Français FWB. La taille du modèle combinée à la VRAM dédiée produit un rapport qualité/vitesse cohérent pour un usage professionnel accompagné.

Verdicts

N0 · ★★★★☆ · Pertinent · base documentaire solide dès le PDF brut

4,17/5 en moyenne. Le modèle s'appuie correctement sur le corpus sans fabrication et produit des réponses structurées dès le niveau brut. Supervision recommandée sur les questions à fort ancrage culturel local.

N1 · ★★★★☆ · Pertinent · parité avec N0 · pas de régression observée

4,17/5 en moyenne, identique au N0. La conversion TXT ne dégrade pas les résultats sur ce corpus, contrairement à ce qui a été observé sur d'autres modèles de la série. Usage avec supervision recommandé.

N2 · ★★★★★ · Très pertinent · usage professionnel accompagné envisageable

4,67/5 avec quatre 5/5 et aucune hallucination sur 18 réponses. Meilleur score de la série. Un usage professionnel accompagné est envisageable sur ce corpus en N2. Supervision maintenue sur les questions sans réponse dans le document.

Ressources

Corpus et questionnaires utilisés · page Téléchargements

Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org