Synthèse comparative · Programme de Français FWB · 4 modèles testés

Analyse croisée des résultats RAG sur le programme officiel de Français de la FWB · Ollama + AnythingLLM · Protocole N0 / N1 / N2 · 4 configurations matérielles

Contexte de la série

Quatre modèles ont été soumis au même corpus pédagogique : le programme officiel de Français du secondaire FWB, avec le même protocole de six questions couvrant Compétences de cycle, Approche en lecture, pièges anti-hallucination et différenciation pédagogique. Chaque modèle a été testé sur trois niveaux de préparation documentaire : N0 (PDF brut), N1 (TXT converti) et N2 (Markdown structuré). Les configurations matérielles varient selon les contraintes de chaque modèle.

Modèles testés	4	Ministral 3B · 8B · 14B · phi4-mini 3.8B
Questions par test	6	dont 1 piège anti-hallucination
Niveaux documentaires	3	N0 PDF · N1 TXT · N2 Markdown
Réponses évaluées	72	6 questions × 3 niveaux × 4 modèles

Classement général

Rang	Modèle	Machine	N0	N1	N2
#1	Ministral 3 8B	Serveur IA Light · RTX 3050 8Go	4,17	4,17	4,67
#2	Ministral 3 14B	Serveur IA · RX 9060 XT 16Go	3,67	3,17 (↓)	4,00
#3	Ministral 3 3B	PC Portable · GTX 1650 4Go	3,17	3,50	3,83
#4	phi4-mini 3.8B	PC Portable · GTX 1650 4Go	2,17	2,33	2,50

Comparaison question par question · niveau N2

Le niveau N2 (Markdown) est retenu comme base de comparaison, car il représente les conditions optimales de chaque modèle.

Question	3B	8B	14B	phi4
Q1 · Compétences de cycle	3/5	3/5	3/5	2/5
Q2 · Objectif du programme	5/5	5/5	5/5	4/5
Q3 · Approche en lecture	3/5	5/5	4/5	2/5
Q4 · Piège culturel	4/5	5/5	3/5	1/5
Q5 · Piège anti-hallucination	5/5	5/5	4/5	2/5
Q6 · Différenciation pédagogique	4/5	5/5	5/5	4/5
Moyenne N2	3,83	4,67	4,00	2,50

Signal transversal · Q1 · plafond structurel partagé

Tous les modèles plafonnent à 3/5 sur Q1, qui porte sur des compétences de cycle non explicitées dans le document source. Ce n'est pas un échec RAG : le corpus ne contient simplement pas la réponse attendue. Ce plafond est un signal pour la préparation du corpus — un enrichissement documentaire pourrait le lever.

Signal transversal · Q2 · consensus fort sur les objectifs du programme

Trois modèles sur quatre atteignent 5/5 sur Q2 en N2, et phi4-mini atteint 4/5. La formule centrale du programme est bien indexée et restituée fidèlement par tous les modèles dès que le corpus est structuré en Markdown.

Question	N0	N1	N2	Variation N0>N1
Q1 · Compétences de cycle	3/5	2/5	3/5	- 1 point
Q2 · Objectif du programme	4/5	3/5	5/5	- 1 point
Q3 · Approche en lecture	4/5	4/5	4/5	stable
Q4 · Piège culturel	3/5	3/5	3/5	stable
Q5 · Anti-hallucination	5/5	4/5	4/5	- 1 point
Q6 · Différenciation	3/5	3/5	5/5	stable

La régression N1 n'est pas un signe de faiblesse du modèle : elle indique au contraire qu'il est plus exigeant sur la qualité structurelle du corpus. Recommandation pratique : pour les modèles 14B et plus, éviter la conversion TXT basique sur des documents officiels à structure complexe. Passer directement de N0 à N2.

Enseignements transversaux

La taille ne suffit pas : la VRAM et la préparation comptent autant

Le 14B sous-performe le 8B en N0 et N1 sur ce corpus. La taille du modèle est un facteur parmi d'autres : la qualité de la préparation documentaire et l'adéquation entre fenêtre de contexte et structure du corpus jouent un rôle au moins aussi déterminant.

N2 améliore tous les modèles, mais pas de la même façon

Le gain N0>N2 est de +0,50 pour le 8B, +0,33 pour le 14B, +0,66 pour le 3B, et seulement +0,33 pour phi4-mini. Les modèles faibles progressent en valeur relative, mais restent en dessous du seuil d'usage professionnel. La préparation documentaire ne peut pas compenser une capacité de raisonnement insuffisante.

N1 n'est pas universellement sûr

La conversion TXT basique peut fragmenter les documents à structure complexe et dégrader les résultats, en particulier sur les grands modèles. Sur des programmes officiels avec tableaux et listes hiérarchiques, passer directement à N2 est plus fiable.

16 Go VRAM : seuil recommandé pour les modèles 14B en RAG

Le Serveur IA avec RX 9060 XT 16 Go est la seule configuration testée capable de charger le 14B entièrement en VRAM à 30-31 tok/s constants. En dessous, le modèle dépasse la VRAM disponible et bascule en inférence CPU/RAM.

Le 8B est le meilleur rapport qualité/configuration de la série

4,67/5 en N2 sur une RTX 3050 8 Go à 16-18 tok/s. Configuration accessible, résultats professionnels en N2. Modèle de référence de cette série pour un déploiement RAG sur corpus pédagogique FWB.

Profils d'usage recommandés

Contexte	Modèle recommandé	Niveau	Verdict
Serveur IA léger	Ministral 3 8B	N2	★★★★★
Config légère - PC portable	Ministral 3 3B	N1	★★★★★
Serveur IA multi-utilisateurs	Ministral 3 14B	N2	★★★★☆
phi4-mini 3.8B	Non recommandé ce corpus	-	★★☆☆☆

Verdicts globaux

★★★★★ · Ministral 3 8B · N2 · Très pertinent · référence de la série

4,67/5 · Quatre 5/5 · aucune hallucination sur 18 réponses · comportement anti-hallucination exemplaire · meilleur rapport qualité/configuration testé à ce jour sur ce corpus. Usage professionnel accompagné envisageable en N2 avec supervision maintenue sur les questions sans réponse dans le document.

★★★★☆ · Ministral 3 14B · N2 · Pertinent · potentiel confirmé, N1 à éviter

4,00/5 en N2 · deux 5/5 · aucune hallucination · vitesse la plus élevée de la série (30-31 tok/s). Recommandé uniquement en N2 sur configuration 16 Go VRAM. À retester sur un corpus mieux converti en N1 pour lever l'ambiguïté.

★★★★☆ · Ministral 3 3B · N1/N2 · Pertinent · seul choix viable sur config légère

3,83/5 en N2 · progression anti-hallucination remarquable (1/5>5/5 sur Q5) · N1 recommandé comme meilleur compromis sur PC portable 4 Go VRAM. Supervision indispensable.

★★☆☆☆ · phi4-mini 3.8B · tous niveaux · Non adapté à ce corpus

2,50/5 en N2 · hallucination douce systématique · lacunes culturelles locales irréductibles. Peut convenir pour des questions procédurales simples sur des documents très structurés, hors corpus institutionnel complexe.

Ressources

Périmètre de cette synthèse

Ces résultats sont valables sur le corpus testé : le programme officiel de Français FWB du secondaire, avec la stack Ollama + AnythingLLM et le protocole de six questions défini par le IA LAB. Les performances peuvent varier significativement sur d'autres corpus, d'autres stacks ou d'autres types de questions. Un test sur le corpus de Mathématiques FWB est prévu pour élargir le champ de comparaison.

Résultats individuels : Ministral 3 3B · Ministral 3 8B · Ministral 3 14B · phi4-mini 3.8B

Ressources

Corpus et questionnaires utilisés · page Téléchargements

Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org