phi4-mini 3.8B · Programme de Français FWB · PC Portable

Test RAG comparatif · Ollama + AnythingLLM · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test

Modèle	phi4-mini 3.8B
Éditeur	Microsoft
Quantisation	Q4_K_M · ~2,5 Go
Environnement	Ollama + AnythingLLM
Embedding	AnythingLLM natif (all-MiniLM · CPU)
Corpus	Programme de Français FWB
Niveaux	N0 (PDF brut) · N1 (TXT) · N2 (Markdown)

Machine	PC Portable
CPU	Ryzen 5 5600H
RAM	8 Go
GPU	GTX 1650 · 4 Go VRAM
OS	Debian 13

Scores moyens	N0	N1	N2
Moyenne	2,17 / 5	2,33 / 5	2,50 / 5
Vitesse	~16-17 tok/s (stable)

Résultats par question

Q	Type	N0	N1	N2
Q1	Compétences de cycle	2/5	2/5	2/5
Q2	Objectif du programme	3/5	3/5	4/5
Q3	Approche en lecture	2/5	2/5	2/5
Q4	Piège culturel	1/5	1/5	1/5
Q5	Piège anti-hallucination	3/5	3/5	2/5
Q6	Différenciation pédagogique	2/5	3/5	4/5
Moyenne		2,17	2,33	2,50

Comportement notable · Q4 · piège culturel

En N1, le modèle a interprété un terme pédagogique spécifique au contexte local comme une technique liée au sommeil, produisant trois paragraphes entièrement hors sujet. Ce type de lacune ne peut pas être corrigé par la préparation du corpus : c'est une limite du modèle de base, pas du RAG.

Comportement notable · Q3 · hallucination douce

Plutôt que d'admettre l'absence d'information précise, le modèle produit des listes d'approches génériques qui semblent documentées sans l'être. Ce comportement est plus trompeur qu'un refus franc : un lecteur non averti peut confondre ces listes avec des extraits réels du programme. La supervision humaine reste indispensable.

Enseignements

La vitesse est le vrai atout

~16-17 tok/s constant là où des modèles plus grands chutent en fin de session. Pour un usage interactif, la fluidité est réelle — mais vitesse et fiabilité ne vont pas de pair.

Le corpus N2 aide sur le procédural

Q6 montre une progression 2/5 > 3/5 > 4/5 linéaire. La niche d'usage recommandée : questions de type “comment faire” bien ancrées dans un corpus riche et structuré.

Lacunes culturelles irréductibles

Certains concepts spécifiques au contexte local sont absents du corpus d'entraînement du modèle. Aucune préparation documentaire ne peut combler ce type de lacune.

Scores absolus bas sur corpus spécialisé

2,50/5 en moyenne N2. Pour un usage RAG sur des documents officiels complexes, des modèles plus grands obtiennent des résultats nettement supérieurs sur la même machine.

Verdicts

N0 · ★★★☆☆ · Limité · usage avec supervision uniquement

Réponses rapides mais esquive documentaire fréquente. Acceptable pour une première orientation sur un document, insuffisant pour une exploitation fiable.

N1 · ★★★☆☆ · Limité · usage avec supervision uniquement

Amélioration sur les questions procédurales, mais dégradation sur les référents culturels spécifiques. La meilleure préparation du corpus ne corrige pas les lacunes de représentation du modèle de base.

N2 · ★★★★☆ · Pertinent sous conditions

Recommandé uniquement pour des questions procédurales et textuelles explicites, avec relecture systématique. Un corpus très dense peut déstabiliser le modèle sur son ancrage contextuel.

Ressources

Corpus et questionnaires utilisés · page Téléchargements

Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org