phi4-mini 3.8B · Programme de Français FWB · PC Portable
Fiche du test
| Modèle | phi4-mini 3.8B |
|---|---|
| Éditeur | Microsoft |
| Quantisation | Q4_K_M · ~2,5 Go |
| Environnement | Ollama + AnythingLLM |
| Embedding | AnythingLLM natif (all-MiniLM · CPU) |
| Corpus | Programme de Français FWB |
| Niveaux | N0 (PDF brut) · N1 (TXT) · N2 (Markdown) |
| Machine | PC Portable |
|---|---|
| CPU | Ryzen 5 5600H |
| RAM | 8 Go |
| GPU | GTX 1650 · 4 Go VRAM |
| OS | Debian 13 |
| Scores moyens | N0 | N1 | N2 |
|---|---|---|---|
| Moyenne | 2,17 / 5 | 2,33 / 5 | 2,50 / 5 |
| Vitesse | ~16-17 tok/s (stable) | ||
Résultats par question
| Q | Type | N0 | N1 | N2 |
|---|---|---|---|---|
| Q1 | Compétences de cycle | 2/5 | 2/5 | 2/5 |
| Q2 | Objectif du programme | 3/5 | 3/5 | 4/5 |
| Q3 | Approche en lecture | 2/5 | 2/5 | 2/5 |
| Q4 | Piège culturel | 1/5 | 1/5 | 1/5 |
| Q5 | Piège anti-hallucination | 3/5 | 3/5 | 2/5 |
| Q6 | Différenciation pédagogique | 2/5 | 3/5 | 4/5 |
| Moyenne | 2,17 | 2,33 | 2,50 |
Comportement notable · Q4 · piège culturel
En N1, le modèle a interprété un terme pédagogique spécifique au contexte local comme une technique liée au sommeil, produisant trois paragraphes entièrement hors sujet. Ce type de lacune ne peut pas être corrigé par la préparation du corpus : c'est une limite du modèle de base, pas du RAG.
Comportement notable · Q3 · hallucination douce
Plutôt que d'admettre l'absence d'information précise, le modèle produit des listes d'approches génériques qui semblent documentées sans l'être. Ce comportement est plus trompeur qu'un refus franc : un lecteur non averti peut confondre ces listes avec des extraits réels du programme. La supervision humaine reste indispensable.
Enseignements
La vitesse est le vrai atout
~16-17 tok/s constant là où des modèles plus grands chutent en fin de session. Pour un usage interactif, la fluidité est réelle — mais vitesse et fiabilité ne vont pas de pair.
Le corpus N2 aide sur le procédural
Q6 montre une progression 2/5 > 3/5 > 4/5 linéaire. La niche d'usage recommandée : questions de type “comment faire” bien ancrées dans un corpus riche et structuré.
Lacunes culturelles irréductibles
Certains concepts spécifiques au contexte local sont absents du corpus d'entraînement du modèle. Aucune préparation documentaire ne peut combler ce type de lacune.
Scores absolus bas sur corpus spécialisé
2,50/5 en moyenne N2. Pour un usage RAG sur des documents officiels complexes, des modèles plus grands obtiennent des résultats nettement supérieurs sur la même machine.
Verdicts
N0 · ★★★☆☆ · Limité · usage avec supervision uniquement
Réponses rapides mais esquive documentaire fréquente. Acceptable pour une première orientation sur un document, insuffisant pour une exploitation fiable.
N1 · ★★★☆☆ · Limité · usage avec supervision uniquement
Amélioration sur les questions procédurales, mais dégradation sur les référents culturels spécifiques. La meilleure préparation du corpus ne corrige pas les lacunes de représentation du modèle de base.
N2 · ★★★★☆ · Pertinent sous conditions
Recommandé uniquement pour des questions procédurales et textuelles explicites, avec relecture systématique. Un corpus très dense peut déstabiliser le modèle sur son ancrage contextuel.
Ressources
Corpus et questionnaires utilisés · page Téléchargements
Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org


