IA LAB

Laboratoire de tests IA open source

Outils pour utilisateurs

Outils du site


tests:fwb-francais_phi4-mini_pc-portable

phi4-mini 3.8B · Programme de Français FWB · PC Portable

Test RAG comparatif · Ollama + AnythingLLM · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test

Modèle phi4-mini 3.8B
Éditeur Microsoft
Quantisation Q4_K_M · ~2,5 Go
Environnement Ollama + AnythingLLM
Embedding AnythingLLM natif (all-MiniLM · CPU)
Corpus Programme de Français FWB
Niveaux N0 (PDF brut) · N1 (TXT) · N2 (Markdown)
Machine PC Portable
CPU Ryzen 5 5600H
RAM 8 Go
GPU GTX 1650 · 4 Go VRAM
OS Debian 13
Scores moyens N0 N1 N2
Moyenne 2,17 / 5 2,33 / 5 2,50 / 5
Vitesse ~16-17 tok/s (stable)

Résultats par question

Q Type N0 N1 N2
Q1 Compétences de cycle 2/5 2/5 2/5
Q2 Objectif du programme 3/5 3/5 4/5
Q3 Approche en lecture 2/5 2/5 2/5
Q4 Piège culturel 1/5 1/5 1/5
Q5 Piège anti-hallucination 3/5 3/5 2/5
Q6 Différenciation pédagogique 2/5 3/5 4/5
Moyenne 2,17 2,33 2,50

Comportement notable · Q4 · piège culturel

En N1, le modèle a interprété un terme pédagogique spécifique au contexte local comme une technique liée au sommeil, produisant trois paragraphes entièrement hors sujet. Ce type de lacune ne peut pas être corrigé par la préparation du corpus : c'est une limite du modèle de base, pas du RAG.

Comportement notable · Q3 · hallucination douce

Plutôt que d'admettre l'absence d'information précise, le modèle produit des listes d'approches génériques qui semblent documentées sans l'être. Ce comportement est plus trompeur qu'un refus franc : un lecteur non averti peut confondre ces listes avec des extraits réels du programme. La supervision humaine reste indispensable.

Enseignements

La vitesse est le vrai atout

~16-17 tok/s constant là où des modèles plus grands chutent en fin de session. Pour un usage interactif, la fluidité est réelle — mais vitesse et fiabilité ne vont pas de pair.

Le corpus N2 aide sur le procédural

Q6 montre une progression 2/5 > 3/5 > 4/5 linéaire. La niche d'usage recommandée : questions de type “comment faire” bien ancrées dans un corpus riche et structuré.

Lacunes culturelles irréductibles

Certains concepts spécifiques au contexte local sont absents du corpus d'entraînement du modèle. Aucune préparation documentaire ne peut combler ce type de lacune.

Scores absolus bas sur corpus spécialisé

2,50/5 en moyenne N2. Pour un usage RAG sur des documents officiels complexes, des modèles plus grands obtiennent des résultats nettement supérieurs sur la même machine.

Verdicts

N0 · ★★★☆☆ · Limité · usage avec supervision uniquement

Réponses rapides mais esquive documentaire fréquente. Acceptable pour une première orientation sur un document, insuffisant pour une exploitation fiable.

N1 · ★★★☆☆ · Limité · usage avec supervision uniquement

Amélioration sur les questions procédurales, mais dégradation sur les référents culturels spécifiques. La meilleure préparation du corpus ne corrige pas les lacunes de représentation du modèle de base.

N2 · ★★★★☆ · Pertinent sous conditions

Recommandé uniquement pour des questions procédurales et textuelles explicites, avec relecture systématique. Un corpus très dense peut déstabiliser le modèle sur son ancrage contextuel.

Ressources

Corpus et questionnaires utilisés · page Téléchargements


Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org

tests/fwb-francais_phi4-mini_pc-portable.txt · Dernière modification : de cos