phi4-mini 3.8B · Manuel utilisateur Nextcloud · PC Portable

Test RAG comparatif · Ollama + AnythingLLM · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test

Modèle	phi4-mini 3.8B
Éditeur	Microsoft
Quantisation	Q4_K_M · ~2,5 Go
Environnement	Ollama + AnythingLLM
Embedding	AnythingLLM natif (all-MiniLM · CPU)
Corpus	Manuel utilisateur Nextcloud
Niveaux	N0 (PDF brut) · N1 (TXT) · N2 (Markdown)

Machine	PC Portable
CPU	Ryzen 7 7435HS
RAM	16 Go
GPU	RTX 3050 · 4 Go VRAM
OS	Debian 13

Scores moyens	N0	N1	N2
Moyenne	2,00 / 5	2,00 / 5	2,33 / 5
Vitesse	~17-22 tok/s (stable)

Résultats par question

Q	Type	N0	N1	N2
Q1	Recherche directe	4/5	4/5	5/5
Q2	Synthèse	1/5	1/5	1/5
Q3	Procédure technique	2/5	2/5	2/5
Q4	Question ambiguë	1/5	1/5	2/5
Q5	Piège anti-hallucination	1/5	1/5	1/5
Q6	Croisement de sections	3/5	3/5	3/5
Moyenne		2,00	2,00	2,33

Point fort · Q1 · restitution correcte des informations génériques

La liste des navigateurs recommandés est la seule question restituée correctement sur les trois niveaux, avec un score parfait en N2. Ce résultat s'explique par la nature de l'information : très présente dans les données d'entraînement du modèle, elle est récupérée depuis la mémoire interne plutôt que depuis le corpus RAG. Point fort relatif, mais qui illustre aussi la limite principale du modèle : sa dépendance aux données d'entraînement plutôt qu'au corpus injecté.

Point faible · Q5 · sortie silencieuse du périmètre RAG

La question sur le chiffrement d'un fichier individuel côté client est volontairement sans réponse dans le corpus. Sur les trois niveaux, phi4-mini répond par des commandes GPG sans signaler qu'il sort du périmètre documentaire. Ce comportement est plus problématique que le simple aveu d'ignorance : le modèle produit une réponse en apparence cohérente, mais entièrement fondée sur ses données d'entraînement et déconnectée du corpus Nextcloud.

Comportement notable · bug Q3/Q4 en N2 · inversion des réponses

En N2, la réponse à Q3 (WebDAV Linux) apparaît dans le slot Q4, et Q3 reste vide. Ce bug de génération, probablement lié à une confusion dans le suivi des questions lors du traitement du corpus Markdown, est absent en N0 et N1. Signal de fiabilité supplémentaire à surveiller sur les corpus structurés avec ce modèle.

Enseignements

Dépendance forte aux données d'entraînement

Sur ce corpus technique, phi4-mini répond principalement depuis sa mémoire interne plutôt que depuis les documents injectés. Les questions dont les réponses sont génériques et très représentées sur le web obtiennent de meilleurs scores que les questions portant sur des fonctionnalités spécifiques à Nextcloud. Le RAG n'améliore pas significativement les résultats.

Deux modes d'échec distincts

Le modèle présente deux comportements d'échec différents. Sur Q2, il avoue honnêtement son ignorance (aveu franc, sans invention). Sur Q5, il sort silencieusement du périmètre RAG sans le signaler, produisant une réponse cohérente mais déconnectée du corpus. Ce second comportement est plus risqué en usage professionnel car il est difficile à détecter sans vérification manuelle.

Progression N0>N2 quasi nulle

Avec +2 points sur 30 entre N0 et N2, la préparation du corpus n'a quasiment aucun effet sur les performances. À titre de comparaison, Ministral 3 3B sur la même machine et le même corpus gagne +5 points entre N0 et son meilleur niveau. La taille du modèle seule n'explique pas cet écart : phi4-mini (3.8B) devance Ministral 3 3B en paramètres mais lui est inférieur en qualité RAG sur ce test.

Vitesse correcte, compromis défavorable

Entre 17 et 22 tok/s sur RTX 3050 4 Go, phi4-mini offre une vitesse correcte. Mais le rapport qualité/vitesse est défavorable : pour un usage RAG sur corpus technique, les résultats insuffisants ne justifient pas le déploiement, même sur poste de travail individuel.

Verdicts

N0 · ★★☆☆☆ · Non adapté · scores insuffisants, dérives non signalées

2,00/5 en moyenne (12/30). Le modèle restitue correctement les navigateurs (Q1) mais échoue sur toutes les questions nécessitant une lecture effective du corpus. Sur Q5, il produit une réponse hors périmètre sans le signaler. Usage non recommandé dans cette configuration.

N1 · ★★☆☆☆ · Non adapté · aucune amélioration par rapport au PDF brut

2,00/5 en moyenne (12/30). La conversion TXT n'apporte aucun bénéfice mesurable. Contrairement à Ministral 3 3B sur la même machine, le format TXT ne produit pas de sobriété bénéfique : les dérives persistent, l'aveu d'ignorance sur Q2 est le seul comportement positif stable. Usage non recommandé dans cette configuration.

N2 · ★★☆☆☆ · Non adapté · légère progression, bug de génération à noter

2,33/5 en moyenne (14/30). Le meilleur niveau de la session, uniquement grâce au score parfait en Q1. Un bug d'inversion Q3/Q4 apparaît spécifiquement sur ce niveau. La structuration Markdown n'apporte pas les bénéfices habituellement observés dans la série. Usage non recommandé dans cette configuration.

Ressources

Corpus et questionnaires utilisés · page Téléchargements

Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org