phi4-mini 3.8B · Manuel utilisateur Nextcloud · PC Portable
Fiche du test
| Modèle | phi4-mini 3.8B |
|---|---|
| Éditeur | Microsoft |
| Quantisation | Q4_K_M · ~2,5 Go |
| Environnement | Ollama + AnythingLLM |
| Embedding | AnythingLLM natif (all-MiniLM · CPU) |
| Corpus | Manuel utilisateur Nextcloud |
| Niveaux | N0 (PDF brut) · N1 (TXT) · N2 (Markdown) |
| Machine | PC Portable |
|---|---|
| CPU | Ryzen 7 7435HS |
| RAM | 16 Go |
| GPU | RTX 3050 · 4 Go VRAM |
| OS | Debian 13 |
| Scores moyens | N0 | N1 | N2 |
|---|---|---|---|
| Moyenne | 2,00 / 5 | 2,00 / 5 | 2,33 / 5 |
| Vitesse | ~17-22 tok/s (stable) | ||
Résultats par question
| Q | Type | N0 | N1 | N2 |
|---|---|---|---|---|
| Q1 | Recherche directe | 4/5 | 4/5 | 5/5 |
| Q2 | Synthèse | 1/5 | 1/5 | 1/5 |
| Q3 | Procédure technique | 2/5 | 2/5 | 2/5 |
| Q4 | Question ambiguë | 1/5 | 1/5 | 2/5 |
| Q5 | Piège anti-hallucination | 1/5 | 1/5 | 1/5 |
| Q6 | Croisement de sections | 3/5 | 3/5 | 3/5 |
| Moyenne | 2,00 | 2,00 | 2,33 |
Point fort · Q1 · restitution correcte des informations génériques
La liste des navigateurs recommandés est la seule question restituée correctement sur les trois niveaux, avec un score parfait en N2. Ce résultat s'explique par la nature de l'information : très présente dans les données d'entraînement du modèle, elle est récupérée depuis la mémoire interne plutôt que depuis le corpus RAG. Point fort relatif, mais qui illustre aussi la limite principale du modèle : sa dépendance aux données d'entraînement plutôt qu'au corpus injecté.
Point faible · Q5 · sortie silencieuse du périmètre RAG
La question sur le chiffrement d'un fichier individuel côté client est volontairement sans réponse dans le corpus. Sur les trois niveaux, phi4-mini répond par des commandes GPG sans signaler qu'il sort du périmètre documentaire. Ce comportement est plus problématique que le simple aveu d'ignorance : le modèle produit une réponse en apparence cohérente, mais entièrement fondée sur ses données d'entraînement et déconnectée du corpus Nextcloud.
Comportement notable · bug Q3/Q4 en N2 · inversion des réponses
En N2, la réponse à Q3 (WebDAV Linux) apparaît dans le slot Q4, et Q3 reste vide. Ce bug de génération, probablement lié à une confusion dans le suivi des questions lors du traitement du corpus Markdown, est absent en N0 et N1. Signal de fiabilité supplémentaire à surveiller sur les corpus structurés avec ce modèle.
Enseignements
Dépendance forte aux données d'entraînement
Sur ce corpus technique, phi4-mini répond principalement depuis sa mémoire interne plutôt que depuis les documents injectés. Les questions dont les réponses sont génériques et très représentées sur le web obtiennent de meilleurs scores que les questions portant sur des fonctionnalités spécifiques à Nextcloud. Le RAG n'améliore pas significativement les résultats.
Deux modes d'échec distincts
Le modèle présente deux comportements d'échec différents. Sur Q2, il avoue honnêtement son ignorance (aveu franc, sans invention). Sur Q5, il sort silencieusement du périmètre RAG sans le signaler, produisant une réponse cohérente mais déconnectée du corpus. Ce second comportement est plus risqué en usage professionnel car il est difficile à détecter sans vérification manuelle.
Progression N0>N2 quasi nulle
Avec +2 points sur 30 entre N0 et N2, la préparation du corpus n'a quasiment aucun effet sur les performances. À titre de comparaison, Ministral 3 3B sur la même machine et le même corpus gagne +5 points entre N0 et son meilleur niveau. La taille du modèle seule n'explique pas cet écart : phi4-mini (3.8B) devance Ministral 3 3B en paramètres mais lui est inférieur en qualité RAG sur ce test.
Vitesse correcte, compromis défavorable
Entre 17 et 22 tok/s sur RTX 3050 4 Go, phi4-mini offre une vitesse correcte. Mais le rapport qualité/vitesse est défavorable : pour un usage RAG sur corpus technique, les résultats insuffisants ne justifient pas le déploiement, même sur poste de travail individuel.
Verdicts
N0 · ★★☆☆☆ · Non adapté · scores insuffisants, dérives non signalées
2,00/5 en moyenne (12/30). Le modèle restitue correctement les navigateurs (Q1) mais échoue sur toutes les questions nécessitant une lecture effective du corpus. Sur Q5, il produit une réponse hors périmètre sans le signaler. Usage non recommandé dans cette configuration.
N1 · ★★☆☆☆ · Non adapté · aucune amélioration par rapport au PDF brut
2,00/5 en moyenne (12/30). La conversion TXT n'apporte aucun bénéfice mesurable. Contrairement à Ministral 3 3B sur la même machine, le format TXT ne produit pas de sobriété bénéfique : les dérives persistent, l'aveu d'ignorance sur Q2 est le seul comportement positif stable. Usage non recommandé dans cette configuration.
N2 · ★★☆☆☆ · Non adapté · légère progression, bug de génération à noter
2,33/5 en moyenne (14/30). Le meilleur niveau de la session, uniquement grâce au score parfait en Q1. Un bug d'inversion Q3/Q4 apparaît spécifiquement sur ce niveau. La structuration Markdown n'apporte pas les bénéfices habituellement observés dans la série. Usage non recommandé dans cette configuration.
Ressources
Corpus et questionnaires utilisés · page Téléchargements
Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org


