Ministral 3 3B · Manuel utilisateur Nextcloud · PC Portable
Fiche du test
| Modèle | Ministral 3 3B |
|---|---|
| Éditeur | Mistral AI |
| Quantisation | Q4_K_M · ~3 Go |
| Environnement | Ollama + AnythingLLM |
| Embedding | AnythingLLM natif (all-MiniLM · CPU) |
| Corpus | Manuel utilisateur Nextcloud |
| Niveaux | N0 (PDF brut) · N1 (TXT) · N2 (Markdown) |
| Machine | PC Portable |
|---|---|
| CPU | Ryzen 7 7435HS |
| RAM | 16 Go |
| GPU | RTX 3050 · 4 Go VRAM |
| OS | Debian 13 |
| Scores moyens | N0 | N1 | N2 |
|---|---|---|---|
| Moyenne | 2,83 / 5 | 3,67 / 5 | 2,83 / 5 |
| Vitesse | ~19-24 tok/s (stable) | ||
Résultats par question
| Q | Type | N0 | N1 | N2 |
|---|---|---|---|---|
| Q1 | Recherche directe | 4/5 | 4/5 | 4/5 |
| Q2 | Synthèse | 3/5 | 4/5 | 2/5 |
| Q3 | Procédure technique | 3/5 | 4/5 | 4/5 |
| Q4 | Question ambiguë | 3/5 | 3/5 | 2/5 |
| Q5 | Piège anti-hallucination | 2/5 | 3/5 | 2/5 |
| Q6 | Croisement de sections | 2/5 | 4/5 | 3/5 |
| Moyenne | 2,83 | 3,67 | 2,83 |
Point fort · N1 · le format TXT est le meilleur niveau pour ce modèle
Avec 3,67/5 en moyenne, le corpus TXT converti produit les meilleures performances sur quatre des six questions. Le modèle y adopte une posture sobre : il reconnaît ses lacunes sans les combler par de l'invention, et restitue les procédures techniques avec précision. Ce résultat contre-intuitif — le niveau intermédiaire surpassant le Markdown structuré — est le signal le plus important de cette session.
Point faible · N2 · la structuration Markdown amplifie les dérives
Sur trois des six questions (Q2, Q4, Q5), le corpus Markdown produit des réponses inventées plus volumineuses et plus assurées qu'en N0 ou N1. Le modèle semble sur-stimulé par la densité structurelle du Markdown et comble ses lacunes avec davantage d'aplomb. Ce comportement est l'inverse de ce qu'on observe sur les modèles plus grands de la série.
Comportement notable · Q5 · piège anti-hallucination jamais complètement réussi
La question sur le chiffrement côté client, volontairement sans réponse dans le corpus, ne reçoit un traitement correct sur aucun des trois niveaux. Le modèle ne fabrique pas d'information Nextcloud inexistante, mais il sort systématiquement du périmètre RAG en proposant des outils tiers (openssl, gpg, VeraCrypt). C'est une dérive hors corpus plutôt qu'une hallucination factuelle, mais elle reste problématique dans un contexte d'usage assisté en entreprise.
Enseignements
Profil atypique : N1 meilleur que N2
Sur l'ensemble des tests IA LAB, le Markdown structuré améliore généralement les performances. Ministral 3 3B fait exception : la conversion TXT simple produit la meilleure sobriété et les meilleurs scores. Pour un modèle de cette taille, moins de structure formelle semble produire moins de sur-interprétation.
Fiabilité conditionnelle sur les procédures techniques
Q3 (WebDAV Linux) est la question qui progresse le mieux avec la préparation du corpus. Les procédures techniques bien délimitées dans le document sont bien restituées en N1 et N2. En revanche, dès que le corpus est muet ou que la question est ambiguë, le modèle comble le vide, parfois avec des options inventées présentées avec assurance.
Anti-hallucination : comportement instable selon le niveau
Le réflexe de refus existe (visible en N1 sur Q2 et Q4) mais il n'est pas ancré. En N0 et N2, le même modèle sur les mêmes questions produit des contenus inventés. Cette instabilité est le principal signal de risque pour un usage RAG en autonomie sur un corpus technique.
Vitesse : atout réel pour un usage embarqué
Entre 19 et 24 tok/s sur une RTX 3050 4 Go, Ministral 3 3B offre une vitesse de réponse notable pour un modèle de 3 Go. Avantage concret pour un déploiement sur poste de travail individuel, même si les performances RAG limitent l'usage aux questions simples avec supervision.
Verdicts
N0 · ★★☆☆☆ · Non adapté · hallucinations techniques trop fréquentes
2,83/5 en moyenne. Le modèle restitue correctement les informations simples (Q1) mais invente des options de montage, des conditions d'administration et des commandes non documentées sur les questions complexes. Usage en production sans supervision : non recommandé.
N1 · ★★★☆☆ · Limité · meilleur niveau pour ce modèle, supervision indispensable
3,67/5 en moyenne. Le format TXT produit une sobriété bénéfique : le modèle reconnaît ses lacunes et restitue les procédures techniques sans erreur bloquante. Reste insuffisant sur Q5 et les questions ambiguës. Meilleure configuration de la session, mais supervision requise.
N2 · ★★☆☆☆ · Non adapté · la structuration Markdown aggrave les dérives
2,83/5 en moyenne. Contre toute attente, le corpus Markdown produit davantage d'hallucinations que le TXT brut. Les réponses inventées sont plus longues, plus détaillées et plus assurées qu'en N0. Ce résultat déconseille le format Markdown pour ce modèle sur ce type de corpus technique.
Ressources
Corpus et questionnaires utilisés · page Téléchargements
Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org


