Ministral 3 3B · Manuel utilisateur Nextcloud · PC Portable

Test RAG comparatif · Ollama + AnythingLLM · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test

Modèle	Ministral 3 3B
Éditeur	Mistral AI
Quantisation	Q4_K_M · ~3 Go
Environnement	Ollama + AnythingLLM
Embedding	AnythingLLM natif (all-MiniLM · CPU)
Corpus	Manuel utilisateur Nextcloud
Niveaux	N0 (PDF brut) · N1 (TXT) · N2 (Markdown)

Machine	PC Portable
CPU	Ryzen 7 7435HS
RAM	16 Go
GPU	RTX 3050 · 4 Go VRAM
OS	Debian 13

Scores moyens	N0	N1	N2
Moyenne	2,83 / 5	3,67 / 5	2,83 / 5
Vitesse	~19-24 tok/s (stable)

Résultats par question

Q	Type	N0	N1	N2
Q1	Recherche directe	4/5	4/5	4/5
Q2	Synthèse	3/5	4/5	2/5
Q3	Procédure technique	3/5	4/5	4/5
Q4	Question ambiguë	3/5	3/5	2/5
Q5	Piège anti-hallucination	2/5	3/5	2/5
Q6	Croisement de sections	2/5	4/5	3/5
Moyenne		2,83	3,67	2,83

Point fort · N1 · le format TXT est le meilleur niveau pour ce modèle

Avec 3,67/5 en moyenne, le corpus TXT converti produit les meilleures performances sur quatre des six questions. Le modèle y adopte une posture sobre : il reconnaît ses lacunes sans les combler par de l'invention, et restitue les procédures techniques avec précision. Ce résultat contre-intuitif — le niveau intermédiaire surpassant le Markdown structuré — est le signal le plus important de cette session.

Point faible · N2 · la structuration Markdown amplifie les dérives

Sur trois des six questions (Q2, Q4, Q5), le corpus Markdown produit des réponses inventées plus volumineuses et plus assurées qu'en N0 ou N1. Le modèle semble sur-stimulé par la densité structurelle du Markdown et comble ses lacunes avec davantage d'aplomb. Ce comportement est l'inverse de ce qu'on observe sur les modèles plus grands de la série.

Comportement notable · Q5 · piège anti-hallucination jamais complètement réussi

La question sur le chiffrement côté client, volontairement sans réponse dans le corpus, ne reçoit un traitement correct sur aucun des trois niveaux. Le modèle ne fabrique pas d'information Nextcloud inexistante, mais il sort systématiquement du périmètre RAG en proposant des outils tiers (openssl, gpg, VeraCrypt). C'est une dérive hors corpus plutôt qu'une hallucination factuelle, mais elle reste problématique dans un contexte d'usage assisté en entreprise.

Enseignements

Profil atypique : N1 meilleur que N2

Sur l'ensemble des tests IA LAB, le Markdown structuré améliore généralement les performances. Ministral 3 3B fait exception : la conversion TXT simple produit la meilleure sobriété et les meilleurs scores. Pour un modèle de cette taille, moins de structure formelle semble produire moins de sur-interprétation.

Fiabilité conditionnelle sur les procédures techniques

Q3 (WebDAV Linux) est la question qui progresse le mieux avec la préparation du corpus. Les procédures techniques bien délimitées dans le document sont bien restituées en N1 et N2. En revanche, dès que le corpus est muet ou que la question est ambiguë, le modèle comble le vide, parfois avec des options inventées présentées avec assurance.

Anti-hallucination : comportement instable selon le niveau

Le réflexe de refus existe (visible en N1 sur Q2 et Q4) mais il n'est pas ancré. En N0 et N2, le même modèle sur les mêmes questions produit des contenus inventés. Cette instabilité est le principal signal de risque pour un usage RAG en autonomie sur un corpus technique.

Vitesse : atout réel pour un usage embarqué

Entre 19 et 24 tok/s sur une RTX 3050 4 Go, Ministral 3 3B offre une vitesse de réponse notable pour un modèle de 3 Go. Avantage concret pour un déploiement sur poste de travail individuel, même si les performances RAG limitent l'usage aux questions simples avec supervision.

Verdicts

N0 · ★★☆☆☆ · Non adapté · hallucinations techniques trop fréquentes

2,83/5 en moyenne. Le modèle restitue correctement les informations simples (Q1) mais invente des options de montage, des conditions d'administration et des commandes non documentées sur les questions complexes. Usage en production sans supervision : non recommandé.

N1 · ★★★☆☆ · Limité · meilleur niveau pour ce modèle, supervision indispensable

3,67/5 en moyenne. Le format TXT produit une sobriété bénéfique : le modèle reconnaît ses lacunes et restitue les procédures techniques sans erreur bloquante. Reste insuffisant sur Q5 et les questions ambiguës. Meilleure configuration de la session, mais supervision requise.

N2 · ★★☆☆☆ · Non adapté · la structuration Markdown aggrave les dérives

2,83/5 en moyenne. Contre toute attente, le corpus Markdown produit davantage d'hallucinations que le TXT brut. Les réponses inventées sont plus longues, plus détaillées et plus assurées qu'en N0. Ce résultat déconseille le format Markdown pour ce modèle sur ce type de corpus technique.

Ressources

Corpus et questionnaires utilisés · page Téléchargements

Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org