Ministral 3 14B · Manuel utilisateur Nextcloud · Serveur IA

Test RAG comparatif · Ollama + AnythingLLM · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test

Modèle	Ministral 3 14B
Éditeur	Mistral AI
Quantisation	Q4_K_M · ~9 Go
Environnement	Ollama + AnythingLLM
Embedding	AnythingLLM natif (all-MiniLM · CPU)
Corpus	Manuel utilisateur Nextcloud
Niveaux	N0 (PDF brut) · N1 (TXT) · N2 (Markdown)

Machine	Serveur IA
CPU	Ryzen 5 9600X
RAM	32 Go
GPU	RX 9060 XT · 16 Go VRAM
OS	Linux Mint 22

Scores moyens	N0	N1	N2
Moyenne	4,0 / 5	3,0 / 5	3,3 / 5
Vitesse	~29-32 tok/s (stable)

Résultats par question

Q	Type	N0	N1	N2
Q1	Recherche directe	5/5	5/5	4/5
Q2	Synthèse	1/5	1/5	2/5
Q3	Procédure technique	5/5	3/5	5/5
Q4	Question ambiguë	4/5	1/5	4/5
Q5	Piège anti-hallucination	4/5	4/5	3/5
Q6	Croisement de sections	5/5	4/5	2/5
Moyenne		4,0	3,0	3,3

Point fort · N0 · le PDF brut produit les meilleurs résultats

Avec 4,0/5 en moyenne, le corpus PDF brut est le meilleur niveau pour ce modèle sur ce corpus. Le modèle y restitue avec précision les procédures techniques denses (WebDAV, partage public, conditions Talk) et adopte une posture de refus honnête sur les questions sans réponse dans le corpus. Ce résultat est atypique dans la série IA LAB, où le N0 est généralement le niveau le plus faible.

Point faible · N2 · hallucinations administrateur sur les questions complexes

Le corpus Markdown produit les dérives les plus marquées de la session. Sur Q2 et Q6, le modèle abandonne le périmètre du manuel utilisateur pour construire des réponses d'administrateur système complètes : paramètres config.php, extensions PHP, configuration TURN, ports WebRTC. Ces réponses sont plausibles et bien rédigées, ce qui les rend d'autant plus trompeuses.

Comportement notable · N1 · défaillance RAG sur deux questions clés

Le recul du N1 (3,0/5) n'est pas imputable au modèle lui-même mais à la récupération de chunks par AnythingLLM. Sur Q3 et Q4, les sections pertinentes du corpus n'ont pas été fournies au modèle, qui a répondu honnêtement dans les limites de ce qu'il avait reçu. Signal important sur la sensibilité du pipeline RAG au format du corpus, indépendamment des capacités du modèle.

Enseignements

N0 meilleur niveau : un résultat contre-intuitif

Le PDF brut surpasse les deux formats préparés sur ce test. Le corpus Nextcloud est dense et bien structuré nativement, ce qui suffit à AnythingLLM pour extraire les bons chunks sans préparation supplémentaire. La conversion TXT et la structuration Markdown n'apportent pas de gain, et le Markdown introduit des dérives supplémentaires.

Profil en V sur Q3 et Q4

Deux questions produisent le même schéma : N0 excellent, N1 défaillant, N2 en récupération. Ce profil en V signale une instabilité du pipeline RAG sur le corpus TXT pour ces sections précises, plutôt qu'une limite du modèle. La même question obtient 4/5 en N0 et 1/5 en N1 uniquement parce que le chunk n'a pas été fourni.

Hallucinations administrateur en N2

Les dérives N2 sur Q2 et Q6 sont d'un type particulier : le modèle ne fabrique pas de fausses informations Nextcloud, il répond à côté du corpus en produisant des contenus techniques corrects mais issus de son entraînement général (administration serveur, configuration PHP, WebRTC). Ces réponses sont difficiles à détecter sans connaître le périmètre exact du corpus testé.

Vitesse remarquable pour un 14B

Entre 29 et 32 tok/s sur la RX 9060 XT 16 Go, le modèle tourne à une vitesse fluide et constante sur l'ensemble de la session. Avec 16 Go de VRAM, le modèle est chargé entièrement sur GPU sans débordement sur la RAM système, ce qui explique la stabilité du débit même sur les réponses les plus longues (Q6 N2, 73 secondes de génération).

Verdicts

N0 · ★★★★☆ · Pertinent sous conditions · résultats solides avec refus honnêtes

4,0/5 en moyenne. Le modèle restitue correctement les procédures techniques denses et adopte une posture de refus claire sur les questions sans réponse dans le corpus. L'angle mort persistant sur Q2 et la dépendance à la qualité des chunks RAG imposent une supervision avant déploiement en conditions réelles.

N1 · ★★★☆☆ · Limité · usage avec supervision uniquement · défaillance RAG sur deux questions

3,0/5 en moyenne. Le recul important par rapport au N0 est principalement dû à l'absence de chunks pertinents pour Q3 et Q4. La posture anti-hallucination reste bonne mais les contraintes RAG sont trop importantes pour un usage sans supervision.

N2 · ★★★☆☆ · Limité · usage avec supervision uniquement · hallucinations administrateur

3,3/5 en moyenne. Le Markdown améliore la récupération RAG sur Q3 et Q4 par rapport au N1, mais introduit des hallucinations de type administrateur sur Q2 et Q6. Les réponses techniques produites sont plausibles et non documentées dans le corpus. Supervision indispensable.

Ressources

Corpus et questionnaires utilisés · page Téléchargements

Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org