Ministral 3 8B · Manuel utilisateur Nextcloud · Serveur IA Light

Test RAG comparatif · Ollama + AnythingLLM · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

Fiche du test

Modèle	Ministral 3 8B
Éditeur	Mistral AI
Quantisation	Q4_K_M · ~5 Go
Environnement	Ollama + AnythingLLM
Embedding	AnythingLLM natif (all-MiniLM · CPU)
Corpus	Manuel utilisateur Nextcloud
Niveaux	N0 (PDF brut) · N1 (TXT) · N2 (Markdown)

Machine	Serveur IA Light
CPU	Ryzen 5 3600
RAM	16 Go
GPU	RTX 3050 · 8 Go VRAM
OS	Linux Mint 22

Scores moyens	N0	N1	N2
Moyenne	3,33 / 5	3,33 / 5	3,33 / 5
Vitesse	~15-20 tok/s (stable)

Résultats par question

Q	Type	N0	N1	N2
Q1	Recherche directe	5/5	5/5	5/5
Q2	Synthèse	1/5	1/5	1/5
Q3	Procédure technique	3/5	4/5	4/5
Q4	Question ambiguë	1/5	2/5	1/5
Q5	Piège anti-hallucination	5/5	3/5	5/5
Q6	Croisement de sections	5/5	5/5	4/5
Moyenne		3,33	3,33	3,33

Point fort · Q1 et Q6 · extraction directe et croisement de sections

Le modèle excelle sur les questions ancrées dans des passages bien délimités du corpus. La liste des navigateurs est restituée parfaitement dès N0, et le croisement entre les sections 2.1 et 6 pour les prérequis Talk est réussi sur les trois niveaux. Ces résultats confirment la fiabilité du modèle sur les informations explicitement présentes et bien structurées dans le document.

Point faible structurel · Q2 et Q4 · angles morts persistants

La règle de gestion automatique de la corbeille (section 4.3) et les mécanismes de partage sans compte (sections 4.7 et 4.9) restent hors de portée sur les trois niveaux. Ces échecs ne sont pas liés à la qualité de la préparation du corpus mais vraisemblablement à la position et au découpage de ces passages dans le flux de chunking d'AnythingLLM. Signal utile pour calibrer la taille et le chevauchement des chunks sur les corpus techniques denses.

Comportement notable · Q5 · instabilité selon le niveau de préparation

Le comportement anti-hallucination est correct en N0 et N2 mais dérape en N1 avec des suggestions de commandes GPG et OpenSSL non documentées dans le corpus. Ce type de dérive, observé uniquement sur le corpus TXT intermédiaire, suggère que le format de préparation influence la prudence du modèle sur les questions sans réponse.

Enseignements

Corpus technique IT : extraction directe fiable, synthèse fragile

Sur un manuel utilisateur dense et multilingue (corpus en anglais, questions en français), le modèle gère bien les extractions directes et les croisements simples. Les synthèses chiffrées et les questions multi-sections restent problématiques, indépendamment du niveau de préparation.

Chunking déterminant sur les corpus longs

Les sections 4.3 et 4.9 du manuel Nextcloud, pourtant présentes dans le corpus, ne sont jamais retrouvées. Ce résultat pointe directement la configuration de découpage dans AnythingLLM. Sur un corpus de plus de 7 000 lignes TXT, la taille et le chevauchement des chunks conditionnent autant la performance que le modèle lui-même.

N1 : niveau le plus instable sur le piège anti-hallucination

Le format TXT intermédiaire produit une dérive sur Q5 absente en N0 et N2. Comportement inhabituel dans la série de tests : la préparation TXT de ce corpus spécifique semble introduire une forme de flottement dans la gestion des limites du modèle.

Corpus anglais, questions françaises : pas d'impact observé

Le modèle répond en français à partir d'un corpus entièrement en anglais sans confusion linguistique ni erreur de traduction sur les termes techniques. Résultat notable pour un usage en accompagnement d'organisations francophones utilisant des outils open source dont la documentation est en anglais.

Verdicts

N0 · ★★★☆☆ · Limité · usage avec supervision uniquement

3,33/5 en moyenne. Fiable sur les extractions directes et le croisement de sections, mais deux angles morts structurels sur Q2 et Q4 limitent fortement l'usage autonome. Supervision indispensable sur tout corpus technique dense en N0.

N1 · ★★★☆☆ · Limité · progression sur Q3 contrebalancée par la dérive sur Q5

3,33/5 en moyenne, identique au N0. La conversion TXT améliore la procédure WebDAV mais introduit une instabilité sur le piège anti-hallucination. Le bilan global ne progresse pas. Usage avec supervision uniquement.

N2 · ★★★☆☆ · Limité · meilleure posture mais angles morts non résolus

3,33/5 en moyenne. Le comportement anti-hallucination retrouve sa rigueur et la procédure technique est la plus complète des trois niveaux. Les deux angles morts (Q2 et Q4) persistent et plafonnent le score global. Supervision indispensable sur corpus technique IT avec ce modèle.

Ressources

Corpus et questionnaires utilisés · page Téléchargements

Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org