Ministral 3 8B · Manuel utilisateur Nextcloud · Serveur IA Light
Fiche du test
| Modèle | Ministral 3 8B |
|---|---|
| Éditeur | Mistral AI |
| Quantisation | Q4_K_M · ~5 Go |
| Environnement | Ollama + AnythingLLM |
| Embedding | AnythingLLM natif (all-MiniLM · CPU) |
| Corpus | Manuel utilisateur Nextcloud |
| Niveaux | N0 (PDF brut) · N1 (TXT) · N2 (Markdown) |
| Machine | Serveur IA Light |
|---|---|
| CPU | Ryzen 5 3600 |
| RAM | 16 Go |
| GPU | RTX 3050 · 8 Go VRAM |
| OS | Linux Mint 22 |
| Scores moyens | N0 | N1 | N2 |
|---|---|---|---|
| Moyenne | 3,33 / 5 | 3,33 / 5 | 3,33 / 5 |
| Vitesse | ~15-20 tok/s (stable) | ||
Résultats par question
| Q | Type | N0 | N1 | N2 |
|---|---|---|---|---|
| Q1 | Recherche directe | 5/5 | 5/5 | 5/5 |
| Q2 | Synthèse | 1/5 | 1/5 | 1/5 |
| Q3 | Procédure technique | 3/5 | 4/5 | 4/5 |
| Q4 | Question ambiguë | 1/5 | 2/5 | 1/5 |
| Q5 | Piège anti-hallucination | 5/5 | 3/5 | 5/5 |
| Q6 | Croisement de sections | 5/5 | 5/5 | 4/5 |
| Moyenne | 3,33 | 3,33 | 3,33 |
Point fort · Q1 et Q6 · extraction directe et croisement de sections
Le modèle excelle sur les questions ancrées dans des passages bien délimités du corpus. La liste des navigateurs est restituée parfaitement dès N0, et le croisement entre les sections 2.1 et 6 pour les prérequis Talk est réussi sur les trois niveaux. Ces résultats confirment la fiabilité du modèle sur les informations explicitement présentes et bien structurées dans le document.
Point faible structurel · Q2 et Q4 · angles morts persistants
La règle de gestion automatique de la corbeille (section 4.3) et les mécanismes de partage sans compte (sections 4.7 et 4.9) restent hors de portée sur les trois niveaux. Ces échecs ne sont pas liés à la qualité de la préparation du corpus mais vraisemblablement à la position et au découpage de ces passages dans le flux de chunking d'AnythingLLM. Signal utile pour calibrer la taille et le chevauchement des chunks sur les corpus techniques denses.
Comportement notable · Q5 · instabilité selon le niveau de préparation
Le comportement anti-hallucination est correct en N0 et N2 mais dérape en N1 avec des suggestions de commandes GPG et OpenSSL non documentées dans le corpus. Ce type de dérive, observé uniquement sur le corpus TXT intermédiaire, suggère que le format de préparation influence la prudence du modèle sur les questions sans réponse.
Enseignements
Corpus technique IT : extraction directe fiable, synthèse fragile
Sur un manuel utilisateur dense et multilingue (corpus en anglais, questions en français), le modèle gère bien les extractions directes et les croisements simples. Les synthèses chiffrées et les questions multi-sections restent problématiques, indépendamment du niveau de préparation.
Chunking déterminant sur les corpus longs
Les sections 4.3 et 4.9 du manuel Nextcloud, pourtant présentes dans le corpus, ne sont jamais retrouvées. Ce résultat pointe directement la configuration de découpage dans AnythingLLM. Sur un corpus de plus de 7 000 lignes TXT, la taille et le chevauchement des chunks conditionnent autant la performance que le modèle lui-même.
N1 : niveau le plus instable sur le piège anti-hallucination
Le format TXT intermédiaire produit une dérive sur Q5 absente en N0 et N2. Comportement inhabituel dans la série de tests : la préparation TXT de ce corpus spécifique semble introduire une forme de flottement dans la gestion des limites du modèle.
Corpus anglais, questions françaises : pas d'impact observé
Le modèle répond en français à partir d'un corpus entièrement en anglais sans confusion linguistique ni erreur de traduction sur les termes techniques. Résultat notable pour un usage en accompagnement d'organisations francophones utilisant des outils open source dont la documentation est en anglais.
Verdicts
N0 · ★★★☆☆ · Limité · usage avec supervision uniquement
3,33/5 en moyenne. Fiable sur les extractions directes et le croisement de sections, mais deux angles morts structurels sur Q2 et Q4 limitent fortement l'usage autonome. Supervision indispensable sur tout corpus technique dense en N0.
N1 · ★★★☆☆ · Limité · progression sur Q3 contrebalancée par la dérive sur Q5
3,33/5 en moyenne, identique au N0. La conversion TXT améliore la procédure WebDAV mais introduit une instabilité sur le piège anti-hallucination. Le bilan global ne progresse pas. Usage avec supervision uniquement.
N2 · ★★★☆☆ · Limité · meilleure posture mais angles morts non résolus
3,33/5 en moyenne. Le comportement anti-hallucination retrouve sa rigueur et la procédure technique est la plus complète des trois niveaux. Les deux angles morts (Q2 et Q4) persistent et plafonnent le score global. Supervision indispensable sur corpus technique IT avec ce modèle.
Ressources
Corpus et questionnaires utilisés · page Téléchargements
Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org


