Synthèse comparative · Manuel utilisateur Nextcloud · 4 modèles testés

Analyse croisée des résultats RAG sur le manuel officiel Nextcloud · Ollama + AnythingLLM · Protocole N0 / N1 / N2 · 3 configurations matérielles

Contexte de la série

Quatre modèles ont été soumis au même corpus technique : le manuel utilisateur officiel Nextcloud (anglais), avec le même protocole de six questions couvrant la recherche directe d'information, la synthèse multi-sections, les procédures techniques, les questions ambiguës, un piège anti-hallucination et le croisement de sections. Chaque modèle a été testé sur trois niveaux de préparation documentaire : N0 (PDF brut), N1 (TXT converti) et N2 (Markdown structuré). Ce corpus technique en langue anglaise, avec réponses attendues en français, constitue un cas de figure radicalement différent du corpus pédagogique FWB testé précédemment.

Modèles testés	4	Ministral 3B · 8B · 14B · phi4-mini 3.8B
Questions par test	6	dont 1 piège anti-hallucination
Niveaux documentaires	3	N0 PDF · N1 TXT · N2 Markdown
Réponses évaluées	72	6 questions × 3 niveaux × 4 modèles

Classement général · meilleur score par modèle

Rang	Modèle	Machine	N0	N1	N2	Niveau optimal
#1	Ministral 3 14B	Serveur IA · RX 9060 XT 16Go	4,00	3,00 (↓)	3,33	N0
#2	Ministral 3 3B	PC Portable · RTX 3050 4Go	2,83	3,67	2,83	N1
#3	Ministral 3 8B	Serveur IA Light · RTX 3050 8Go	3,33	3,33	3,33	Stable
#4	phi4-mini 3.8B	PC Portable · RTX 3050 4Go	2,00	2,00	2,33	N2 (minimal)

Comparaison question par question · niveau optimal par modèle

Le niveau optimal de chaque modèle est retenu comme base de comparaison : N0 pour le 14B, N1 pour le 3B, N2 pour le 8B (rigueur anti-hallucination), N2 pour phi4-mini.

Question	14B (N0)	8B (N2)	3B (N1)	phi4 (N2)
Q1 · Recherche directe	5/5	5/5	4/5	5/5
Q2 · Synthèse	1/5	1/5	4/5	1/5
Q3 · Procédure technique	5/5	4/5	4/5	2/5
Q4 · Question ambiguë	4/5	1/5	3/5	2/5
Q5 · Piège anti-hallucination	4/5	5/5	3/5	1/5
Q6 · Croisement de sections	5/5	4/5	4/5	3/5
Moyenne (niveau optimal)	4,00	3,33	3,67	2,33

Signal transversal · Q2 · angle mort quasi universel sur ce corpus

La question de synthèse sur la gestion de la corbeille est en échec sur trois modèles sur quatre, quel que soit le niveau de préparation. Ce n'est pas un problème de compréhension : la section concernée du manuel n'est structurellement pas récupérée par le pipeline de chunking AnythingLLM sur ce corpus. C'est un signal direct adressé à la configuration RAG, pas aux modèles.

Signal transversal · Q1 · restitution directe excellente pour trois modèles sur quatre

La liste des navigateurs recommandés est restituée à 5/5 par trois modèles sur quatre quel que soit le niveau de préparation. Ce consensus confirme que le pipeline RAG fonctionne correctement pour les informations courtes et bien délimitées, et que les difficultés observées ailleurs sont liées à la structure des sections concernées.

Signal transversal · Q6 · croisement de sections réussi par tous sauf phi4

La question de croisement entre les prérequis Nextcloud Talk (sections 2.1 et 6) obtient des scores corrects sur trois modèles : 5/5 pour le 14B, 4/5 pour le 8B et le 3B. Seul phi4-mini reste à 3/5. Les modèles Ministral gèrent cette contrainte mieux qu'attendu sur ce corpus technique dense.

Modèle	N0	N1	N2	Niveau optimal
Ministral 3 14B	4,00	3,00 (↓)	3,33	N0
Ministral 3 8B	3,33	3,33	3,33	Stable
Ministral 3 3B	2,83	3,67	2,83	N1
phi4-mini 3.8B	2,00	2,00	2,33	N2 (minimal)

Pourquoi le 14B préfère N0 sur ce corpus

Le manuel Nextcloud est un document technique dense mais bien structuré nativement en PDF. Le modèle 14B, dont la fenêtre d'attention est large, exploite efficacement la mise en page d'origine. La conversion TXT fragmente les tableaux et listes d'options sans en préserver la hiérarchie. Le Markdown induit des hallucinations de type administrateur sur Q2 et Q6, où le modèle sort du périmètre utilisateur pour produire du contenu technique plausible non documenté.

Pourquoi le 3B préfère N1 sur ce corpus

À l'inverse du 14B, le modèle 3B bénéficie de la sobriété apportée par le format TXT. La conversion linéarise le document et réduit le bruit visuel du PDF. Pour un modèle de cette taille qui opère sur des chunks courts, ce format produit moins de sur-interprétation. Le Markdown sur-stimule le modèle qui comble ses lacunes avec davantage d'assurance, amplifiant les dérives.

Le 8B occupe une position médiane remarquable : 3,33/5 constant sur les trois niveaux, sans l'inversion du 14B ni la volatilité du 3B. Les deux angles morts (Q2 et Q4) sont structurels et non résolus par aucun niveau de préparation. Recommandation : ajuster la taille et le chevauchement des chunks AnythingLLM sur les sections 4.3 et 4.9 du corpus avant tout nouveau test sur ce modèle.

Enseignements transversaux

Le 8B produit le profil le plus stable mais pas le meilleur score

3,33/5 constant sur N0, N1 et N2 : aucune régression, aucun gain. Ce profil plat signale que les limites sont structurelles (chunking, sections non récupérées) et non liées au format de préparation.

Le Markdown amplifie les dérives sur les petits modèles

Le 3B en N2 produit davantage d'hallucinations qu'en N0 ou N1 sur ce corpus technique. C'est l'inverse du comportement observé sur le corpus FWB. La structuration Markdown sur-stimule le modèle de 3B en contexte de corpus IT dense.

phi4-mini : progression quasi nulle avec la préparation documentaire

+0,33 points sur 5 entre N0 et N2. C'est le gain le plus faible de toute la série IA LAB. Le modèle répond principalement depuis ses données d'entraînement, ignorant le corpus injecté. Le RAG n'améliore pas significativement ses performances sur ce corpus.

Anti-hallucination : comportements très divergents selon le modèle

Sur Q5, le 8B refuse correctement en N0 et N2 (5/5), le 14B refuse avec prudence (4/5), le 3B sort hors périmètre en proposant des outils tiers, et phi4-mini répond avec des commandes GPG sans signaler qu'il sort du corpus. Quatre comportements différents sur la même question.

La vitesse du 14B : atout réel sur corpus technique dense

29 à 32 tok/s constants sur la RX 9060 XT 16 Go, même sur les réponses de 73 secondes. Sur un corpus de cette densité, la vitesse est un critère pertinent pour un déploiement en contexte d'accompagnement multi-utilisateurs.

Profils d'usage recommandés

Contexte	Modèle recommandé	Niveau	Verdict
Serveur partagé multi-utilisateurs	Ministral 3 14B	N0	★★★★☆
Usage technique supervisé	Ministral 3 8B	N0/N2	★★★☆☆
Configuration légère - PC portable	Ministral 3 3B	N1	★★★☆☆
phi4-mini 3.8B	Non recommandé	-	★★☆☆☆

Verdicts globaux

★★★★☆ · Ministral 3 14B · N0 · Pertinent sous conditions · meilleur score de la série

4,00/5 en N0 · cinq questions correctement traitées sur six · hallucinations administrateur en N2 à éviter · régression N1 documentée. Le PDF brut est le seul niveau recommandé sur ce corpus. Angle mort persistant sur Q2 : supervision indispensable avant tout déploiement autonome.

★★★☆☆ · Ministral 3 8B · N0/N2 · Limité · profil stable, angles morts structurels

3,33/5 constant sur les trois niveaux · comportement anti-hallucination exemplaire en N0 et N2 · deux angles morts (Q2 et Q4) non résolus par aucun niveau de préparation. Recommandé pour une aide technique de premier niveau avec supervision humaine.

★★★☆☆ · Ministral 3 3B · N1 · Limité · seul choix viable sur config 4 Go VRAM

3,67/5 en N1 · le format TXT produit une sobriété bénéfique sur corpus technique · le Markdown amplifie les dérives, à éviter sur ce type de corpus. Usage acceptable en assistance documentaire simple avec opérateur humain.

★★☆☆☆ · phi4-mini 3.8B · tous niveaux · Non adapté à ce corpus

2,33/5 au mieux · progression quasi nulle avec la préparation documentaire · sorties hors périmètre non signalées sur Q5 · bug d'inversion en N2. Non recommandé pour un usage RAG sur corpus technique IT, quel que soit le contexte matériel.

Ressources

Périmètre de cette synthèse

Ces résultats sont valables sur le corpus testé : le manuel utilisateur officiel Nextcloud (anglais), avec la stack Ollama + AnythingLLM et le protocole de six questions défini par le IA LAB. Une reconfiguration du pipeline RAG (taille de chunk, chevauchement) est recommandée avant tout nouveau test sur ce corpus, en particulier pour lever l'angle mort persistant sur Q2.

Résultats individuels : Ministral 3 3B · Ministral 3 8B · Ministral 3 14B · phi4-mini 3.8B

Corpus et questionnaires utilisés · page Téléchargements

Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org