====== Ministral 3 3B · Programme de Français FWB · PC Portable ======

Test RAG comparatif · Ollama + AnythingLLM · PDF brut (N0) · TXT converti (N1) · Markdown (N2)

{{ :wiki:test-ia.webp |}}

{{:wiki:mistral-logo-color-black.png?200|}}

===== Fiche du test =====

^ Modèle         ^ Ministral 3 3B                        ^
| Éditeur        | Mistral AI                            |
| Quantisation   | Q4_K_M · modèle léger                 |
| Environnement  | Ollama + AnythingLLM                  |
| Embedding      | AnythingLLM natif (all-MiniLM · CPU)  |
| Corpus         | Programme de Français FWB             |
| Niveaux        | N0 (PDF brut) · N1 (TXT) · N2 (Markdown) |

^ Machine        ^ PC Portable                           ^
| CPU            | Ryzen 5 5600H                         |
| RAM            | 8 Go DDR5                             |
| GPU            | GTX 1650 · 4 Go VRAM                  |
| OS             | Debian 13                             |

^ Scores moyens  ^ N0        ^ N1        ^ N2        ^
| Moyenne        | 3,17 / 5  | 3,50 / 5  | 3,83 / 5  |
| Vitesse        | ~16-17 tok/s (dégradation en fin de session) ||

===== Résultats par question =====

^ Q  ^ Type                        ^ N0    ^ N1    ^ N2    ^
| Q1 | Compétences de cycle        | 3/5   | 3/5   | 3/5   |
| Q2 | Objectif du programme       | 4/5   | 3/5   | 5/5   |
| Q3 | Approche en lecture         | 3/5   | 4/5   | 3/5   |
| Q4 | Piège culturel              | 3/5   | 3/5   | 4/5   |
| Q5 | Piège anti-hallucination    | 1/5   | 4/5   | 5/5   |
| Q6 | Différenciation pédagogique | 3/5   | 4/5   | 4/5   |
| **Moyenne** |                | **3,17** | **3,50** | **3,83** |

<WRAP round alert>
**Comportement notable · Q5 N0 · hallucination franche**

Le modèle reconnaît l'absence d'information horaire dans le corpus, puis invente un tableau de chiffres présentés comme officiels en avouant lui-même les avoir générés hors corpus. C'est le comportement RAG le plus problématique du test : une hallucination annoncée mais quand même produite. La préparation N1 puis N2 élimine progressivement ce comportement.
</WRAP>

<WRAP round info>
**Comportement notable · Q5 · progression 1/5 > 4/5 > 5/5**

C'est le signal le plus fort de ce test : chaque niveau de préparation documentaire réduit significativement la tentation d'inventer des données absentes. N2 atteint la posture RAG idéale : identifier ce qui manque sans compenser par de l'invention. Argument décisif pour investir dans la préparation du corpus.
</WRAP>

<WRAP round info>
**Comportement notable · aucun niveau universellement supérieur**

N1 gagne Q3 (4/5 en 30s), N2 gagne Q2 et Q5 (5/5), N0 reste compétitif sur Q2 (4/5). La qualité du Markdown produit varie selon les sections du document source, certaines passent mieux en TXT qu'en Markdown. La préparation optimale dépend des questions prioritaires pour l'usage visé.
</WRAP>

===== Enseignements =====

<WRAP round box>
**La progression sur Q5 est l'argument décisif**

1/5 > 4/5 > 5/5 sur le piège anti-hallucination. Chaque niveau de préparation réduit la tentation d'inventer des données absentes. C'est la démonstration la plus claire de l'impact de la qualité documentaire.
</WRAP>

<WRAP round box>
**N1 : meilleur compromis sur config réduite**

Meilleur temps moyen (37s), dégradation en session la plus faible (-21%), et résistance à l'hallucination nettement améliorée. Accessible sans compétences techniques, une seule commande de conversion suffit.
</WRAP>

<WRAP round box>
**La qualité du Markdown conditionne les gains N2**

N2 gagne sur Q2 et Q5 mais régresse en Q3 par rapport à N1. Certaines sections du document source passent mieux en TXT qu'en Markdown selon l'outil utilisé. Vérification visuelle du fichier produit indispensable.
</WRAP>

<WRAP round box>
**Config réduite : facteur limitant en fin de session**

86 secondes sur Q6 en N2, dégradation du débit de -31% sur la session. La préparation documentaire améliore la qualité mais ne compense pas les contraintes matérielles. N2 est à réserver à une config plus puissante.
</WRAP>

===== Verdicts =====

<WRAP round box>
**N0 · ★★★☆☆ · Limité · usage avec supervision uniquement**

Hallucine sur les données absentes du corpus et se dégrade fortement en fin de session. À réserver à une exploration rapide sans enjeu de fiabilité.
</WRAP>

<WRAP round box>
**N1 · ★★★★★ · Très pertinent · recommandé sur config réduite**

Meilleur compromis qualité/temps/stabilité. Résistance à l'hallucination nettement améliorée. Dégradation en session la plus faible (-21%). Accessible sans compétences techniques particulières.
</WRAP>

<WRAP round box>
**N2 · ★★★★★ · Très pertinent · recommandé sur config confortable**

Meilleur score global et posture RAG la plus rigoureuse. Demande une vérification visuelle du Markdown produit. Sur config réduite, le temps de réponse peut devenir pénalisant en fin de session.
</WRAP>

===== Ressources =====

[[:telechargements|Corpus et questionnaires utilisés · page Téléchargements]]
----

<WRAP round tip>
**Votre organisation envisage de déployer de l'IA locale ?** Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. [[https://comptoiropensource.org|comptoiropensource.org]]
</WRAP>