IA LAB

Laboratoire de tests IA open source

Outils pour utilisateurs

Outils du site


tests:s2-fwb-francais_ministral-3-14b_serveur-ia

Ministral 3 14B · Programme de Français FWB · Serveur IA · Série 2

Test RAG comparatif · Ollama + AnythingLLM · PDF brut (N0) · TXT converti (N1) · Markdown (N2) · Embedding bge-m3

Fiche du test

Modèle Ministral 3 14B
Éditeur Mistral AI
Quantisation Q4_K_M · ~9 Go
Environnement Ollama + AnythingLLM
Embedding bge-m3 (BAAI) · GPU
Corpus Programme de Français FWB (S1-S2-S3)
Niveaux N0 (PDF brut) · N1 (TXT) · N2 (Markdown)
Machine Serveur IA
CPU Ryzen 5 9600X
RAM 32 Go
GPU RX 9060 XT · 16 Go VRAM
OS Linux Mint 22
Scores moyens N0 N1 N2
Moyenne 3,67 / 5 3,50 / 5 3,33 / 5
Vitesse ~27 – 30 tok/s (stable)

Résultats par question

Q Type N0 N1 N2
Q1 Compétences de cycle 4/5 4/5 2/5
Q2 Objectif du programme 5/5 5/5 5/5
Q3 Approche en lecture 4/5 4/5 5/5
Q4 Piège interdisciplinaire 2/5 3/5 2/5
Q5 Piège anti-hallucination 3/5 3/5 3/5
Q6 Différenciation pédagogique 4/5 4/5 5/5
Moyenne 3,67 3,50 3,33

Point critique · Q5 · aveu d'ignorance sur les trois niveaux

Aucun niveau ne restitue le tableau des périodes hebdomadaires (S1 : 6 périodes, S2 : 4 périodes, S3 : 4 périodes) pourtant présent aux pages 3-4 du corpus. Le modèle adopte un comportement cohérent et prudent en déclarant ne pas trouver l'information, sans halluciner, ce qui justifie un score de 3/5 plutôt qu'un échec total. En N2, une estimation générique “4 à 6 heures selon les options” apparaît en guise d'exemple hors document, ce qui reste acceptable sans être une réponse ancrée. Ce raté systématique s'explique probablement par la position des tableaux en début de document, dans une zone de mise en page dense (colonnes, entêtes répétés) mal chunquée quel que soit le niveau de préparation.

Point critique · Q1 · régression inexpliquée en N2

En N0 et N1, le modèle restitue correctement les compétences de fin de S3 depuis les pages 184-185 du programme. En N2, il admet ne pas trouver les attendus détaillés et renvoie au tableau synoptique de la section 4.2.3, réponse générée en 24 secondes seulement, signe que peu de contexte pertinent a été récupéré. Ce comportement paradoxal : le niveau de préparation le plus élaboré, produit le retrieval le plus pauvre sur cette question. Cela illustre la sensibilité du chunking Markdown sur un référentiel dont les tableaux d'attendus annualisés sont la structure centrale.

Point critique · Q4 · confusion persistante sur les trois niveaux

La question sur les liens entre français et disciplines d'éveil génère sur les trois niveaux la même confusion de fond : le modèle remonte la section “Éveil aux langues” du primaire (M1-P2, conscience phonologique, chansons multilingues) au lieu des croisements interdisciplinaires balisés dans le référentiel FRALA pour le secondaire. En N0 et N2 (2/5), les réponses sont structurées et mentionnent les visées transversales (domaines 6-7-8), mais restent ancrées dans le mauvais niveau scolaire. En N1 (3/5), une amorce de liens disciplinaires corrects apparaît (ECA, EAM, ErE DD). Ce comportement est probablement lié à la dominance quantitative des sections “éveil” du primaire dans les résultats de recherche sémantique sur un corpus de 400 pages.

Comportement notable · Q2 · stabilité et citation exacte sur les trois niveaux

La formulation centrale du programme “Faire du français, c'est apprendre à lire le monde, à dire le réel et à penser avec les autres” est correctement restituée et correctement référencée (section 2.1, page 32) sur les trois niveaux. C'est la seule question à obtenir un score parfait de 5/5 partout. La citation est courte, sémantiquement forte et probablement bien isolée dans ses chunks – ce qui explique sa robustesse au bruit de mise en page.

Comportement notable · Q3 · progression N0-N1-N2 · meilleur résultat en N2

L'approche pédagogique en lecture est bien couverte sur les trois niveaux, avec une progression qualitative notable. N0 et N1 (4/5) restituent les stratégies cognitives, les postures de lecture et les outils de différenciation. N2 (5/5) ajoute des éléments absents des autres niveaux : l'entrée explicite par les genres de textes (section 3.1), la logique spiralaire nommée comme telle, la progression “lecteur débutant vers lecteur confirmé” et la lecture critique comparée de textes divergents. C'est le seul cas où la préparation Markdown produit clairement le meilleur retrieval du test.

Comportement notable · Q6 · montée en qualité en N2

La question sur l'évaluation des élèves en difficulté obtient 4/5 en N0 et N1, et 5/5 en N2. Le saut qualitatif en N2 est réel : le modèle ajoute la pondération évaluation sommative, la notion d'alignement pédagogique, la zone proximale de développement, la distinction différenciation active / passive et la collaboration avec les parents. Des éléments absents des deux autres niveaux et directement ancrés dans les sections 3.3 et 3.4 du programme.

Enseignements

14B vs 8B sur le même corpus et le même embedding : le volume de paramètres paye sur la prudence

Le 14B se distingue du 8B par un comportement plus prudent face aux données manquantes. Là où le 8B hallucine 34 périodes en N0 sur Q5, le 14B admet son ignorance sur les trois niveaux. Cette sobriété épistémique est un avantage concret en contexte RAG pédagogique, où une réponse fausse mais crédible est plus dangereuse qu'un aveu de limitation.

N0 meilleur niveau global : résultat contre-intuitif à nuancer

Avec 3,67/5, N0 obtient le meilleur score moyen du test – résultat inhabituel qui contraste avec le test 8B où N1 dominait. Ce renversement s'explique en partie par le comportement du 14B sur Q4 en N0 : plus structuré et moins dans la confusion totale qu'un modèle plus petit. Le score N0 doit cependant être lu avec prudence : la question Q5 reste sans réponse ancrée, et les performances N0/N1 sont très proches (3,67 vs 3,50). La conversion TXT demeure recommandée en pratique pour la fiabilité sur les données tabulaires.

N2 instable : Markdown contre-productif sur les sections à tableaux d'attendus

Le niveau N2 (3,33/5) obtient le score le plus bas malgré de meilleures performances sur Q3 et Q6. La dégradation provient essentiellement de Q1, où le chunking Markdown fragmente les tableaux d'attendus annualisés qui constituent le coeur du référentiel. Ce résultat confirme le constat du test 8B : la conversion Markdown introduit une complexité structurelle que le retrieval bge-m3 gère moins bien sur les sections tabulaires denses.

Q4 : comportement légèrement meilleur en 14B qu'en 8B, mais problème de fond identique

Le 8B obtenait 1/5 sur Q4 sur tous les niveaux en confondant systématiquement les croisements interdisciplinaires avec la section “Éveil aux langues” du primaire. Le 14B fait légèrement mieux (2/5 en N0 et N2, 3/5 en N1) en produisant des réponses plus structurées et en identifiant partiellement les bonnes articulations (ECA, EAM, ErE DD en N1). La confusion de fond reste néanmoins présente sur les trois niveaux. Ce comportement partagé entre les deux modèles pointe vers un problème de retrieval structurel sur ce corpus plutôt qu'une limite propre au modèle.

Verdicts

N0 · ★★★★☆ · Pertinent sous conditions · meilleur score du test · usage avec supervision

3,67/5 en moyenne. Le 14B gère le PDF brut sans hallucination, ce qui le distingue favorablement du 8B. Q2 parfaite, Q1 et Q3 solides, Q6 bien couverte. Les faiblesses restent Q5 (données tabulaires non récupérées) et Q4 (confusion éveil primaire / croisements secondaire). Usage avec supervision recommandé sur ces deux types de questions.

N1 · ★★★☆☆ · Limité · fiable sur les sections rédigées · usage avec supervision

3,50/5 en moyenne. La conversion TXT améliore légèrement Q4 par rapport à N0, mais n'apporte pas de gain sur Q5. Profil homogène et prévisible. Recommandé comme niveau de déploiement de base pour ce corpus, avec supervision active sur les données chiffrées et les croisements disciplinaires.

N2 · ★★★☆☆ · Limité · profil inégal · excellent sur la pédagogie, faible sur les référentiels tabulaires

3,33/5 en moyenne. La préparation Markdown produit les meilleures réponses du test sur Q3 et Q6, mais dégrade significativement Q1. Ce profil inégal le rend moins fiable que N0 et N1 pour un usage généraliste. Recommandé uniquement pour des interrogations ciblées sur les sections méthodologiques et pédagogiques du programme, avec supervision systématique sur toute question portant sur les attendus annualisés ou les données horaires.

Ressources

Corpus et questionnaires utilisés · page Téléchargements


Votre organisation envisage de déployer de l'IA locale ? Comptoir Open Source accompagne les PME, associations et institutions dans la mise en place d'une infrastructure IA locale open source : sélection des modèles, configuration matérielle, déploiement des outils. comptoiropensource.org

tests/s2-fwb-francais_ministral-3-14b_serveur-ia.txt · Dernière modification : de cos