IA LAB

Laboratoire de tests IA open source

Outils pour utilisateurs

Outils du site


tests:s2-fwb-francais_ministral-3-14b_serveur-ia

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
tests:s2-fwb-francais_ministral-3-14b_serveur-ia [2026/05/22 08:36] costests:s2-fwb-francais_ministral-3-14b_serveur-ia [2026/05/22 09:50] (Version actuelle) cos
Ligne 41: Ligne 41:
 **Point critique · Q5 · aveu d'ignorance sur les trois niveaux** **Point critique · Q5 · aveu d'ignorance sur les trois niveaux**
  
-Aucun niveau ne restitue le tableau des périodes hebdomadaires (S1 : 6 périodes, S2 : 4 périodes, S3 : 4 périodes) pourtant présent aux pages 3-4 du corpus. Le modèle adopte un comportement cohérent et prudent en déclarant ne pas trouver l'information, sans halluciner -- ce qui justifie un score de 3/5 plutôt qu'un échec total. En N2, une estimation générique "4 à 6 heures selon les options" apparaît en guise d'exemple hors document, ce qui reste acceptable sans être une réponse ancrée. Ce raté systématique s'explique probablement par la position des tableaux en début de document, dans une zone de mise en page dense (colonnes, entêtes répétés) mal chunquée quel que soit le niveau de préparation. Comportement à contraster avec le test 8B en série 2, où N0 produisait une hallucination chiffrée (34 périodes) -- ici le 14B préfère l'honnêteté à la confabulation.+Aucun niveau ne restitue le tableau des périodes hebdomadaires (S1 : 6 périodes, S2 : 4 périodes, S3 : 4 périodes) pourtant présent aux pages 3-4 du corpus. Le modèle adopte un comportement cohérent et prudent en déclarant ne pas trouver l'information, sans hallucinerce qui justifie un score de 3/5 plutôt qu'un échec total. En N2, une estimation générique "4 à 6 heures selon les options" apparaît en guise d'exemple hors document, ce qui reste acceptable sans être une réponse ancrée. Ce raté systématique s'explique probablement par la position des tableaux en début de document, dans une zone de mise en page dense (colonnes, entêtes répétés) mal chunquée quel que soit le niveau de préparation.
 </WRAP> </WRAP>
  
Ligne 47: Ligne 47:
 **Point critique · Q1 · régression inexpliquée en N2** **Point critique · Q1 · régression inexpliquée en N2**
  
-En N0 et N1, le modèle restitue correctement les compétences de fin de S3 depuis les pages 184-185 du programme (visées PARLER/ÉCOUTER/LIRE/ÉCRIRE, genres textuels, structures complexes). En N2, il admet ne pas trouver les attendus détaillés et renvoie au tableau synoptique de la section 4.2.3 -- réponse générée en 24 secondes seulement, signe que peu de contexte pertinent a été récupéré. Ce comportement paradoxal -- le niveau de préparation le plus élaboré produit le retrieval le plus pauvre sur cette question -- illustre la sensibilité du chunking Markdown sur un référentiel dont les tableaux d'attendus annualisés sont la structure centrale.+En N0 et N1, le modèle restitue correctement les compétences de fin de S3 depuis les pages 184-185 du programme. En N2, il admet ne pas trouver les attendus détaillés et renvoie au tableau synoptique de la section 4.2.3réponse générée en 24 secondes seulement, signe que peu de contexte pertinent a été récupéré. Ce comportement paradoxal le niveau de préparation le plus élaboréproduit le retrieval le plus pauvre sur cette question. Cela illustre la sensibilité du chunking Markdown sur un référentiel dont les tableaux d'attendus annualisés sont la structure centrale.
 </WRAP> </WRAP>
  
Ligne 53: Ligne 53:
 **Point critique · Q4 · confusion persistante sur les trois niveaux** **Point critique · Q4 · confusion persistante sur les trois niveaux**
  
-La question sur les liens entre français et disciplines d'éveil génère sur les trois niveaux la même confusion de fond : le modèle remonte la section "Éveil aux langues" du primaire (M1-P2, conscience phonologique, chansons multilingues) au lieu des croisements interdisciplinaires balisés dans le référentiel FRALA pour le secondaire (FHGES, ECA, EPC). En N0 et N2 (2/5), les réponses sont structurées et mentionnent les visées transversales (domaines 6-7-8), mais restent ancrées dans le mauvais niveau scolaire. En N1 (3/5), une amorce de liens disciplinaires corrects apparaît (ECA, EAM, ErE DD). Ce comportement est probablement lié à la dominance quantitative des sections "éveil" du primaire dans les résultats de recherche sémantique sur un corpus de 400 pages.+La question sur les liens entre français et disciplines d'éveil génère sur les trois niveaux la même confusion de fond : le modèle remonte la section "Éveil aux langues" du primaire (M1-P2, conscience phonologique, chansons multilingues) au lieu des croisements interdisciplinaires balisés dans le référentiel FRALA pour le secondaire. En N0 et N2 (2/5), les réponses sont structurées et mentionnent les visées transversales (domaines 6-7-8), mais restent ancrées dans le mauvais niveau scolaire. En N1 (3/5), une amorce de liens disciplinaires corrects apparaît (ECA, EAM, ErE DD). Ce comportement est probablement lié à la dominance quantitative des sections "éveil" du primaire dans les résultats de recherche sémantique sur un corpus de 400 pages.
 </WRAP> </WRAP>
  
Ligne 71: Ligne 71:
 **Comportement notable · Q6 · montée en qualité en N2** **Comportement notable · Q6 · montée en qualité en N2**
  
-La question sur l'évaluation des élèves en difficulté obtient 4/5 en N0 et N1, et 5/5 en N2. Le saut qualitatif en N2 est réel : le modèle ajoute la pondération évaluation sommative (60 % tâches de transfert / 40 % savoirs), la notion d'alignement pédagogique, la zone proximale de développement, la distinction différenciation active / passive et la collaboration avec les parents. Des éléments absents des deux autres niveaux et directement ancrés dans les sections 3.3 et 3.4 du programme.+La question sur l'évaluation des élèves en difficulté obtient 4/5 en N0 et N1, et 5/5 en N2. Le saut qualitatif en N2 est réel : le modèle ajoute la pondération évaluation sommative, la notion d'alignement pédagogique, la zone proximale de développement, la distinction différenciation active / passive et la collaboration avec les parents. Des éléments absents des deux autres niveaux et directement ancrés dans les sections 3.3 et 3.4 du programme.
 </WRAP> </WRAP>
  
Ligne 79: Ligne 79:
 **14B vs 8B sur le même corpus et le même embedding : le volume de paramètres paye sur la prudence** **14B vs 8B sur le même corpus et le même embedding : le volume de paramètres paye sur la prudence**
  
-Le 14B se distingue du 8B par un comportement plus prudent face aux données manquantes. Là où le 8B hallucine 34 périodes en N0 sur Q5, le 14B admet son ignorance sur les trois niveaux. Cette sobriété épistémique est un avantage concret en contexte RAG pédagogique, où une réponse fausse confiante est plus dangereuse qu'un aveu de limitation. Les scores moyens restent comparables (14B : 3,33-3,67 / 8B : 2,83-3,50), mais le profil de risque du 14B est plus favorable.+Le 14B se distingue du 8B par un comportement plus prudent face aux données manquantes. Là où le 8B hallucine 34 périodes en N0 sur Q5, le 14B admet son ignorance sur les trois niveaux. Cette sobriété épistémique est un avantage concret en contexte RAG pédagogique, où une réponse fausse mais crédible est plus dangereuse qu'un aveu de limitation.
 </WRAP> </WRAP>
  
Ligne 103: Ligne 103:
  
 <WRAP round box> <WRAP round box>
-**N0 · ★★★★☆ · Correct · meilleur score du test · usage avec supervision**+**N0 · ★★★★☆ · Pertinent sous conditions · meilleur score du test · usage avec supervision**
  
 3,67/5 en moyenne. Le 14B gère le PDF brut sans hallucination, ce qui le distingue favorablement du 8B. Q2 parfaite, Q1 et Q3 solides, Q6 bien couverte. Les faiblesses restent Q5 (données tabulaires non récupérées) et Q4 (confusion éveil primaire / croisements secondaire). Usage avec supervision recommandé sur ces deux types de questions. 3,67/5 en moyenne. Le 14B gère le PDF brut sans hallucination, ce qui le distingue favorablement du 8B. Q2 parfaite, Q1 et Q3 solides, Q6 bien couverte. Les faiblesses restent Q5 (données tabulaires non récupérées) et Q4 (confusion éveil primaire / croisements secondaire). Usage avec supervision recommandé sur ces deux types de questions.
tests/s2-fwb-francais_ministral-3-14b_serveur-ia.1779438968.txt.gz · Dernière modification : de cos