IA LAB

Laboratoire de tests IA open source

Outils pour utilisateurs

Outils du site


tests:s2-fwb-francais_ministral-3-14b_serveur-ia

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
tests:s2-fwb-francais_ministral-3-14b_serveur-ia [2026/05/22 08:47] costests:s2-fwb-francais_ministral-3-14b_serveur-ia [2026/05/22 09:50] (Version actuelle) cos
Ligne 41: Ligne 41:
 **Point critique · Q5 · aveu d'ignorance sur les trois niveaux** **Point critique · Q5 · aveu d'ignorance sur les trois niveaux**
  
-Aucun niveau ne restitue le tableau des périodes hebdomadaires (S1 : 6 périodes, S2 : 4 périodes, S3 : 4 périodes) pourtant présent aux pages 3-4 du corpus. Le modèle adopte un comportement cohérent et prudent en déclarant ne pas trouver l'information, sans halluciner -- ce qui justifie un score de 3/5 plutôt qu'un échec total. En N2, une estimation générique "4 à 6 heures selon les options" apparaît en guise d'exemple hors document, ce qui reste acceptable sans être une réponse ancrée. Ce raté systématique s'explique probablement par la position des tableaux en début de document, dans une zone de mise en page dense (colonnes, entêtes répétés) mal chunquée quel que soit le niveau de préparation.+Aucun niveau ne restitue le tableau des périodes hebdomadaires (S1 : 6 périodes, S2 : 4 périodes, S3 : 4 périodes) pourtant présent aux pages 3-4 du corpus. Le modèle adopte un comportement cohérent et prudent en déclarant ne pas trouver l'information, sans hallucinerce qui justifie un score de 3/5 plutôt qu'un échec total. En N2, une estimation générique "4 à 6 heures selon les options" apparaît en guise d'exemple hors document, ce qui reste acceptable sans être une réponse ancrée. Ce raté systématique s'explique probablement par la position des tableaux en début de document, dans une zone de mise en page dense (colonnes, entêtes répétés) mal chunquée quel que soit le niveau de préparation.
 </WRAP> </WRAP>
  
Ligne 47: Ligne 47:
 **Point critique · Q1 · régression inexpliquée en N2** **Point critique · Q1 · régression inexpliquée en N2**
  
-En N0 et N1, le modèle restitue correctement les compétences de fin de S3 depuis les pages 184-185 du programme (visées PARLER/ÉCOUTER/LIRE/ÉCRIRE, genres textuels, structures complexes). En N2, il admet ne pas trouver les attendus détaillés et renvoie au tableau synoptique de la section 4.2.3 -- réponse générée en 24 secondes seulement, signe que peu de contexte pertinent a été récupéré. Ce comportement paradoxal -- le niveau de préparation le plus élaboré produit le retrieval le plus pauvre sur cette question -- illustre la sensibilité du chunking Markdown sur un référentiel dont les tableaux d'attendus annualisés sont la structure centrale.+En N0 et N1, le modèle restitue correctement les compétences de fin de S3 depuis les pages 184-185 du programme. En N2, il admet ne pas trouver les attendus détaillés et renvoie au tableau synoptique de la section 4.2.3réponse générée en 24 secondes seulement, signe que peu de contexte pertinent a été récupéré. Ce comportement paradoxal le niveau de préparation le plus élaboréproduit le retrieval le plus pauvre sur cette question. Cela illustre la sensibilité du chunking Markdown sur un référentiel dont les tableaux d'attendus annualisés sont la structure centrale.
 </WRAP> </WRAP>
  
Ligne 53: Ligne 53:
 **Point critique · Q4 · confusion persistante sur les trois niveaux** **Point critique · Q4 · confusion persistante sur les trois niveaux**
  
-La question sur les liens entre français et disciplines d'éveil génère sur les trois niveaux la même confusion de fond : le modèle remonte la section "Éveil aux langues" du primaire (M1-P2, conscience phonologique, chansons multilingues) au lieu des croisements interdisciplinaires balisés dans le référentiel FRALA pour le secondaire (FHGES, ECA, EPC). En N0 et N2 (2/5), les réponses sont structurées et mentionnent les visées transversales (domaines 6-7-8), mais restent ancrées dans le mauvais niveau scolaire. En N1 (3/5), une amorce de liens disciplinaires corrects apparaît (ECA, EAM, ErE DD). Ce comportement est probablement lié à la dominance quantitative des sections "éveil" du primaire dans les résultats de recherche sémantique sur un corpus de 400 pages.+La question sur les liens entre français et disciplines d'éveil génère sur les trois niveaux la même confusion de fond : le modèle remonte la section "Éveil aux langues" du primaire (M1-P2, conscience phonologique, chansons multilingues) au lieu des croisements interdisciplinaires balisés dans le référentiel FRALA pour le secondaire. En N0 et N2 (2/5), les réponses sont structurées et mentionnent les visées transversales (domaines 6-7-8), mais restent ancrées dans le mauvais niveau scolaire. En N1 (3/5), une amorce de liens disciplinaires corrects apparaît (ECA, EAM, ErE DD). Ce comportement est probablement lié à la dominance quantitative des sections "éveil" du primaire dans les résultats de recherche sémantique sur un corpus de 400 pages.
 </WRAP> </WRAP>
  
tests/s2-fwb-francais_ministral-3-14b_serveur-ia.1779439676.txt.gz · Dernière modification : de cos