Mathématiques

Résolution de problèmes et raisonnement mathématique

5 tâches · 18 modèles testés · 90 résultats

Preuve formelle

text
anthropic claude-haiku-4-5-20251001
10.0/10 3.0 s
anthropic claude-haiku-4-5-20251001
Tokens 857
Code source 637 B
Temps 3.0 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
10
Complétude
10
Fidélité
10
Global
10
Revue
La démonstration est mathématiquement parfaite et d'une grande rigueur. Le modèle respecte scrupuleusement toutes les contraintes : format Markdown, utilisation de LaTeX, absence de préambule et respect de la limite de mots. La structure est concise et efficace.
anthropic claude-opus-4-6
9.4/10 8.3 s
anthropic claude-opus-4-6
Tokens 889
Code source 652 B
Temps 8.3 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
9
Complétude
10
Fidélité
9
Global
9.38
Revue
La preuve est mathématiquement irréprochable : toutes les étapes sont correctement justifiées, l'hypothèse d'irréductibilité est posée explicitement, la contradiction est clairement identifiée et la conclusion est formelle. La notation LaTeX est bien utilisée avec `\dfrac`, `\mathbb{Z}`, `\pgcd`, `\blacksquare`, bien que `\pgcd` ne soit pas une commande LaTeX standard (on utilise habituellement `\gcd` ou `\text{pgcd}`), ce qui constitue un léger défaut. Le format markdown respecte bien les exigences (titre `##`, étapes numérotées, LaTeX inline) et la longueur est conforme (~120 mots), sans préambule superflu.
anthropic claude-opus-4-7
10.0/10 6.0 s
anthropic claude-opus-4-7
Tokens 1 129
Code source 684 B
Temps 6.0 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
10
Complétude
10
Fidélité
10
Global
10
Revue
La démonstration est mathématiquement irréprochable et parfaitement rigoureuse. Le modèle respecte scrupuleusement toutes les contraintes du prompt : le format Markdown est correct, l'usage de LaTeX est impeccable, l'absence de préambule est respectée et la longueur est idéale (environ 100 mots). La structure est claire et concise comme demandé.
anthropic claude-sonnet-4-6
9.4/10 5.1 s
anthropic claude-sonnet-4-6
Tokens 881
Code source 605 B
Temps 5.1 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
9
Complétude
10
Fidélité
9
Global
9.38
Revue
La preuve est mathématiquement irréprochable, couvrant toutes les étapes nécessaires avec une rigueur exemplaire. Le format markdown est respecté (titre ## , étapes numérotées, LaTeX correct), sans préambule. La longueur est légèrement en-dessous de 120 mots mais reste dans l'esprit 'très concise'. La commande `\pgcd` est non-standard en LaTeX vanilla (devrait être `\gcd` ou définie), ce qui minore légèrement la note de notation.
cohere command-r-08-2024
8.6/10 5.3 s
cohere command-r-08-2024
Tokens 590
Code source 630 B
Temps 5.3 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
9
Complétude
9
Fidélité
8
Global
8.63
Revue
La démonstration est mathématiquement correcte et rigoureuse, avec toutes les étapes clés bien présentes et la contradiction clairement explicitée. Le format markdown est respecté avec le titre `##` et les étapes numérotées, et le LaTeX est bien utilisé. Cependant, le texte introductif avant les étapes numérotées n'est pas lui-même intégré dans la liste, et la longueur (~120 mots) est légèrement dépassée, ce qui constitue un petit écart de fidélité au prompt.
google gemini-flash-latest
8.5/10 8.0 s
google gemini-flash-latest
Tokens 792
Code source 877 B
Temps 8.0 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
10
Complétude
10
Fidélité
7
Global
8.5
Revue
La démonstration est mathématiquement parfaite, rigoureuse et complète, avec toutes les étapes logiques bien justifiées et une notation LaTeX impeccable. Cependant, la fidélité au prompt est pénalisée : le texte généré dépasse largement les ~120 mots demandés (environ 190 mots), ce qui constitue un écart notable à la contrainte de concision explicitement formulée.
google gemini-flash-lite-latest
7.6/10 3.8 s
google gemini-flash-lite-latest
Tokens 719
Code source 626 B
Temps 3.8 s
Jugement Matania
Exactitude
9
Rigueur
8
Notation
9
Complétude
7
Fidélité
7
Global
7.63
Revue
La preuve est mathématiquement correcte et bien notée en LaTeX, suivant les conventions standards. Cependant, la conclusion explicite (contradiction avec l'hypothèse d'irréductibilité, donc √2 est irrationnel) est absente — la démonstration s'arrête juste avant la conclusion formelle, ce qui nuit à la complétude. En termes de fidélité, le format markdown est respecté (titre ## et étapes numérotées), mais le texte dépasse légèrement 120 mots et manque la conclusion finale qui clôt le raisonnement par l'absurde.
kimi moonshot-v1-128k
7.8/10 6.8 s
kimi moonshot-v1-128k
Tokens 650
Code source 868 B
Temps 6.8 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
8
Complétude
10
Fidélité
6
Global
7.75
Revue
Le raisonnement mathématique est parfaitement rigoureux et exact. Cependant, le modèle échoue sur deux points de fidélité : il laisse une erreur de syntaxe dans l'étape 1 ('a
eq ,') et le formatage LaTeX est légèrement incomplet ou maladroit dans cette même étape. La concision est respectée, mais la présence de cette erreur de frappe dans une démonstration formelle est pénalisante.
mistral mistral-large-latest
8.3/10 4.9 s
mistral mistral-large-latest
Tokens 644
Code source 847 B
Temps 4.9 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
9
Fidélité
7
Global
8.25
Revue
La démonstration est mathématiquement correcte et rigoureuse, avec toutes les étapes logiques bien justifiées et une notation LaTeX soignée. Cependant, la réponse est tronquée ('$\sqrt{2}$ est ir'), ce qui indique une coupure en milieu de mot, nuisant à la complétude et surtout à la fidélité au prompt. La longueur semble dépasser légèrement les ~120 mots demandés, et la conclusion est incomplète, ce qui constitue un écart notable par rapport aux contraintes explicites.
mistral mistral-small-latest
8.0/10 2.2 s
mistral mistral-small-latest
Tokens 636
Code source 814 B
Temps 2.2 s
Jugement Matania
Exactitude
9
Rigueur
9
Notation
9
Complétude
9
Fidélité
7
Global
8
Revue
La preuve est mathématiquement correcte et rigoureuse, avec toutes les étapes clés bien justifiées et une notation LaTeX propre. Cependant, la réponse est tronquée en plein milieu du mot 'irrationnel' à la conclusion, ce qui indique une coupure du texte généré — cela nuit à la fidélité et à la complétude. Par ailleurs, la longueur (~160 mots) dépasse légèrement les ~120 mots demandés.
mistral mistral-tiny-latest
7.0/10 3.7 s
mistral mistral-tiny-latest
Tokens 693
Code source 1.0 KB
Temps 3.7 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
8
Complétude
9
Fidélité
5
Global
7
Revue
La preuve est mathématiquement correcte et rigoureuse, couvrant toutes les étapes nécessaires. Cependant, la fidélité au prompt souffre de plusieurs problèmes : le titre est littéralement '## Titre' au lieu d'un vrai titre descriptif, et le texte est trop long (~160 mots au lieu de ~120), avec un préambule ('Soit x = √2. Nous allons démontrer...') explicitement interdit. La notation LaTeX est correcte mais basique.
openai gpt-4o-mini
7.8/10 5.0 s
openai gpt-4o-mini
Tokens 618
Code source 742 B
Temps 5.0 s
Jugement Matania
Exactitude
9
Rigueur
9
Notation
7
Complétude
9
Fidélité
7
Global
7.75
Revue
La démonstration est mathématiquement correcte et rigoureuse, couvrant toutes les étapes clés de la preuve par l'absurde. Cependant, il y a une faute de notation LaTeX notable : '$q \neq $' est incomplet (manque le '0'), ce qui nuit à la qualité de la notation. Concernant la fidélité au prompt, le titre est trop long (non concis), et le texte dépasse légèrement les ~120 mots demandés, mais le format markdown avec étapes numérotées est bien respecté.
openai gpt-5.4-nano
9.8/10 2.5 s
openai gpt-5.4-nano
Tokens 587
Code source 617 B
Temps 2.5 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
9
Complétude
10
Fidélité
10
Global
9.75
Revue
La preuve est mathématiquement correcte et complète, couvrant toutes les étapes essentielles sans saut logique. La notation LaTeX est bien utilisée et les formules sont lisibles. Le format markdown respecte exactement les consignes (titre avec ##, étapes numérotées, pas de préambule) et la longueur est appropriée (~120 mots).
openai gpt-5.5
10.0/10 5.9 s
openai gpt-5.5
Tokens 593
Code source 641 B
Temps 5.9 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
10
Complétude
10
Fidélité
10
Global
10
Revue
La démonstration est mathématiquement parfaite et respecte scrupuleusement toutes les contraintes du prompt. Le format Markdown est correct, la notation LaTeX est impeccable, et la longueur est idéale (environ 110 mots), respectant la consigne de concision sans sacrifier la rigueur.
openai gpt-5.5-pro
10.0/10 18.0 s
openai gpt-5.5-pro
Tokens 588
Code source 622 B
Temps 18.0 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
10
Complétude
10
Fidélité
10
Global
10
Revue
La démonstration est mathématiquement parfaite et d'une grande rigueur. Toutes les contraintes du prompt sont respectées : le format Markdown est correct, l'utilisation de LaTeX est impeccable, et la longueur est parfaitement calibrée pour être concise tout en étant complète.
productivia matania-latest
10.0/10 2.8 s
productivia matania-latest
Tokens 673
Code source 961 B
Temps 2.8 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
10
Complétude
10
Fidélité
10
Global
10
Revue
La démonstration est mathématiquement irréprochable, rigoureuse et complète. Le modèle respecte scrupuleusement toutes les contraintes de formatage (Markdown, LaTeX), de structure (titre, étapes numérotées) et de concision demandées. La longueur est idéale et aucun préambule n'a été inclus.
xai grok-4-1-fast-non-reasoning
9.1/10 2.3 s
xai grok-4-1-fast-non-reasoning
Tokens 549
Code source 467 B
Temps 2.3 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
8
Complétude
10
Fidélité
9
Global
9.13
Revue
La preuve est mathématiquement correcte et complète, couvrant toutes les étapes logiques sans saut. La notation LaTeX est globalement bonne, mais 'pgcd' devrait idéalement être formaté en LaTeX comme '\gcd' ou '\pgcd' (macro custom) plutôt qu'en texte brut. Le format markdown respecte bien les exigences (titre H2, étapes numérotées, pas de préambule), et la longueur est conforme (~120 mots).
xai grok-4-1-fast-reasoning
8.1/10 6.4 s
xai grok-4-1-fast-reasoning
Tokens 574
Code source 565 B
Temps 6.4 s
Jugement Matania
Exactitude
9
Rigueur
8
Notation
7
Complétude
9
Fidélité
8
Global
8.13
Revue
La preuve est mathématiquement correcte et suit la structure classique avec toutes les étapes clés présentes. Il y a une petite erreur de LaTeX à l'étape 1 ('$q \neq $' au lieu de '$q \neq 0$'), ce qui nuit à la notation. Le format markdown est respecté (titre ## + étapes numérotées, LaTeX utilisé), la longueur est conforme (~120 mots), et l'absence de préambule est respectée.

Combinatoire

text
anthropic claude-haiku-4-5-20251001
10.0/10 3.0 s
anthropic claude-haiku-4-5-20251001
Tokens 891
Code source 679 B
Temps 3.0 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
10
Complétude
10
Fidélité
10
Global
10
Revue
Le modèle a parfaitement respecté toutes les consignes. Le raisonnement mathématique est irréprochable (utilisation correcte de la division par $n!$ pour compenser l'ordre des paires), la notation LaTeX est impeccable et le format Markdown est strictement conforme au prompt. La longueur est également idéale, respectant la contrainte de concision.
anthropic claude-opus-4-6
9.5/10 6.3 s
anthropic claude-opus-4-6
Tokens 796
Code source 516 B
Temps 6.3 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
10
Complétude
10
Fidélité
9
Global
9.5
Revue
Le résultat (10 395) est correct et les deux approches (double factorielle et formule générale) sont parfaitement justifiées avec une notation LaTeX irréprochable. La réponse respecte très bien le format demandé (titre ##, étapes numérotées, conclusion en gras), mais dépasse légèrement la contrainte de ~100 mots — ce léger écart justifie une petite pénalité sur la fidélité.
anthropic claude-opus-4-7
9.8/10 4.5 s
anthropic claude-opus-4-7
Tokens 1 031
Code source 536 B
Temps 4.5 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
9
Fidélité
10
Global
9.75
Revue
Le résultat est mathématiquement exact (10395 = 11!! = 12!/(2^6·6!)) et la démarche est rigoureuse avec une justification claire du double comptage implicite. La notation LaTeX est correcte et lisible, le format markdown respecte scrupuleusement les consignes (titre H2, étapes numérotées, conclusion en gras). La longueur est bien dans la cible des ~100 mots.
anthropic claude-sonnet-4-6
9.3/10 5.2 s
anthropic claude-sonnet-4-6
Tokens 794
Code source 572 B
Temps 5.2 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
9
Fidélité
9
Global
9.25
Revue
Le résultat 10 395 est mathématiquement correct, et le raisonnement en 5 étapes est clair et bien justifié (division par 2^6 pour l'ordre interne des paires, par 6! pour l'ordre des paires). La notation LaTeX est propre et lisible. Le format markdown respecte bien le titre avec `##`, les étapes numérotées et la conclusion en gras. La longueur est légèrement en dessous de 100 mots mais reste dans l'esprit 'concis' demandé — la contrainte de format est globalement bien respectée.
cohere command-r-08-2024
3.4/10 19.5 s
cohere command-r-08-2024
Tokens 670
Code source 884 B
Temps 19.5 s
Jugement Matania
Exactitude
1
Rigueur
1
Notation
3
Complétude
2
Fidélité
5
Global
3.38
Revue
La réponse est mathématiquement incorrecte : le bon résultat est 10395 (calculé par la formule 12!/(2^6 × 6!) = 10395), or le modèle aboutit à 336 via un raisonnement incohérent et truffé d'erreurs (étapes 2-4 incompréhensibles, produit 12×1×8×6×4×2 incorrect, puis la formule finale 12!/(6!×6!) correspond aux combinaisons C(12,6) = 924, pas aux appariements). Le raisonnement manque de rigueur : il faut diviser par 2^6 pour tenir compte du fait que l'ordre au sein de chaque paire n'a pas d'importance, et par 6! pour l'ordre des paires. La notation LaTeX est partiellement correcte mais les calculs affichés sont faux. Le format markdown est globalement respecté (titre, étapes numérotées, **Résultat** en gras) mais la longueur dépasse légèrement et la structure est confuse.
google gemini-flash-latest
9.3/10 11.0 s
google gemini-flash-latest
Tokens 703
Code source 751 B
Temps 11.0 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
9
Fidélité
9
Global
9.25
Revue
Le résultat est mathématiquement correct (10 395) et le raisonnement est rigoureux, présentant à la fois la méthode inductive et la formule générale. La notation LaTeX est propre et lisible. Le format markdown respecte bien les consignes (titre avec ##, étapes numérotées, conclusion en gras), et la longueur est dans la cible (~100 mots). Légère pénalité sur la fidélité car la conclusion en gras devrait idéalement être étiquetée '**Résultat**' seul (sans les deux points et la valeur intégrée), mais c'est une interprétation très proche du format demandé.
google gemini-flash-lite-latest
9.1/10 2.9 s
google gemini-flash-lite-latest
Tokens 718
Code source 659 B
Temps 2.9 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
9
Complétude
9
Fidélité
9
Global
9.13
Revue
Le résultat final (10 395) est mathématiquement correct et la formule $\frac{12!}{2^6 \times 6!}$ est bien justifiée. Le raisonnement est rigoureux et complet, avec des étapes clairement numérotées et une explication de pourquoi on divise par $6!$. Le format markdown respecte bien les exigences (titre avec `##`, étapes numérotées, conclusion en gras), la notation LaTeX est correcte et lisible. La longueur est légèrement concise mais dans les normes des ~100 mots demandés.
kimi moonshot-v1-128k
7.4/10 5.6 s
kimi moonshot-v1-128k
Tokens 672
Code source 899 B
Temps 5.6 s
Jugement Matania
Exactitude
2
Rigueur
3
Notation
10
Complétude
4
Fidélité
10
Global
7.38
Revue
Le modèle a commis une erreur mathématique fondamentale de combinatoire : il a calculé le nombre de paires possibles parmi 12 joueurs (12C2), alors que la question demandait le nombre d'appariements complets pour un tournoi (le nombre de partitions de l'ensemble en 6 paires, soit 11!! = 10 395). Le format, la notation LaTeX et le respect des contraintes de style sont parfaits, mais le raisonnement est erroné pour le problème posé.
mistral mistral-large-latest
9.1/10 5.6 s
mistral mistral-large-latest
Tokens 624
Code source 706 B
Temps 5.6 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
9
Complétude
9
Fidélité
9
Global
9.13
Revue
Le résultat 10 395 est mathématiquement correct, correspondant à 12!/(2^6 × 6!). Le raisonnement est rigoureux et bien structuré en étapes numérotées avec justification de la division par 6!. Le format markdown est respecté avec le titre ##, les étapes numérotées et la conclusion en gras **Résultat**, et la notation LaTeX est correcte et lisible. La longueur est légèrement concise mais conforme (~100 mots), avec une légère imprécision sur le terme 'non ordonnées' qui aurait pu être mieux expliqué.
mistral mistral-small-latest
8.1/10 2.2 s
mistral mistral-small-latest
Tokens 577
Code source 515 B
Temps 2.2 s
Jugement Matania
Exactitude
10
Rigueur
7
Notation
9
Complétude
7
Fidélité
8
Global
8.13
Revue
Le résultat final 10395 est correct (12!/(2^6 × 6!) = 10395), mais le texte affiche '1 395' au lieu de '10 395', ce qui est une erreur numérique dans la conclusion — toutefois la formule est juste. Le raisonnement est globalement correct mais l'étape 3 explique mal pourquoi on divise par 2^6 (elle mentionne l'indistinction des paires mais confond avec l'ordre interne des paires), et l'étape 1-2 ne suffit pas à justifier complètement la construction. Le format markdown est respecté (titre ##, étapes numérotées, **Résultat** en gras, LaTeX), et la longueur est approximativement conforme (~100 mots).
mistral mistral-tiny-latest
4.4/10 2.7 s
mistral mistral-tiny-latest
Tokens 636
Code source 755 B
Temps 2.7 s
Jugement Matania
Exactitude
1
Rigueur
2
Notation
6
Complétude
2
Fidélité
6
Global
4.38
Revue
Le résultat est mathématiquement incorrect : le problème demande le nombre d'appariements complets de 12 joueurs en 6 paires, soit 10395 (= 11!! = 11×9×7×5×3×1), et non simplement C(12,2)=66 qui ne compte qu'une seule paire. Le raisonnement est donc fondamentalement erroné, confondant le choix d'une paire avec un appariement complet. La notation LaTeX est correcte bien que 'binomialaire' et 'facteurielle' soient des fautes de langue. Le format markdown respecte le titre et la conclusion en gras, mais l'absence du résultat correct pénalise l'ensemble.
openai gpt-4o-mini
8.3/10 3.5 s
openai gpt-4o-mini
Tokens 570
Code source 488 B
Temps 3.5 s
Jugement Matania
Exactitude
10
Rigueur
8
Notation
9
Complétude
7
Fidélité
8
Global
8.25
Revue
Le résultat final de 10395 est mathématiquement correct. Le raisonnement est globalement solide mais manque d'une explication intermédiaire explicitant pourquoi on divise par 2^k * k! (non-distinction de l'ordre dans les paires et non-distinction de l'ordre des paires entre elles). La notation LaTeX est propre et lisible. Concernant la fidélité, le format markdown est respecté (titre ##, étapes numérotées, conclusion en gras **Résultat**), mais la longueur est un peu courte par rapport aux ~100 mots demandés.
openai gpt-5.4-nano
8.9/10 2.7 s
openai gpt-5.4-nano
Tokens 617
Code source 676 B
Temps 2.7 s
Jugement Matania
Exactitude
10
Rigueur
8
Notation
9
Complétude
8
Fidélité
9
Global
8.88
Revue
Le résultat final 10 395 est correct et la formule 12!/(2^6 · 6!) est exacte. Le raisonnement est bien structuré avec des étapes numérotées, une explication du surcomptage claire, bien que l'étape 2 soit légèrement redondante. Le format markdown est respecté (titre ##, étapes numérotées, conclusion en gras, LaTeX), et la longueur est dans les ~100 mots demandés.
openai gpt-5.5
10.0/10 5.7 s
openai gpt-5.5
Tokens 584
Code source 544 B
Temps 5.7 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
10
Complétude
10
Fidélité
10
Global
10
Revue
Le modèle respecte parfaitement toutes les consignes. Le raisonnement mathématique est irréprochable, la notation LaTeX est correctement appliquée et le formatage Markdown est conforme au prompt. La longueur est concise et respecte la contrainte d'environ 100 mots.
openai gpt-5.5-pro
10.0/10 36.7 s
openai gpt-5.5-pro
Tokens 581
Code source 533 B
Temps 36.7 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
10
Complétude
10
Fidélité
10
Global
10
Revue
Le modèle a parfaitement respecté toutes les contraintes du prompt. Le raisonnement mathématique est rigoureux et exact, la notation LaTeX est impeccable, et le formatage markdown (titre, étapes, conclusion en gras) est strictement conforme aux instructions. La longueur est concise et optimale.
productivia matania-latest
10.0/10 2.5 s
productivia matania-latest
Tokens 677
Code source 917 B
Temps 2.5 s
Jugement Matania
Exactitude
10
Rigueur
10
Notation
10
Complétude
10
Fidélité
10
Global
10
Revue
Le modèle a parfaitement respecté toutes les contraintes. Le raisonnement mathématique est rigoureux et exact (utilisation correcte de la division par n! pour les ensembles non ordonnés), la notation LaTeX est impeccable, et le formatage respecte scrupuleusement les directives de structure et de longueur demandées.
xai grok-4-1-fast-non-reasoning
9.6/10 2.2 s
xai grok-4-1-fast-non-reasoning
Tokens 625
Code source 711 B
Temps 2.2 s
Jugement Matania
Exactitude
10
Rigueur
8
Notation
10
Complétude
9
Fidélité
10
Global
9.63
Revue
Le résultat mathématique est exact et la notation LaTeX est parfaitement appliquée. Le raisonnement est solide, bien que l'étape 4 introduise une confusion de rédaction (le modèle mélange le calcul par produit de choix impairs et la division par les permutations), mais cela reste mathématiquement cohérent. Toutes les contraintes de formatage et de longueur sont respectées.
xai grok-4-1-fast-reasoning
9.3/10 4.6 s
xai grok-4-1-fast-reasoning
Tokens 545
Code source 388 B
Temps 4.6 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
9
Fidélité
9
Global
9.25
Revue
Le résultat 10 395 est mathématiquement correct et la formule est bien justifiée en trois étapes logiques claires. La notation LaTeX est propre et lisible, avec un calcul numérique explicite. Le format markdown respecte les consignes (titre `##`, étapes numérotées, conclusion en gras), mais la longueur est légèrement inférieure à ~100 mots (environ 70 mots), ce qui constitue un petit écart à la contrainte de longueur.

Géométrie avancée

text
anthropic claude-haiku-4-5-20251001
9.9/10 3.1 s
anthropic claude-haiku-4-5-20251001
Tokens 1 013
Code source 731 B
Temps 3.1 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.88
Revue
Le modèle a parfaitement respecté toutes les consignes. Les calculs mathématiques sont exacts, la notation LaTeX est impeccable et le format Markdown est conforme. La concision est idéale, respectant la limite de mots tout en fournissant les formules demandées.
anthropic claude-opus-4-6
8.4/10 7.8 s
anthropic claude-opus-4-6
Tokens 987
Code source 748 B
Temps 7.8 s
Jugement Matania
Exactitude
9
Rigueur
8
Notation
9
Complétude
9
Fidélité
8
Global
8.38
Revue
Les calculs sont essentiellement corrects : aire=84, r=4, R=65/8, et les trois médianes sont bien calculées avec la bonne formule. La notation LaTeX est propre et lisible. La structure markdown respecte le format demandé avec titre ##, liste à puces et une sous-section ### pour les médianes, légèrement en excès par rapport au format 'liste à puces' pur demandé mais acceptable. La longueur est légèrement supérieure à ~120 mots mais reste concise. On note que √(2×196+2×225-169) = √(392+450-169) = √673 est correct, et 2√37 ≈ 12,17 est juste (√592 = √(4×148) = 2√148, non 2√37 — c'est une légère erreur : √148 ≠ √37). Cette imprécision mineure affecte légèrement correctness et rigor.
anthropic claude-opus-4-7
8.0/10 6.5 s
anthropic claude-opus-4-7
Tokens 1 310
Code source 765 B
Temps 6.5 s
Jugement Matania
Exactitude
7
Rigueur
8
Notation
8
Complétude
9
Fidélité
8
Global
8
Revue
Les valeurs principales (aire=84, r=4, R=65/8) sont correctes. Cependant, la médiane m_b est mal simplifiée : (1/2)√(450+338-196) = (1/2)√592 = √148 ≈ 12,17, pas √148,5 — il y a une erreur de calcul intermédiaire (338 au lieu de 338 pour 2×169=338, et 2×225=450, 450+338-196=592, donc (1/2)√592 = √148 ≈ 12,166). La notation LaTeX est globalement propre et lisible, la formule de Héron est bien explicitée. Le format markdown est respecté (## titre, liste à puces, LaTeX), la longueur est concise et conforme aux ~120 mots demandés.
anthropic claude-sonnet-4-6
7.9/10 8.4 s
anthropic claude-sonnet-4-6
Tokens 1 051
Code source 878 B
Temps 8.4 s
Jugement Matania
Exactitude
7
Rigueur
8
Notation
7
Complétude
9
Fidélité
8
Global
7.88
Revue
Les résultats principaux (aire=84, r=4, R=65/8) sont corrects. Cependant, la médiane m_{13} est mal simplifiée : √648 = 6√18 = 18√2, donc m_{13} = 9√2 ≈ 12,73, mais l'écriture '9√8/2' est fausse (9√8/2 = 9·2√2/2 = 9√2, numériquement juste mais mal écrite). Pour m_{15}: 2(169)+2(196)-225 = 338+392-225 = 505, pas 453 — c'est une erreur de calcul (453 correspond à 2·169+2·196-225 = 505, non 453). La notation LaTeX est globalement bonne avec quelques redondances. Le format markdown est respecté (titre ##, liste à puces, LaTeX), et la longueur est raisonnable (~120 mots).
cohere command-r-08-2024
3.5/10 34.4 s
cohere command-r-08-2024
Tokens 577
Code source 514 B
Temps 34.4 s
Jugement Matania
Exactitude
1
Rigueur
1
Notation
4
Complétude
2
Fidélité
5
Global
3.5
Revue
Les valeurs numériques sont massivement incorrectes : l'aire réelle est 84 (via Héron avec s=21), non ~81,87 ; la formule de l'aire utilisée (½·13·14·sin(6°)) est fausse et incohérente. Le périmètre est 42 mais le demi-périmètre s=21 doit être utilisé pour r=Aire/s=4, non ~3,27. Le rayon circonscrit est 65/8=8,125, non ~5,9. Les médianes sont complètement erronées (elles ne valent pas 2/3 du côté correspondant) : les valeurs correctes sont m_a≈13,0, m_b≈12,0, m_c≈7,5 via la formule de la médiane. La notation LaTeX est partiellement correcte mais les formules elles-mêmes sont fausses. Le format markdown avec titre et liste à puces est respecté mais la longueur et la structure sont approximativement conformes.
google gemini-flash-latest
8.9/10 9.8 s
google gemini-flash-latest
Tokens 840
Code source 772 B
Temps 9.8 s
Jugement Matania
Exactitude
9
Rigueur
8
Notation
9
Complétude
9
Fidélité
9
Global
8.88
Revue
Les valeurs mathématiques sont quasi-toutes correctes : aire=84, r=4, R=65/8≈8,125, et les trois médianes sont exactes (m_a=√673/2≈12,97, m_b=2√37≈12,17, m_c=√505/2≈11,24). La notation LaTeX est propre et lisible. Le format markdown respecte bien la contrainte (## titre + liste à puces), les formules courtes sont présentes sans démonstration longue, et la longueur est dans la cible (~120 mots). Une légère imprécision dans la convention de notation des médianes (m_a désigne la médiane issue de A, donc relative au côté opposé a=13, ce qui est cohérent ici) mais sans erreur réelle.
google gemini-flash-lite-latest
7.5/10 3.1 s
google gemini-flash-lite-latest
Tokens 976
Code source 923 B
Temps 3.1 s
Jugement Matania
Exactitude
7
Rigueur
8
Notation
8
Complétude
9
Fidélité
7
Global
7.5
Revue
Les résultats principaux (aire=84, r=4, R=8.125) sont corrects, mais les médianes présentent des erreurs de calcul : m_a devrait être √(2×196+2×225-169)/2 = √(392+450-169)/2 = √673/2 ≈ 12.98, pas √725/2; m_b = √(338+450-196)/2 = √592/2 ≈ 12.17; m_c = √(338+392-225)/2 = √505/2 ≈ 11.23 — toutes trois incorrectes. La notation LaTeX est propre et lisible, le format markdown est respecté avec titre et liste à puces, mais le texte dépasse légèrement les ~120 mots demandés (environ 150 mots).
kimi moonshot-v1-128k
9.6/10 8.6 s
kimi moonshot-v1-128k
Tokens 699
Code source 1005 B
Temps 8.6 s
Jugement Matania
Exactitude
8
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.63
Revue
Le modèle respecte parfaitement toutes les contraintes de format, de longueur et de notation LaTeX. Cependant, une erreur de calcul est présente dans le rayon du cercle circonscrit : 13 * 14 * 15 / (4 * 84) donne 65/8 (8.125), mais le calcul intermédiaire affiché (273/336) est erroné (le produit est 2730, pas 273). L'exactitude mathématique est donc légèrement entachée malgré la justesse du résultat final pour R.
mistral mistral-large-latest
7.5/10 5.9 s
mistral mistral-large-latest
Tokens 640
Code source 770 B
Temps 5.9 s
Jugement Matania
Exactitude
6
Rigueur
7
Notation
8
Complétude
7
Fidélité
8
Global
7.5
Revue
Les valeurs clés (aire=84, r=4, R=65/8) sont correctes, mais les médianes présentent des erreurs : m_b devrait être √(2×13²+2×15²−14²)/2 = √(338+450−196)/2 = √592/2 ≈ 12,17 et non √(65/2)≈10,99, et m_c est aussi incorrecte (√(2×13²+2×14²−15²)/2 = √(338+392−225)/2 = √505/2 ≈ 11,23). Le format markdown est globalement respecté avec liste à puces et LaTeX, mais le texte dépasse légèrement 120 mots et la dernière formule LaTeX n'est pas fermée proprement. La notation LaTeX est globalement claire et lisible.
mistral mistral-small-latest
9.1/10 3.7 s
mistral mistral-small-latest
Tokens 639
Code source 764 B
Temps 3.7 s
Jugement Matania
Exactitude
6
Rigueur
8
Notation
9
Complétude
10
Fidélité
10
Global
9.13
Revue
Le modèle respecte parfaitement le format, la structure et la contrainte de longueur. Cependant, il commet une erreur de calcul majeure sur la première médiane ($m_a$), dont le résultat exact est $\frac{\sqrt{673}}{2} \approx 12,97$ et non $\frac{\sqrt{77}}{2}$. Les autres calculs de base sont corrects.
mistral mistral-tiny-latest
3.5/10 1.7 s
mistral mistral-tiny-latest
Tokens 600
Code source 608 B
Temps 1.7 s
Jugement Matania
Exactitude
1
Rigueur
1
Notation
4
Complétude
2
Fidélité
5
Global
3.5
Revue
Les résultats mathématiques sont presque tous faux : l'aire est correcte (84) mais la formule affichée est incohérente, le rayon inscrit devrait être r = A/s = 84/21 = 4 (pas 1/12), le rayon circonscrit devrait être R = abc/(4A) = 2730/336 ≈ 8.125 (pas 7/24), et les médianes sont totalement erronées (formules inventées au lieu de m_a = ½√(2b²+2c²−a²)). Le format markdown est respecté (titre ##, liste à puces) et la notation LaTeX est utilisée, mais les formules appliquées sont inventées et incorrectes, ce qui nuit gravement à la rigueur et à la complétude.
openai gpt-4o-mini
9.9/10 4.6 s
openai gpt-4o-mini
Tokens 597
Code source 598 B
Temps 4.6 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.88
Revue
Le modèle a parfaitement respecté toutes les contraintes du prompt : le format Markdown est exact, les formules sont en LaTeX, la concision est respectée et les résultats mathématiques sont tous corrects. L'utilisation de l'unité 'm' est une légère extrapolation mais n'affecte pas la qualité de la réponse.
openai gpt-5.4-nano
9.3/10 4.8 s
openai gpt-5.4-nano
Tokens 651
Code source 812 B
Temps 4.8 s
Jugement Matania
Exactitude
6
Rigueur
8
Notation
10
Complétude
10
Fidélité
10
Global
9.25
Revue
Le modèle respecte parfaitement le format Markdown, la structure demandée et la contrainte de concision. Cependant, il y a des erreurs de calcul importantes sur les médianes : la valeur de m_a est fausse (sqrt(1012) au lieu de sqrt(612)), tout comme m_b et m_c, ce qui impacte la note de justesse mathématique malgré une notation LaTeX impeccable.
openai gpt-5.5
9.9/10 12.0 s
openai gpt-5.5
Tokens 603
Code source 620 B
Temps 12.0 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.88
Revue
Le modèle a parfaitement respecté toutes les contraintes du prompt. Les calculs mathématiques sont exacts (aire de 84, rayons et médianes), le format Markdown est strictement suivi, et l'utilisation de LaTeX est impeccable. La concision est optimale, respectant largement la limite de mots tout en fournissant les formules demandées.
openai gpt-5.5-pro
9.9/10 36.3 s
openai gpt-5.5-pro
Tokens 600
Code source 608 B
Temps 36.3 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.88
Revue
Le modèle respecte parfaitement toutes les contraintes du prompt : format Markdown, utilisation de LaTeX, concision exemplaire et exactitude mathématique totale. Les calculs de l'aire (Heron), des rayons et des médianes (Apollonius) sont corrects et présentés de manière très lisible.
productivia matania-latest
9.9/10 3.2 s
productivia matania-latest
Tokens 656
Code source 835 B
Temps 3.2 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.88
Revue
Le modèle a parfaitement respecté toutes les contraintes du prompt : le format Markdown est correct, les calculs mathématiques sont exacts et la longueur est optimale. L'utilisation de LaTeX est soignée et la concision demandée est parfaitement maîtrisée sans sacrifier la clarté des formules.
xai grok-4-1-fast-non-reasoning
8.9/10 3.8 s
xai grok-4-1-fast-non-reasoning
Tokens 667
Code source 876 B
Temps 3.8 s
Jugement Matania
Exactitude
4
Rigueur
7
Notation
10
Complétude
10
Fidélité
10
Global
8.88
Revue
Le modèle respecte parfaitement le format Markdown, la longueur et les contraintes de notation demandées. Cependant, il y a des erreurs mathématiques critiques : le calcul du rayon du cercle circonscrit est faux (le résultat intermédiaire 273/336 est erroné, le bon résultat est 8.125 mais le calcul intermédiaire ne correspond pas) et les valeurs des médianes sont incorrectes (m_a devrait être environ 14, le calcul fourni donne 7.5 alors que la formule est appliquée avec des erreurs). La fidélité au prompt est excellente, mais l'exactitude mathématique est défaillante.
xai grok-4-1-fast-reasoning
8.9/10 12.6 s
xai grok-4-1-fast-reasoning
Tokens 586
Code source 553 B
Temps 12.6 s
Jugement Matania
Exactitude
9
Rigueur
8
Notation
9
Complétude
9
Fidélité
9
Global
8.88
Revue
Les valeurs mathématiques sont quasi-toutes correctes : aire=84, r=4, R=65/8, et les trois médianes (m_a=√673/2, m_b=2√37, m_c=√505/2) sont exactes. La notation LaTeX est propre et lisible, avec les formules courtes entre parenthèses comme demandé. Le format markdown respecte bien les contraintes (titre ##, liste à puces, concis), et la longueur est dans la cible (~120 mots).

Probabilités

text
anthropic claude-haiku-4-5-20251001
9.9/10 3.6 s
anthropic claude-haiku-4-5-20251001
Tokens 867
Code source 766 B
Temps 3.6 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.88
Revue
Le modèle respecte parfaitement toutes les contraintes du prompt : le format Markdown est exact, la notation LaTeX est impeccable et la longueur est très proche de la cible (~115 mots). Le raisonnement mathématique est juste, concis et la formule générale est correctement établie pour le cas où l'animateur ouvre n-2 portes.
anthropic claude-opus-4-6
8.3/10 7.9 s
anthropic claude-opus-4-6
Tokens 893
Code source 872 B
Temps 7.9 s
Jugement Matania
Exactitude
9
Rigueur
8
Notation
9
Complétude
8
Fidélité
8
Global
8.25
Revue
La solution est mathématiquement correcte : P(garder)=1/5, P(changer)=4/5 pour 5 portes, et la formule générale est juste. Le raisonnement est clair et bien structuré avec des étapes numérotées et une bonne notation LaTeX. La fidélité au prompt est bonne (format markdown, étapes numérotées, conclusion en gras, LaTeX), mais le prompt demandait '$ portes' (probablement 'n portes') et le texte dépasse légèrement les ~120 mots (environ 130-140 mots), ce qui entraîne une légère pénalité sur la fidélité.
anthropic claude-opus-4-7
6.0/10 7.1 s
anthropic claude-opus-4-7
Tokens 1 180
Code source 897 B
Temps 7.1 s
Jugement Matania
Exactitude
4
Rigueur
4
Notation
7
Complétude
5
Fidélité
7
Global
6
Revue
La réponse est partiellement correcte : P(changer) = 4/5 pour le cas à 5 portes est juste, mais la formule générale P(changer) = (n-1)/(n(n-2)) est incorrecte — elle devrait être (n-1)/n si on ouvre n-2 portes et qu'il reste 1 porte, ce qui donne P(changer) = (n-1)/n, pas une fraction supplémentaire. La 'correction' dans le **Résultat** qui donne 4/15 par porte est une confusion entre probabilité conditionnelle et probabilité globale, introduisant une erreur supplémentaire. Le format markdown est bien respecté (titres, étapes numérotées, conclusion en gras), la notation LaTeX est correcte et lisible, et la longueur est dans la cible (~120 mots).
anthropic claude-sonnet-4-6
7.8/10 7.1 s
anthropic claude-sonnet-4-6
Tokens 874
Code source 813 B
Temps 7.1 s
Jugement Matania
Exactitude
9
Rigueur
8
Notation
9
Complétude
8
Fidélité
7
Global
7.75
Revue
Les résultats mathématiques sont corrects : P(gagner en changeant) = 4/5 pour 5 portes et (n-1)/n en général, avec l'hypothèse standard que Monty ouvre n-2 portes perdantes. La notation LaTeX est propre et lisible. Cependant, la fidélité au prompt souffre de quelques écarts : le texte dépasse légèrement ~120 mots (environ 140), et le prompt mentionnait '$ portes' (probablement 'n portes') ce qui est bien traité, mais la structure avec deux sections ## au lieu d'une seule et les étapes numérotées qui ne couvrent que la partie 5 portes (pas la formule générale) s'éloignent légèrement du format demandé d'étapes numérotées courtes unifiées.
cohere command-r-08-2024
3.9/10 10.2 s
cohere command-r-08-2024
Tokens 643
Code source 827 B
Temps 10.2 s
Jugement Matania
Exactitude
3
Rigueur
3
Notation
6
Complétude
3
Fidélité
4
Global
3.88
Revue
La formule générale donnée est incorrecte : dans le Monty Hall étendu à n portes où le présentateur ouvre n-2 portes, la probabilité de gagner en changeant est (n-1)/n seulement si le joueur choisit parmi les n-1 portes restantes aléatoirement, mais la formule correcte pour changer vers la seule autre porte restante est (n-1)/n — ce chiffre est numériquement correct pour le cas 5 portes (4/5), mais le raisonnement qui y mène est absent et non justifié. Le format présente des étapes mais celles-ci ne sont pas 'numérotées courtes' (elles sont nommées 'Étape 1' etc. mais sont assez longues), et le prompt demandait la formule pour '$' portes (probablement 'n' portes), ce qui est respecté. La notation LaTeX est correcte mais minimale, et les étapes manquent de calcul explicite des probabilités conditionnelles justifiant le résultat.
google gemini-flash-latest
6.8/10 6.7 s
google gemini-flash-latest
Tokens 754
Code source 1001 B
Temps 6.7 s
Jugement Matania
Exactitude
8
Rigueur
7
Notation
8
Complétude
7
Fidélité
6
Global
6.75
Revue
Les résultats mathématiques pour 5 portes sont corrects (1/5 vs 4/5), mais la formule générale est légèrement trop simplifiée : P(C) = (n-1)/n n'est valide que si l'animateur ouvre exactement n-2 portes, ce qui n'est pas toujours le cas général (parfois on suppose qu'il n'en ouvre qu'une). Le format markdown est partiellement respecté (titre H2 présent, conclusion **Résultat** présente), mais les étapes ne sont pas toutes 'courtes' comme demandé, et la longueur dépasse les ~120 mots (environ 170 mots), ce qui nuit à la fidélité. Le LaTeX est globalement correct et lisible.
google gemini-flash-lite-latest
6.5/10 2.9 s
google gemini-flash-lite-latest
Tokens 724
Code source 888 B
Temps 2.9 s
Jugement Matania
Exactitude
7
Rigueur
6
Notation
8
Complétude
7
Fidélité
6
Global
6.5
Revue
Le raisonnement pour le cas 5 portes est correct (4/5 en changeant), et la formule générale est mathématiquement valide pour le cas standard (k=n-2, une seule porte restante), mais le prompt demande '$' portes (littéralement le symbole dollar, probablement 'n') ce qui est ambigu — le modèle interprète correctement comme 'n'. La formule générale est bien posée mais manque de vérification avec le cas à 5 portes (n=5, k=3 donne (5-1)/(5·1)=4/5 ✓). Concernant la fidélité, le format utilise des sous-titres `###` non demandés, les étapes numérotées sont présentes, mais la longueur (~120 mots) est légèrement dépassée et la structure s'éloigne légèrement du format 'étapes numérotées courtes' demandé (deux blocs distincts au lieu d'un flux unifié).
kimi moonshot-v1-128k
9.4/10 5.5 s
kimi moonshot-v1-128k
Tokens 639
Code source 811 B
Temps 5.5 s
Jugement Matania
Exactitude
10
Rigueur
7
Notation
10
Complétude
8
Fidélité
10
Global
9.38
Revue
Le modèle respecte parfaitement toutes les contraintes de formatage, de structure et de longueur demandées. Les résultats mathématiques pour le cas à 5 portes et la formule générale sont exacts. Le raisonnement est très concis, ce qui sacrifie un peu de rigueur explicative au profit de la contrainte de mots, mais reste parfaitement cohérent.
mistral mistral-large-latest
7.9/10 6.1 s
mistral mistral-large-latest
Tokens 669
Code source 928 B
Temps 6.1 s
Jugement Matania
Exactitude
9
Rigueur
7
Notation
8
Complétude
7
Fidélité
8
Global
7.88
Revue
Le raisonnement mathématique est correct pour le cas à 5 portes (probabilité de 4/5 en changeant) et la formule générale est exacte. Cependant, la rigueur manque légèrement : il n'est pas explicitement justifié pourquoi la probabilité se 'concentre' sur la porte restante (principe de conservation des probabilités). La notation LaTeX est bien utilisée mais le signe '$' dans le prompt original ('$ portes') est littéralement repris dans le texte ('$ n $ portes'), ce qui est une interprétation correcte. Le format markdown respecte les titres `##`, les étapes numérotées et la conclusion `**Résultat**`, et la longueur (~120 mots) est bien respectée.
mistral mistral-small-latest
5.9/10 2.1 s
mistral mistral-small-latest
Tokens 607
Code source 680 B
Temps 2.1 s
Jugement Matania
Exactitude
6
Rigueur
5
Notation
7
Complétude
5
Fidélité
6
Global
5.88
Revue
La résolution du cas à 5 portes est partiellement correcte : la probabilité de ne pas changer (1/5) est juste, et celle de changer (4/5) est correcte dans le cas standard où Monty ouvre exactement 3 portes et il reste exactement 1 alternative. Cependant, la formule générale est présentée de manière incomplète et le texte est tronqué en fin de réponse ('$\frac{4}{5' sans fermeture), ce qui nuit à la rigueur et à la complétude. La formule générale proposée $\frac{n-1}{n} \cdot \frac{1}{n-1-k}$ est mathématiquement valide mais manque de contexte (il faut préciser qu'on choisit parmi les portes restantes et que $k = n-2$ dans le cas classique). La fidélité au format est globalement respectée (markdown, étapes numérotées, LaTeX), mais la longueur dépasse légèrement les ~120 mots et la conclusion est incomplète.
mistral mistral-tiny-latest
3.4/10 4.6 s
mistral mistral-tiny-latest
Tokens 1 053
Code source 2.4 KB
Temps 4.6 s
Jugement Matania
Exactitude
3
Rigueur
3
Notation
5
Complétude
4
Fidélité
3
Global
3.38
Revue
La probabilité de gagner en changeant pour 5 portes est incorrecte : avec 5 portes et 3 ouvertes, la probabilité de gagner en changeant est 4/5 × 1/3 = 4/15... non, plus précisément (4/5)/(1 porte restante parmi 2) = 4/5 × 1/2 = 2/5, et non 3/4 comme indiqué. La formule générale est également erronée : si le présentateur ouvre toujours n-2 portes, la probabilité de gagner en changeant est (n-1)/[n×(n-2)] ou plus simplement dépend du nombre de portes ouvertes — le modèle donne (n-2)/(n-1) sans spécifier combien de portes sont ouvertes, ce qui est une formule incorrecte. Le texte est bien trop long (~350 mots au lieu de ~120), les étapes ne sont pas courtes, et la structure ne respecte pas pleinement le format demandé (étapes numérotées non concises, pas de formule LaTeX propre avec \frac).
openai gpt-4o-mini
5.6/10 8.6 s
openai gpt-4o-mini
Tokens 688
Code source 1006 B
Temps 8.6 s
Jugement Matania
Exactitude
4
Rigueur
3
Notation
6
Complétude
4
Fidélité
7
Global
5.63
Revue
La formule générale est incorrecte : dans le problème de Monty Hall étendu à n portes où l'hôte ouvre k portes perdantes (ici k=n-2, laissant 1 porte alternative), la probabilité de gagner en changeant est (n-1)/(n*(n-1-k)) = 1/(n-1) × (n-1)/n... En réalité avec n=5 et n-2=3 portes ouvertes, P(changer) = 4/(5×1) = 4/5 est numériquement correct pour ce cas spécifique, mais la formule générale P(N)=(n-1)/n est fausse car elle suppose toujours une seule porte alternative, ce qui n'est vrai que si l'hôte ouvre exactement n-2 portes. Le raisonnement manque de rigueur : il n'explicite pas le nombre de portes ouvertes dans la formule générale ni les hypothèses sur k. Le format markdown est globalement respecté (titres, étapes numérotées, conclusion en gras), mais la longueur dépasse légèrement les ~120 mots et la variable '$' du prompt est bien remplacée par 'n'.
openai gpt-5.4-nano
4.8/10 5.2 s
openai gpt-5.4-nano
Tokens 773
Code source 1.3 KB
Temps 5.2 s
Jugement Matania
Exactitude
6
Rigueur
5
Notation
6
Complétude
5
Fidélité
4
Global
4.75
Revue
La formule générale est correcte pour le cas où l'on bascule vers une porte choisie aléatoirement parmi les restantes, mais le problème classique de Monty Hall étendu suppose que l'on bascule vers l'unique porte restante (k = N-2), ce qui donne P = (N-1)/N ; ici le modèle traite un cas plus général avec k quelconque sans le préciser clairement comme hypothèse, créant une confusion. L'étape 3 contient un LaTeX vide ('$$'), et certains raisonnements sont peu justifiés (notamment pourquoi on choisit k=1 dans l'exemple à 5 portes). La réponse dépasse nettement ~120 mots (environ 200+), comporte deux sections '## Titre' au lieu d'une structure unifiée, et ne respecte pas pleinement la contrainte de concision ni le format demandé.
openai gpt-5.5
9.9/10 12.9 s
openai gpt-5.5
Tokens 620
Code source 735 B
Temps 12.9 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.88
Revue
Le modèle respecte scrupuleusement toutes les contraintes : le format Markdown, les titres, la notation LaTeX, la concision et la structure demandée. Le raisonnement mathématique est exact et la formule générale est correctement déduite. La longueur est parfaitement calibrée pour rester concise tout en étant complète.
openai gpt-5.5-pro
9.9/10 116.1 s
openai gpt-5.5-pro
Tokens 608
Code source 684 B
Temps 116.1 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.88
Revue
Le modèle respecte scrupuleusement toutes les contraintes : le format Markdown est exact, la notation LaTeX est parfaite et la longueur est optimale (~95 mots). Le raisonnement mathématique est rigoureux et la généralisation pour $n$ portes est correcte.
productivia matania-latest
8.4/10 2.4 s
productivia matania-latest
Tokens 688
Code source 1006 B
Temps 2.4 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
7
Global
8.38
Revue
Le raisonnement mathématique est parfaitement exact et la notation LaTeX est impeccable. Cependant, le modèle a échoué sur la contrainte de structure (utilisation de sous-titres H3 au lieu d'étapes numérotées simples comme demandé) et a largement dépassé la limite de concision de 120 mots (le texte fait environ 160 mots). La fidélité est donc pénalisée malgré l'excellence du contenu.
xai grok-4-1-fast-non-reasoning
6.9/10 3.0 s
xai grok-4-1-fast-non-reasoning
Tokens 641
Code source 819 B
Temps 3.0 s
Jugement Matania
Exactitude
7
Rigueur
6
Notation
8
Complétude
6
Fidélité
7
Global
6.88
Revue
La réponse est correcte pour le cas 5 portes avec ouverture de 3 portes, et la formule générale n-1/n est juste dans ce contexte particulier (ouverture de n-2 portes). Cependant, la généralisation est simpliste : la formule n-1/n suppose que l'hôte ouvre exactement n-2 portes, ce qui n'est pas l'unique convention possible pour le Monty Hall étendu — cette hypothèse critique n'est pas explicitée. Le format markdown est respecté (titres ##, étapes numérotées, **Résultat**), le LaTeX est correct, mais le prompt demandait '$ portes' (probablement 'n portes') et la longueur (~120 mots) est approximativement respectée. La concision nuit légèrement à la rigueur des justifications.
xai grok-4-1-fast-reasoning
7.5/10 8.2 s
xai grok-4-1-fast-reasoning
Tokens 600
Code source 655 B
Temps 8.2 s
Jugement Matania
Exactitude
9
Rigueur
7
Notation
9
Complétude
7
Fidélité
7
Global
7.5
Revue
Mathématiquement correct : les probabilités de rester (1/n) et de switcher ((n-1)/n) sont exactes pour le cas standard où Monty ouvre n-2 portes. La notation LaTeX est propre et lisible. Cependant, le prompt demande une formule générale pour '$ portes' (variable générique), et la réponse traite directement n=5 en une seule ligne succincte sans vraiment développer les étapes pour ce cas spécifique. La structure est globalement respectée (## titre, étapes numérotées, **Résultat**) mais le contenu dépasse légèrement 120 mots et manque d'une dérivation explicite par Bayes ou conditionnement pour justifier rigoureusement la formule générale.

Suites logiques

text
anthropic claude-haiku-4-5-20251001
9.9/10 3.0 s
anthropic claude-haiku-4-5-20251001
Tokens 812
Code source 642 B
Temps 3.0 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.88
Revue
Le modèle respecte parfaitement toutes les contraintes : le format Markdown est correct, la longueur est concise et les règles mathématiques sont exactes. L'utilisation de LaTeX pour la suite de Fibonacci est pertinente et la suite de Conway est correctement calculée malgré sa complexité. La fidélité au prompt est exemplaire.
anthropic claude-opus-4-6
8.3/10 7.0 s
anthropic claude-opus-4-6
Tokens 817
Code source 584 B
Temps 7.0 s
Jugement Matania
Exactitude
9
Rigueur
8
Notation
9
Complétude
8
Fidélité
8
Global
8.25
Revue
Les résultats mathématiques sont quasiment tous corrects : Fibonacci (55, 89, 144 ✓), nombres premiers (29, 31, 37 ✓), et look-and-say globalement correct bien que la séquence de départ présentée soit un peu tronquée/implicite. Le format markdown est respecté avec le titre `##` et trois puces, la notation LaTeX est bien utilisée, et la longueur est concise (~100 mots). Mineure imperfection : le prompt demandait 3 puces sans titre élaboré 'Trois suites classiques', mais cela reste fidèle dans l'ensemble ; la rigueur pourrait être légèrement améliorée en précisant mieux le terme de départ pour look-and-say.
anthropic claude-opus-4-7
8.8/10 6.0 s
anthropic claude-opus-4-7
Tokens 1 048
Code source 608 B
Temps 6.0 s
Jugement Matania
Exactitude
9
Rigueur
8
Notation
9
Complétude
8
Fidélité
9
Global
8.75
Revue
Le contenu est mathématiquement exact : les termes Fibonacci (55, 89, 144), Conway (13112221, 1113213211, 31131211131221) et premiers (31, 37, 41) sont corrects. Le format markdown est respecté avec `## Titre` et 3 puces, la notation LaTeX est utilisée de manière pertinente ($F_n = F_{n-1} + F_{n-2}$), et la longueur est concise (~80 mots, légèrement sous les 100 demandés mais acceptable). Les règles sont clairement énoncées sans redondance excessive.
anthropic claude-sonnet-4-6
8.8/10 6.4 s
anthropic claude-sonnet-4-6
Tokens 811
Code source 588 B
Temps 6.4 s
Jugement Matania
Exactitude
9
Rigueur
8
Notation
9
Complétude
8
Fidélité
9
Global
8.75
Revue
La réponse est mathématiquement correcte : les termes Fibonacci (34, 55, 89), look-and-say et premiers sont exacts. Le format markdown est respecté avec `## Titre` et 3 puces, la notation LaTeX est utilisée de façon pertinente et lisible. La longueur est concise (~90 mots), conforme à la contrainte. Légère réserve sur la rigueur : la suite look-and-say pourrait préciser le point de départ explicitement, et la complétude pourrait être améliorée en indiquant clairement depuis quel terme les 3 suivants sont donnés pour chaque suite.
cohere command-r-08-2024
5.4/10 9.1 s
cohere command-r-08-2024
Tokens 591
Code source 619 B
Temps 9.1 s
Jugement Matania
Exactitude
4
Rigueur
4
Notation
6
Complétude
5
Fidélité
6
Global
5.38
Revue
La suite de Conway est incorrecte : les termes donnés ne correspondent pas à une séquence cohérente (l'ordre est inversé et les valeurs sont erronées), ce qui pénalise fortement la correction et la rigueur. La suite de Fibonacci manque de contexte (on ne sait pas à partir de quel terme on repart), et les nombres premiers dépendent aussi du point de départ non précisé. Le format markdown est partiellement respecté (un seul `## Titre` au lieu d'un titre par suite, et les 3 puces sont présentes), ce qui nuit à la fidélité ; la longueur est approximativement respectée.
google gemini-flash-latest
8.3/10 11.0 s
google gemini-flash-latest
Tokens 693
Code source 584 B
Temps 11.0 s
Jugement Matania
Exactitude
9
Rigueur
8
Notation
9
Complétude
8
Fidélité
8
Global
8.25
Revue
Les trois suites sont correctement présentées avec leurs règles et les termes suivants exacts (Fibonacci: 34,55,89; Conway: termes corrects; premiers: 29,31,37). La notation LaTeX est bien utilisée pour Fibonacci. Le format markdown avec ## et puces est respecté, mais le titre choisi ('Trois suites mathématiques fondamentales') n'est pas exactement 'Titre' comme suggéré implicitement, et la longueur (~100 mots) est bien respectée. Un léger manque de rigueur sur la définition explicite du point de départ pour Conway (la suite n'est pas précisée depuis le début), mais globalement très satisfaisant.
google gemini-flash-lite-latest
6.9/10 2.7 s
google gemini-flash-lite-latest
Tokens 727
Code source 692 B
Temps 2.7 s
Jugement Matania
Exactitude
9
Rigueur
7
Notation
8
Complétude
7
Fidélité
6
Global
6.88
Revue
Le contenu mathématique est globalement correct : les règles et les termes suivants pour Fibonacci (13, 21, 34), look-and-say (312211, 13112221, 1113213211) et les nombres premiers (17, 19, 23) sont exacts. Cependant, la fidélité au prompt est imparfaite : le titre du bloc markdown est inventé alors que le prompt demande `## Titre` sans préciser lequel, mais surtout le format demande 3 puces (une par suite) avec règle + 3 termes, ce qui est globalement respecté ; néanmoins la longueur (~100 mots) est respectée et la structure est cohérente. La notation LaTeX est utilisée pour Fibonacci ($F_n = F_{n-1} + F_{n-2}$) mais absente pour les autres suites où elle aurait pu être pertinente, et les termes sont en gras plutôt qu'en LaTeX.
kimi moonshot-v1-128k
9.9/10 5.6 s
kimi moonshot-v1-128k
Tokens 637
Code source 803 B
Temps 5.6 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.88
Revue
Le modèle respecte parfaitement toutes les contraintes du prompt : le format Markdown est correct, la longueur est concise et l'usage de LaTeX est impeccable. Les réponses mathématiques pour les trois suites sont exactes, y compris la suite complexe de Conway. La structure est propre et répond précisément à la demande.
mistral mistral-large-latest
6.5/10 4.9 s
mistral mistral-large-latest
Tokens 599
Code source 650 B
Temps 4.9 s
Jugement Matania
Exactitude
7
Rigueur
7
Notation
8
Complétude
6
Fidélité
6
Global
6.5
Revue
Les valeurs mathématiques sont globalement correctes (Fibonacci, premiers), mais la suite look-and-say est mal présentée : les termes donnés (11, 21, 1211) sont les 2e, 3e et 4e termes, pas les 3 'suivants' d'une suite donnée à un stade précis — le point de départ n'est pas clairement établi. Le format markdown utilise un seul `## Titre` mais la structure en 3 puces est respectée ; cependant le prompt demande une organisation en 3 puces distinctes (une par suite) et le contenu dépasse légèrement le format concis demandé (~100 mots). La notation LaTeX est correcte mais limitée à Fibonacci.
mistral mistral-small-latest
7.3/10 2.9 s
mistral mistral-small-latest
Tokens 546
Code source 438 B
Temps 2.9 s
Jugement Matania
Exactitude
8
Rigueur
7
Notation
8
Complétude
7
Fidélité
7
Global
7.25
Revue
Les règles et termes sont globalement corrects, mais la suite de Fibonacci présente une virgule parasite (', 1, 1, 2, 3, 5') et la suite des nombres premiers est tronquée (le backtick de fermeture manque, suggérant une génération incomplète). Le format markdown avec `## Titre` et 3 puces est respecté, mais la longueur est un peu courte et le terme manquant dans Fibonacci nuit à la clarté. La notation LaTeX est bien utilisée pour Fibonacci mais absente pour les autres suites où elle aurait pu être pertinente.
mistral mistral-tiny-latest
2.9/10 2.2 s
mistral mistral-tiny-latest
Tokens 631
Code source 777 B
Temps 2.2 s
Jugement Matania
Exactitude
3
Rigueur
3
Notation
1
Complétude
4
Fidélité
3
Global
2.88
Revue
La fidélité au prompt est faible : le format demandé est un `## Titre` unique avec 3 puces (une par suite), mais le modèle utilise trois sous-sections `###` sans puces. La longueur est également trop élevée (~130 mots). Sur le plan mathématique, la suite de Fibonacci manque de contexte (pas de termes initiaux explicites, et '1,1,2' dépend d'où on commence), la suite look-and-say est incorrecte (les termes donnés ne correspondent pas à une suite cohérente à partir d'un terme donné), et les nombres premiers (7,11,13) sont corrects si on part de 2,3,5. Aucune notation LaTeX n'est utilisée malgré la pertinence évidente (formule de récurrence Fibonacci $F_n = F_{n-1}+F_{n-2}$).
openai gpt-4o-mini
5.5/10 6.9 s
openai gpt-4o-mini
Tokens 618
Code source 723 B
Temps 6.9 s
Jugement Matania
Exactitude
5
Rigueur
5
Notation
5
Complétude
5
Fidélité
6
Global
5.5
Revue
La structure markdown est globalement respectée (## titre, 3 puces), mais la fidélité est imparfaite car le prompt demandait la règle ET les 3 termes suivants pour chaque suite sans préciser de point de départ ambigu — la suite de Fibonacci présente des erreurs de rendu LaTeX (F_ et F_1 sans indice visible, probablement F_0=0, F_1=1 mais mal rendu). Pour Conway, les termes donnés (111221, 312211, 13112221) semblent corrects si on part de 1→11→21→1211, mais le contexte de départ n'est pas explicité clairement. La notation LaTeX est défectueuse (indices manquants sur F_), ce qui nuit à la lisibilité. La concision (~100 mots) est approximativement respectée.
openai gpt-5.4-nano
6.6/10 2.7 s
openai gpt-5.4-nano
Tokens 607
Code source 680 B
Temps 2.7 s
Jugement Matania
Exactitude
7
Rigueur
6
Notation
6
Complétude
6
Fidélité
7
Global
6.63
Revue
Le format markdown est globalement respecté (titre `##`, 3 puces), mais il manque les règles explicites pour chaque suite de façon claire et il y a une erreur de notation LaTeX visible ($F_=$ au lieu de $F_0=0$ ou $F_1=1$). Les termes suivants pour Fibonacci et Conway sont corrects, mais la suite débute sans contexte clair sur les termes initiaux donnés ; pour les premiers, les termes 17, 19, 23 sont exacts si on part de 11 et 13. La concision est respectée (~100 mots), mais la qualité LaTeX est imparfaite (formule cassée pour F_0).
openai gpt-5.5
9.4/10 11.6 s
openai gpt-5.5
Tokens 565
Code source 512 B
Temps 11.6 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
9
Global
9.38
Revue
L'exactitude mathématique est parfaite pour les trois suites. La notation LaTeX est correctement utilisée et le format Markdown respecte presque toutes les consignes, bien que le titre demandé était '## Titre' (générique) et non '## Suites'. La concision est excellente et respecte la limite de mots.
openai gpt-5.5-pro
8.4/10 77.6 s
openai gpt-5.5-pro
Tokens 564
Code source 508 B
Temps 77.6 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
7
Global
8.38
Revue
L'exactitude mathématique et l'utilisation du LaTeX sont parfaites. Cependant, la fidélité au prompt est pénalisée car le modèle a utilisé un titre générique '## Suites classiques' au lieu de respecter la structure implicite demandée par les titres de suites, et le formatage des puces ne correspond pas exactement à l'attente d'un titre par suite si l'on interprète strictement la demande de titres Markdown. La concision est excellente.
productivia matania-latest
9.9/10 1.9 s
productivia matania-latest
Tokens 593
Code source 627 B
Temps 1.9 s
Jugement Matania
Exactitude
10
Rigueur
9
Notation
10
Complétude
10
Fidélité
10
Global
9.88
Revue
Le modèle respecte parfaitement toutes les contraintes du prompt : le format Markdown est correct, la longueur est concise et les notations LaTeX sont bien utilisées. Les réponses mathématiques pour les trois suites sont exactes et les termes suivants sont correctement identifiés.
xai grok-4-1-fast-non-reasoning
5.4/10 3.0 s
xai grok-4-1-fast-non-reasoning
Tokens 568
Code source 525 B
Temps 3.0 s
Jugement Matania
Exactitude
5
Rigueur
5
Notation
5
Complétude
4
Fidélité
6
Global
5.38
Revue
La section Fibonacci contient une formule LaTeX corrompue ($a_ = $, $a_1 = 1$) et ne précise pas à partir de quel terme les 3 suivants sont donnés, ce qui nuit à la correction et à la rigueur. La suite look-and-say part d'un terme très avancé sans contexte, rendant les termes proposés difficiles à vérifier et potentiellement incorrects. Le format markdown est globalement respecté (## titre, 3 puces), mais la concision demandée (~100 mots) est approximativement respectée et les contraintes de notation LaTeX sont partiellement appliquées avec des erreurs.
xai grok-4-1-fast-reasoning
6.5/10 10.2 s
xai grok-4-1-fast-reasoning
Tokens 548
Code source 444 B
Temps 10.2 s
Jugement Matania
Exactitude
7
Rigueur
6
Notation
5
Complétude
6
Fidélité
7
Global
6.5
Revue
Le contenu est globalement correct (Fibonacci, look-and-say, premiers tous justes), mais la notation LaTeX est défectueuse : '$F_ = $' est manifestement tronqué/corrompu, laissant la formule illisible. La structure markdown (## + 3 puces) est respectée et la longueur est appropriée (~100 mots). La rigueur est partielle : les règles sont esquissées mais pas toujours clairement articulées (la suite look-and-say ne précise pas le terme de départ utilisé pour les suivants). La fidélité est bonne sur la forme globale mais le LaTeX cassé nuit à la qualité.
Code