Logique

Puzzles logiques et raisonnement déductif

5 tâches · 18 modèles testés · 90 résultats

Énigme logique

text

anthropic claude-haiku-4-5-20251001

5.0/10 6.1 s

anthropic claude-haiku-4-5-20251001

Tokens 1 161

Code source 1.4 KB

Temps 6.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

La solution est logiquement erronée : le modèle invente des nationalités (Français) et des marques de cigarettes non présentes dans l'énigme originale pour combler les vides. Bien que le format et la structure soient respectés, l'hallucination massive des données invalide la résolution de l'énigme d'Einstein.

anthropic claude-opus-4-6

8.8/10 12.1 s

anthropic claude-opus-4-6

Tokens 1 100

Code source 1.4 KB

Temps 12.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.75

Revue

La solution est correcte selon la version classique de l'énigme d'Einstein, avec le tableau markdown bien structuré et lisible. Le raisonnement en 4 puces (dans la fourchette 3-5 demandée) est logique et couvre les étapes clés de déduction, bien que légèrement condensé sur certaines inférences. La longueur (~150 mots) est légèrement en dessous des ~180 mots demandés, ce qui est un écart mineur. Le format respecte scrupuleusement les consignes : titre `##`, tableau markdown, section `### Raisonnement` avec puces.

anthropic claude-opus-4-7

8.9/10 10.1 s

anthropic claude-opus-4-7

Tokens 1 387

Code source 1.3 KB

Temps 10.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.88

Revue

La solution est correcte et correspond à la solution canonique de l'énigme d'Einstein. Le format markdown est bien respecté avec le titre `##`, le tableau et la section `### Raisonnement` en puces. Le raisonnement est logique et couvre les étapes clés, bien que certaines déductions soient légèrement condensées (ex. le placement du renard/Old Gold mériterait plus d'explication). La longueur est légèrement supérieure à ~180 mots mais reste raisonnable (~200 mots), ce qui constitue un écart mineur sur la fidélité.

anthropic claude-sonnet-4-6

8.3/10 12.5 s

anthropic claude-sonnet-4-6

Tokens 1 230

Code source 1.6 KB

Temps 12.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.25

Revue

La solution est correcte et correspond à la solution canonique de l'énigme d'Einstein (le Japonais possède le zèbre). Le raisonnement est bien structuré en 5 étapes claires avec références aux indices, et le tableau markdown est propre et lisible. Cependant, la section '### Raisonnement' apparaît avant le tableau alors que le prompt demande d'abord le tableau puis le raisonnement (implicitement via '## Titre, tableau, ### Raisonnement'), et le texte dépasse légèrement les ~180 mots demandés (environ 230 mots), ce qui affecte modérément la fidélité.

cohere command-r-08-2024

3.9/10 16.8 s

cohere command-r-08-2024

Tokens 719

Code source 1.0 KB

Temps 16.8 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

3.88

Revue

La solution proposée est incorrecte : selon la solution canonique de l'énigme d'Einstein, c'est l'Anglais qui vit dans la maison rouge, le Norvégien dans la bleue, l'Allemand fume des Prince dans la maison verte, etc. — ici les nationalités, couleurs et animaux sont largement erronés. Le raisonnement présenté liste des affirmations qui ressemblent aux indices originaux plutôt qu'à de vraies étapes déductives, et certaines affirmations contredisent même les indices canoniques (ex. 'l'homme qui a des chats vit dans la maison rouge' n'est pas un indice standard). Sur le plan de la fidélité au format, le titre en ## est présent, le tableau markdown est bien formaté, et la section ### Raisonnement existe, mais les 'étapes' dépassent les 5 puces demandées (10 puces) et le texte dépasse légèrement les ~180 mots.

google gemini-flash-latest

8.4/10 7.0 s

google gemini-flash-latest

Tokens 852

Code source 1.2 KB

Temps 7.0 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.38

Revue

La solution est correcte et correspond à la solution canonique de l'énigme du zèbre. Le format markdown est bien respecté avec le titre `##`, le tableau complet et la section `### Raisonnement` en puces. La longueur est proche des ~180 mots demandés. Le raisonnement couvre les étapes essentielles mais reste parfois elliptique (notamment l'étape sur les animaux renard/cheval/escargots qui manque de détails), ce qui nuit légèrement à la qualité logique et à l'efficacité démonstrative.

google gemini-flash-lite-latest

7.3/10 2.8 s

google gemini-flash-lite-latest

Tokens 810

Code source 1.1 KB

Temps 2.8 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.25

Revue

La solution proposée est globalement correcte mais contient une erreur notable : dans la version canonique de l'énigme d'Einstein, le Suédois possède des chiens, ce qui est correct, mais l'Allemand possède le zèbre (correct), et les oiseaux appartiennent au Norvégien ou au Danois selon les variantes — ici les oiseaux sont attribués à l'Anglais, ce qui correspond à la variante Pall Mall, mais la nationalité du maison 5 avec BlueMaster devrait être le Suédois avec les chiens, ce qui est cohérent. Le format est bien respecté (titre ##, tableau markdown, section ### Raisonnement avec 4 puces), et la longueur est approximativement conforme (~150-180 mots). Le raisonnement en 4 étapes est compréhensible mais manque de rigueur formelle et ne couvre pas toutes les déductions clés de manière explicite.

kimi moonshot-v1-128k

2.1/10 6.0 s

kimi moonshot-v1-128k

Tokens 694

Code source 956 B

Temps 6.0 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

2.13

Revue

La solution est totalement erronée et incohérente avec les règles classiques de l'énigme d'Einstein (mélange de langues, contradictions logiques majeures et absence de la solution correcte). Bien que le format Markdown soit respecté, le contenu est un échec total sur le plan de la logique et de la véracité, rendant le raisonnement absurde.

mistral mistral-large-latest

7.8/10 8.3 s

mistral mistral-large-latest

Tokens 750

Code source 1.2 KB

Temps 8.3 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.75

Revue

La solution proposée est globalement correcte : le zèbre (poisson) appartient à l'Allemand en maison 4, ce qui correspond à la solution canonique. Cependant, la maison 1 devrait avoir une Fox (renard) ou un autre animal selon les variantes, et l'animal 'chat' en maison 1 avec 'Blends' en 2 est cohérent. Le raisonnement en 5 étapes est présent mais la dernière étape est tronquée (la phrase se coupe brutalement), ce qui nuit à la complétude. Le format est bien respecté (titre ##, tableau, section ### Raisonnement avec puces), et la longueur est appropriée (~180 mots), mais la coupure finale est un défaut notable.

mistral mistral-small-latest

6.5/10 3.0 s

mistral mistral-small-latest

Tokens 713

Code source 1.0 KB

Temps 3.0 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

6.5

Revue

La solution finale contient des erreurs : notamment, le Norvégien boit de l'eau (correct) mais possède un chat au lieu d'un renard, et le Suédois possède un zèbre au lieu d'un chien. La solution canonique place le zèbre chez l'Allemand et le renard chez le Norvégien. Le raisonnement est très superficiel : il se contente de répéter la solution ligne par ligne sans expliquer les déductions logiques à partir des contraintes de l'énigme. La fidélité au format est bonne (titre H2, tableau markdown, section H3 avec puces), mais la longueur est légèrement sous les ~180 mots demandés.

mistral mistral-tiny-latest

5.0/10 2.0 s

mistral mistral-tiny-latest

Tokens 667

Code source 849 B

Temps 2.0 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

La solution proposée est incorrecte : la solution canonique de l'énigme d'Einstein place le Norvégien en maison 1, l'Allemand possède le zèbre, et les associations nationalité/couleur/boisson/cigarette/animal sont largement erronées. Le raisonnement est circulaire et inventé (les justifications ne découlent pas des contraintes officielles du puzzle). En revanche, le format est bien respecté : titre en ## , tableau markdown complet, section ### Raisonnement avec 5 puces, et la longueur est concise.

openai gpt-4o-mini

6.4/10 8.0 s

openai gpt-4o-mini

Tokens 707

Code source 1009 B

Temps 8.0 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

6.38

Revue

La solution proposée est incorrecte sur plusieurs points clés : notamment l'attribution du zèbre au Suédois (maison 5/blanche) plutôt qu'à l'Allemand, et plusieurs erreurs dans les animaux et cigarettes (ex. le Suédois devrait avoir un chien selon le clue standard). Le format est globalement respecté (titre ##, tableau markdown, section ### Raisonnement en puces, longueur concise), ce qui donne une bonne note de fidélité. Le raisonnement en 5 puces est présent mais trop schématique et ne couvre pas suffisamment les déductions nécessaires pour justifier la solution complète.

openai gpt-5.4-nano

4.8/10 3.5 s

openai gpt-5.4-nano

Tokens 766

Code source 1.2 KB

Temps 3.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

4.75

Revue

La solution proposée est incorrecte : selon la solution canonique de l'énigme d'Einstein, le Norvégien est en maison 1 (jaune, eau, Dunhill, chat), l'Allemand possède le poisson, et non le Suédois qui possède le chien — la dernière ligne contredit elle-même le tableau. Le raisonnement invoque des clues mal attribuées (la maison blanche n'est pas la 3e, l'Anglais vit dans la rouge, etc.). Sur la fidélité au format, la structure ## titre + tableau + ### Raisonnement en puces est respectée, et la longueur est proche des 180 mots, ce qui sauve partiellement la note de fidelity.

openai gpt-5.5

9.8/10 18.7 s

openai gpt-5.5

Tokens 728

Code source 1.1 KB

Temps 18.7 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.75

Revue

La solution est parfaitement exacte et respecte scrupuleusement toutes les contraintes du prompt (format markdown, structure des sections, longueur et concision). Le raisonnement est logique, bien que très condensé pour respecter la limite de mots, et le tableau est parfaitement structuré. La fidélité est exemplaire.

openai gpt-5.5-pro

9.8/10 195.4 s

openai gpt-5.5-pro

Tokens 714

Code source 1.0 KB

Temps 195.4 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.75

Revue

La solution est parfaitement exacte et respecte scrupuleusement toutes les contraintes du prompt (format Markdown, structure des sections, longueur et concision). Le raisonnement est logique, fluide et parvient à la conclusion de manière élégante malgré la contrainte de mots.

productivia matania-latest

9.4/10 3.0 s

productivia matania-latest

Tokens 777

Code source 1.3 KB

Temps 3.0 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.38

Revue

La solution est correcte et respecte scrupuleusement toutes les contraintes de formatage (titres, tableau, puces) et de longueur. Le raisonnement est fluide et bien structuré, bien que légèrement simplifié pour tenir dans la limite de mots imposée. La fidélité au prompt est parfaite.

xai grok-4-1-fast-non-reasoning

4.8/10 4.5 s

xai grok-4-1-fast-non-reasoning

Tokens 738

Code source 1.1 KB

Temps 4.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

4.75

Revue

La solution proposée est largement incorrecte : selon la solution canonique de l'énigme d'Einstein, le Norvégien est en maison 1 (jaune), le Britannique en maison 3 (rouge), l'Allemand en maison 4 (verte) boit du café et fume Prince, le Danois en maison 2 boit du thé, et le zèbre appartient à l'Allemand — de nombreuses attributions du tableau sont erronées (couleurs inversées, boissons mal placées, nationalités déplacées). Le raisonnement présente des étapes partiellement cohérentes mais conduit à une solution fausse, avec des déductions contradictoires (ex. Norvégien décrit comme jaune mais placé en maison 1 avec une logique incohérente). Le format markdown est globalement respecté (titre ## , tableau, section ### Raisonnement avec puces), mais la longueur (~150 mots) et la structure sont acceptables, ce qui sauve partiellement la fidélité.

xai grok-4-1-fast-reasoning

7.6/10 26.1 s

xai grok-4-1-fast-reasoning

Tokens 707

Code source 1008 B

Temps 26.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.63

Revue

La solution proposée est globalement correcte et correspond à la solution canonique de l'énigme d'Einstein, avec le zèbre chez l'Allemand et l'eau bue par le Norvégien. Le format markdown est respecté (titre ##, tableau, section ### Raisonnement en puces), et la longueur est concise. Cependant, le raisonnement en 3 puces est un peu dense et condensé sur une seule puce pour plusieurs étapes, ce qui nuit légèrement à la clarté et à la lisibilité des déductions. La contrainte de 3 à 5 étapes en puces est respectée (3 puces), mais certaines puces cumulent trop d'informations différentes.

Analyse de paradoxe

text

anthropic claude-haiku-4-5-20251001

9.9/10 4.8 s

anthropic claude-haiku-4-5-20251001

Tokens 851

Code source 1.1 KB

Temps 4.8 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.88

Revue

Le modèle respecte scrupuleusement toutes les contraintes : le format Markdown est correct, les trois positions philosophiques sont pertinentes et bien distinguées, et la longueur est parfaitement calibrée. Le raisonnement est dense, précis et d'une grande clarté intellectuelle malgré la contrainte de concision.

anthropic claude-opus-4-6

9.0/10 9.7 s

anthropic claude-opus-4-6

Tokens 841

Code source 1.0 KB

Temps 9.7 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

La réponse respecte scrupuleusement le format demandé (titre `## `, 3 puces courtes) et se situe dans la cible de ~150 mots (~130 mots). Les trois positions philosophiques sont bien choisies et correctement exposées : l'aristotélisme sur la cause formelle, l'empirisme lockéen sur la continuité spatiotemporelle, et le conventionnalisme de Goodman/Quine. Le raisonnement est rigoureux et chaque position est présentée avec une logique claire. Seul bémol mineur : associer Quine au « conventionnalisme » est une simplification discutable (Quine étant plutôt naturaliste et holiste), ce qui justifie une légère réserve sur la correctness.

anthropic claude-opus-4-7

8.4/10 8.8 s

anthropic claude-opus-4-7

Tokens 1 121

Code source 1.1 KB

Temps 8.8 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.38

Revue

Le contenu est philosophiquement solide, les trois positions sont bien choisies et correctement attribuées, avec une progression logique de l'essentialisme vers le nominalisme. La fidélité au format est bonne (titre ## et 3 puces), mais le texte dépasse légèrement la cible de ~150 mots (environ 190 mots), ce qui entraîne une légère pénalité sur la fidelity. La clarté et le raisonnement sont excellents, chaque puce est concise mais suffisamment développée pour être instructive.

anthropic claude-sonnet-4-6

9.0/10 7.9 s

anthropic claude-sonnet-4-6

Tokens 815

Code source 934 B

Temps 7.9 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

Le texte respecte scrupuleusement le format demandé (## titre + 3 puces), présente trois positions philosophiques distinctes et bien choisies avec des références pertinentes. Le raisonnement est solide et chaque position est clairement différenciée. La longueur est légèrement supérieure à 150 mots (~130-160 selon le comptage), ce qui reste dans la marge acceptable, et la concision est globalement bien maîtrisée malgré quelques développements un peu longs pour des 'puces courtes'.

cohere command-r-08-2024

8.3/10 3.5 s

cohere command-r-08-2024

Tokens 575

Code source 622 B

Temps 3.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.25

Revue

Le format est bien respecté : titre en `##`, trois puces courtes, longueur concise (~80 mots, légèrement sous les 150 demandés mais acceptable). Les trois positions choisies (Platonisme, Aristotélisme, Nominalisme) sont pertinentes, bien que le Platonisme soit légèrement mal rendu — Platon distinguerait plutôt la forme idéale du bateau, pas 'l'essence de chaque pièce'. L'Aristotélisme est simplifié mais défendable. Le Nominalisme est bien exposé et constitue le meilleur des trois. Le raisonnement est correct mais manque de nuance philosophique profonde, notamment sur les distinctions entre hylémorphisme aristotélicien et substance.

google gemini-flash-latest

9.0/10 12.1 s

google gemini-flash-latest

Tokens 702

Code source 1.1 KB

Temps 12.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

Le texte présente trois positions philosophiques distinctes et pertinentes (essentialisme mérologique, hylémorphisme aristotélicien, nihilisme mérologique) avec une exactitude remarquable et une argumentation logique bien construite. Le format markdown est respecté avec un titre en `##` et trois puces, et la longueur est approximativement conforme (~150 mots, légèrement au-dessus mais dans un écart acceptable). La clarté de l'exposition est excellente, chaque position étant succinctement et précisément résumée.

google gemini-flash-lite-latest

7.1/10 2.6 s

google gemini-flash-lite-latest

Tokens 696

Code source 1.1 KB

Temps 2.6 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.13

Revue

Le contenu est philosophiquement solide et bien articulé, avec trois positions pertinentes (essentialisme, fonctionnalisme, conventionnalisme) correctement exposées. Cependant, la fidélité au prompt est imparfaite : les puces ne sont pas « courtes » comme demandé — chacune développe plusieurs phrases détaillées, ce qui fait que le texte dépasse nettement les ~150 mots (environ 210-220 mots). Le format markdown (## Titre + 3 puces) est respecté en structure, mais la contrainte de concision est clairement violée.

kimi moonshot-v1-128k

9.6/10 4.8 s

kimi moonshot-v1-128k

Tokens 653

Code source 935 B

Temps 4.8 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.63

Revue

Le modèle a parfaitement respecté toutes les contraintes du prompt : le format Markdown est correct, la structure en trois puces est respectée, et la longueur est idéale (environ 135 mots). Les positions philosophiques sont correctement identifiées et expliquées de manière concise et pertinente.

mistral mistral-large-latest

7.3/10 5.6 s

mistral mistral-large-latest

Tokens 669

Code source 998 B

Temps 5.6 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.25

Revue

Le contenu philosophique est excellent : trois positions bien choisies (essentialisme, empirisme, phénoménologie) avec des arguments précis et pertinents. Cependant, la réponse est tronquée en plein milieu de la dernière puce (« non matéri »), ce qui constitue un défaut majeur de fidélité et de clarté. De plus, le format utilise des sous-titres en gras à l'intérieur des puces plutôt que de simples puces courtes, et dépasse légèrement la contrainte de concision demandée (~150 mots).

mistral mistral-small-latest

6.3/10 2.3 s

mistral mistral-small-latest

Tokens 642

Code source 889 B

Temps 2.3 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

6.25

Revue

Le contenu philosophique est solide et bien choisi, avec trois perspectives pertinentes (matérialiste, essentialiste, nominaliste) correctement attribuées à Hobbes, Aristote et Locke. Cependant, le texte est tronqué ('indépendamment des modifications matéri...'), ce qui constitue un défaut majeur de fidélité : la dernière puce est incomplète. De plus, la longueur dépasse légèrement les ~150 mots demandés et le format avec sous-puces imbriquées s'écarte légèrement de la consigne 'une puce par position'. La troncature finale est particulièrement pénalisante.

mistral mistral-tiny-latest

5.0/10 2.8 s

mistral mistral-tiny-latest

Tokens 765

Code source 1.4 KB

Temps 2.8 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

Le contenu philosophique est partiellement correct mais présente des imprécisions notables : attribuer la position fonctionnaliste au 'Socratisme' est anachronique et peu rigoureux (Socrate n'a pas développé cette thèse), et la position de Hume est simplifiée de façon contestable. Sur le plan de la fidélité au prompt, le format markdown avec `## Titre` est respecté et les 3 puces sont présentes, mais la longueur dépasse largement les ~150 mots demandés (environ 270 mots), ce qui constitue un écart significatif à la contrainte de concision explicitement formulée. Les puces sont également trop longues pour être qualifiées de 'courtes'.

openai gpt-4o-mini

7.0/10 4.5 s

openai gpt-4o-mini

Tokens 683

Code source 1.0 KB

Temps 4.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

Le format markdown avec `## Titre` et 3 puces est bien respecté, mais les puces sont trop longues (environ 200 mots au total, dépassant légèrement la cible de ~150 mots) et chacune dépasse le format 'court' demandé. Sur le fond, attribuer la position 'identité/mémoire' à Locke pour ce paradoxe est discutable (Locke traite surtout de l'identité personnelle, pas des objets), et qualifier Hume de 'matérialiste' est inexact — il est empiriste/sceptique. La perspective héraclitéenne est en revanche bien rendue. Le raisonnement reste lisible et cohérent malgré ces approximations philosophiques.

openai gpt-5.4-nano

7.1/10 3.2 s

openai gpt-5.4-nano

Tokens 775

Code source 1.4 KB

Temps 3.2 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.13

Revue

Le contenu est philosophiquement rigoureux et les trois positions (aristotélicienne, lockéenne, wittgensteinienne) sont bien choisies et correctement expliquées. Cependant, la fidélité au prompt souffre de deux problèmes : le texte dépasse significativement les ~150 mots demandés (environ 280 mots), et les 'puces courtes' ne sont pas courtes du tout — chaque puce comprend deux phrases denses. Le format markdown avec `## Titre` est respecté et trois puces sont bien présentes, mais la contrainte de concision n'est pas honorée.

openai gpt-5.5

9.9/10 10.0 s

openai gpt-5.5

Tokens 676

Code source 1.0 KB

Temps 10.0 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.88

Revue

La réponse est excellente et respecte scrupuleusement toutes les contraintes du prompt. Les trois positions philosophiques sont correctement identifiées et expliquées avec une grande précision conceptuelle. Le format Markdown, la structure en puces et la longueur sont parfaitement conformes aux instructions.

openai gpt-5.5-pro

9.9/10 85.1 s

openai gpt-5.5-pro

Tokens 641

Code source 887 B

Temps 85.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.88

Revue

Le modèle respecte scrupuleusement toutes les contraintes : le format Markdown est exact, les trois positions philosophiques sont pertinentes et bien articulées, et la longueur est parfaitement maîtrisée. L'analyse est à la fois concise et d'une grande rigueur conceptuelle.

productivia matania-latest

9.8/10 2.4 s

productivia matania-latest

Tokens 702

Code source 1.1 KB

Temps 2.4 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.75

Revue

Le modèle a parfaitement respecté toutes les contraintes du prompt : le format Markdown est correct, les trois positions philosophiques sont distinctes et pertinentes, et la longueur est idéale. L'analyse est concise, précise et d'une grande clarté intellectuelle.

xai grok-4-1-fast-non-reasoning

7.4/10 3.2 s

xai grok-4-1-fast-non-reasoning

Tokens 641

Code source 886 B

Temps 3.2 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.38

Revue

Le contenu est globalement correct et bien structuré, mais la position attribuée à Locke est inexacte : Locke défend la continuité de la conscience/mémoire pour les personnes, non la continuité matérielle — c'est plutôt une position atomiste/matérialiste. Les positions aristotélicienne et héraclitéenne sont bien rendues. Sur le format, le prompt demande exactement 3 puces courtes, ce qui est respecté, mais l'introduction ajoutée avant les puces alourdit le texte et la longueur (~130 mots hors titre) est dans la cible. La fidelity est légèrement pénalisée car le format demandé (## Titre + 3 puces directement) est approximativement respecté mais avec un paragraphe introductif non demandé.

xai grok-4-1-fast-reasoning

7.9/10 9.6 s

xai grok-4-1-fast-reasoning

Tokens 586

Code source 667 B

Temps 9.6 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.88

Revue

Le contenu est philosophiquement solide et bien choisi : les trois perspectives (héraclitéenne, aristotélicienne, platonicienne) sont pertinentes, correctement résumées et logiquement contrastées. La clarté est excellente avec des formulations précises et concises. Cependant, la fidélité au prompt souffre d'un écart notable : le texte est très court (~60 mots hors titre), bien en deçà des ~150 mots demandés ; de plus, le format demandait '3 puces courtes (une par position)' après un titre `## Titre`, ce qui est respecté formellement, mais la contrainte de longueur globale (~150 mots) n'est pas satisfaite, ce qui pénalise significativement la note de fidélité.

Conception d'algorithme

text

anthropic claude-haiku-4-5-20251001

5.1/10 3.7 s

anthropic claude-haiku-4-5-20251001

Tokens 847

Code source 263 B

Temps 3.7 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

5.13

Revue

L'algorithme est parfaitement correct et efficace, mais le modèle a totalement échoué sur la fidélité au prompt. Il n'a respecté aucun des formats demandés (titres Markdown, sections spécifiques, contraintes de structure) et a fourni uniquement le pseudo-code, ignorant presque toutes les instructions de mise en forme et de contenu.

anthropic claude-opus-4-6

3.3/10 5.7 s

anthropic claude-opus-4-6

Tokens 799

Code source 237 B

Temps 5.7 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

3.25

Revue

Le pseudo-code fourni est correct et implémente fidèlement l'algorithme de Kadane. Cependant, la réponse est gravement incomplète : il manque le titre (## Titre), la section ### Idée, et la section ### Complexité, qui étaient tous explicitement demandés dans le prompt. Seul le bloc de pseudo-code a été produit, ce qui constitue un manquement majeur aux exigences de format et de structure, d'où une note de fidélité très basse.

anthropic claude-opus-4-7

2.8/10 4.6 s

anthropic claude-opus-4-7

Tokens 1 001

Code source 245 B

Temps 4.6 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

2.75

Revue

Le pseudo-code fourni est techniquement correct pour l'algorithme de Kadane, mais la réponse est extrêmement incomplète : elle ne contient que le bloc de pseudo-code, sans aucune des sections demandées (## Titre, ### Idée, ### Complexité). Le format Markdown avec les titres requis est totalement absent, il manque la section 'Idée' (2-3 lignes d'explication) et la section 'Complexité' (une ligne). La fidélité au prompt est donc très faible car pratiquement toutes les contraintes de structure et de contenu ont été ignorées.

anthropic claude-sonnet-4-6

3.4/10 5.6 s

anthropic claude-sonnet-4-6

Tokens 845

Code source 265 B

Temps 5.6 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

3.38

Revue

Le pseudo-code fourni est correct et implémente fidèlement l'algorithme de Kadane. Cependant, la réponse est extrêmement incomplète par rapport au prompt : il manque les sections '## Titre', '### Idée', '### Complexité', et le contexte global. Seule la section '### Pseudo-code' a été partiellement rendue, sans même le titre de section markdown requis. La fidélité au format demandé est donc quasi nulle, ce qui pénalise lourdement la note finale.

cohere command-r-08-2024

1.4/10 5.6 s

cohere command-r-08-2024

Tokens 662

Code source 195 B

Temps 5.6 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

1.38

Revue

Le modèle n'a fourni qu'un bloc de pseudo-code incomplet (avec une erreur de syntaxe 'A[]') et a complètement ignoré le format Markdown demandé : aucun titre '## Titre', aucune section '### Idée', '### Pseudo-code', ni '### Complexité'. La fidélité au prompt est nulle car toutes les sections structurelles sont absentes et la longueur cible (~150 mots) n'est pas respectée. Le pseudo-code lui-même est partiellement correct dans sa logique mais contient une erreur d'initialisation ('A[]' au lieu de 'A[0]'), ce qui nuit à l'exactitude.

google gemini-flash-latest

8.4/10 5.7 s

google gemini-flash-latest

Tokens 710

Code source 904 B

Temps 5.7 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.38

Revue

L'algorithme est correctement décrit et le pseudo-code est fonctionnellement exact, couvrant bien la logique de Kadane. La section 'Idée' dépasse légèrement les 2-3 lignes demandées et le texte total excède un peu les ~150 mots, ce qui nuit à la fidélité au prompt. La complexité est bien indiquée sur une ligne et les sections markdown respectent les titres demandés.

google gemini-flash-lite-latest

8.6/10 2.2 s

google gemini-flash-lite-latest

Tokens 694

Code source 846 B

Temps 2.2 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.63

Revue

L'algorithme est correctement décrit avec une logique claire et un pseudo-code fonctionnel et exact. La fidélité au prompt est bonne : les sections demandées (Titre, Idée, Pseudo-code, Complexité) sont toutes présentes et bien structurées ; cependant, la section 'Idée' dépasse légèrement la limite de 2-3 lignes (elle est un peu verbose), et le texte total avoisine 150 mots mais pourrait être un peu plus concis. La complexité est correctement indiquée en une ligne, incluant même la complexité spatiale en bonus.

kimi moonshot-v1-128k

9.3/10 4.6 s

kimi moonshot-v1-128k

Tokens 619

Code source 756 B

Temps 4.6 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.25

Revue

Le modèle respecte parfaitement toutes les contraintes de format, de structure et de longueur demandées. L'algorithme est correct dans sa logique, bien que l'initialisation du pseudo-code soit légèrement imprécise mathématiquement (l'usage de array[] pour l'initialisation est ambigu sans préciser l'index 0). L'explication est concise et efficace.

mistral mistral-large-latest

7.8/10 4.2 s

mistral mistral-large-latest

Tokens 625

Code source 783 B

Temps 4.2 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.75

Revue

L'algorithme est correctement décrit avec un pseudo-code valide et une logique solide. Cependant, la réponse semble tronquée à la fin ('**Espace** : *O(1)* (variables') et dépasse légèrement les ~150 mots demandés, avec l'idée qui utilise des puces non strictement demandées mais acceptables. La section Complexité devait tenir en une ligne selon le prompt, mais contient deux lignes (Temps + Espace), ce qui est une légère déviation. Le code est tronqué aussi, ce qui nuit à la fidélité.

mistral mistral-small-latest

7.0/10 2.4 s

mistral mistral-small-latest

Tokens 610

Code source 722 B

Temps 2.4 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

L'algorithme est globalement correct et le pseudo-code est juste (utilisant max(x, max_courant + x) plutôt que la réinitialisation à 0, ce qui est équivalent et même plus élégant), mais l'explication dans 'Idée' décrit une variante légèrement différente (réinitialisation à 0) qui ne correspond pas exactement au code fourni, créant une incohérence. Sur la fidélité au format, la section 'Idée' dépasse les 2-3 lignes demandées (elle utilise une liste à puces qui s'étend), la longueur totale dépasse ~150 mots, et le bloc de code n'est pas fermé correctement (le ``` de fermeture est manquant ou mal positionné dans le rendu). La complexité est tronquée ('variables' sans fin de phrase).

mistral mistral-tiny-latest

7.6/10 2.3 s

mistral mistral-tiny-latest

Tokens 657

Code source 906 B

Temps 2.3 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.63

Revue

L'algorithme est globalement correct et bien structuré avec les quatre sections demandées (titre, idée, pseudo-code, complexité). Cependant, l'initialisation `max_so_far = arr[]` et `max_ending_here = arr[]` est syntaxiquement incorrecte (devrait être `arr[0]`), ce qui nuit à la correction. L'idée est expliquée en 3 lignes claires, le pseudo-code est lisible et la complexité est bien mentionnée en une ligne. La longueur (~130 mots) est dans la cible demandée (~150 mots), et le format markdown est respecté.

openai gpt-4o-mini

2.0/10 3.3 s

openai gpt-4o-mini

Tokens 599

Code source 241 B

Temps 3.3 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

Le contenu généré est extrêmement incomplet : il ne contient que le pseudo-code, sans les sections `## Titre`, `### Idée`, `### Complexité` requises par le prompt, ce qui constitue un manquement grave à la fidélité. L'initialisation du pseudo-code est incorrecte (`max_somme ← tableau[]` et `somme_courante ← tableau[]` sont ambigus et faux — ils devraient être initialisés à `tableau[0]`) et la boucle commence à 1 sans commentaire sur l'index 0, ce qui nuit à la correction. La structure globale est largement insuffisante par rapport aux ~150 mots et aux quatre sections exigées.

openai gpt-5.4-nano

8.8/10 46.1 s

openai gpt-5.4-nano

Tokens 601

Code source 682 B

Temps 46.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.75

Revue

L'algorithme est correctement décrit et le pseudo-code est fonctionnel, bien que l'initialisation utilise une notation `A[]` ambiguë (devrait être `A[0]`). La structure markdown respecte exactement les sections demandées (`## Titre`, `### Idée`, `### Pseudo-code`, `### Complexité`), et la longueur est concise et dans la cible des ~150 mots. La clarté est excellente avec la distinction entre `meilleure_fin` et `meilleure_globale`, et la complexité est correctement indiquée en une ligne.

openai gpt-5.5

10.0/10 5.8 s

openai gpt-5.5

Tokens 600

Code source 681 B

Temps 5.8 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

L'algorithme est parfaitement décrit et l'implémentation du pseudo-code est exacte. Le modèle respecte scrupuleusement toutes les contraintes de formatage, de structure et de longueur demandées dans le prompt. La concision est exemplaire sans sacrifier la précision technique.

openai gpt-5.5-pro

10.0/10 31.1 s

openai gpt-5.5-pro

Tokens 588

Code source 633 B

Temps 31.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

L'algorithme est parfaitement décrit et le pseudo-code est exact. Toutes les contraintes de formatage (titres, structure, sections) et de longueur ont été rigoureusement respectées. La concision est optimale sans sacrifier la précision technique.

productivia matania-latest

10.0/10 2.1 s

productivia matania-latest

Tokens 599

Code source 676 B

Temps 2.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

Le modèle a parfaitement respecté toutes les contraintes du prompt. Le formatage Markdown est exact, les sections demandées sont présentes, la longueur est concise et l'algorithme est mathématiquement et logiquement correct. L'utilisation du LaTeX pour la complexité est un plus qualitatif.

xai grok-4-1-fast-non-reasoning

1.8/10 1.9 s

xai grok-4-1-fast-non-reasoning

Tokens 609

Code source 215 B

Temps 1.9 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

1.75

Revue

Le contenu généré est extrêmement incomplet : il ne contient que le pseudo-code (avec des valeurs d'initialisation manquantes rendant le code incorrect), sans le titre en ## , sans la section ### Idée, sans la section ### Complexité, et sans aucune explication textuelle. La fidélité au prompt est très faible puisque trois des quatre sections demandées sont absentes et le format markdown n'est pas respecté. Le pseudo-code partiel est approximativement correct dans sa logique (max courant vs max global) mais les initialisations manquantes (probablement T[1] et T[1]) le rendent ambigu et non fonctionnel.

xai grok-4-1-fast-reasoning

2.1/10 5.3 s

xai grok-4-1-fast-reasoning

Tokens 624

Code source 246 B

Temps 5.3 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

2.13

Revue

Le contenu généré est extrêmement incomplet : il ne contient qu'un bloc de pseudo-code tronqué (avec des valeurs manquantes comme 'n ==' et 'T[]'), sans aucune des sections Markdown demandées (## Titre, ### Idée, ### Pseudo-code, ### Complexité). La fidélité au prompt est quasi nulle car la structure entière est absente et la longueur (~150 mots) n'est pas respectée. Le pseudo-code lui-même, bien que partiellement correct dans sa logique de base, comporte des erreurs de troncature rendant l'algorithme incompréhensible.

Dilemme éthique

text

anthropic claude-haiku-4-5-20251001

9.8/10 4.5 s

anthropic claude-haiku-4-5-20251001

Tokens 863

Code source 1.1 KB

Temps 4.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.75

Revue

Le modèle respecte scrupuleusement toutes les contraintes : le format Markdown est correct, les trois cadres éthiques sont présents et le verdict est intégré. La longueur est optimale (~140 mots) et la qualité du raisonnement philosophique est excellente et concise.

anthropic claude-opus-4-6

9.0/10 9.9 s

anthropic claude-opus-4-6

Tokens 846

Code source 1.0 KB

Temps 9.9 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

Le contenu est rigoureusement correct sur les trois cadres éthiques, avec des verdicts bien distincts et pertinents. Le format respecte exactement les consignes : un titre en ## et trois puces avec verdict intégré. La longueur (~150 mots) est respectée et l'ensemble est concis, clair et bien structuré.

anthropic claude-opus-4-7

8.4/10 11.1 s

anthropic claude-opus-4-7

Tokens 1 177

Code source 1.1 KB

Temps 11.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.38

Revue

Le contenu est excellent sur le fond : les trois cadres éthiques sont correctement appliqués avec des références pertinentes (Bentham/Mill, Kant, Aristote/Ricœur) et des verdicts clairs. Le raisonnement est solide et nuancé, notamment la critique utilitariste sur l'achetabilité et la réponse originale de l'éthique des vertus. En revanche, le texte dépasse sensiblement les ~150 mots demandés (environ 200 mots), ce qui constitue un écart notable par rapport à la contrainte de concision explicitement mentionnée dans le prompt, justifiant une légère pénalité sur la fidélité.

anthropic claude-sonnet-4-6

8.5/10 9.3 s

anthropic claude-sonnet-4-6

Tokens 839

Code source 960 B

Temps 9.3 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.5

Revue

Le contenu est philosophiquement rigoureux, avec des verdicts pertinents pour chaque cadre éthique et une application convaincante au contexte des véhicules autonomes. La structure markdown est respectée avec le titre `##` et les trois puces demandées. Cependant, la longueur dépasse légèrement les ~150 mots demandés (environ 170 mots), ce qui entraîne une légère pénalité sur la fidélité. La clarté et l'efficacité sont excellentes, chaque verdict étant concis et bien différencié.

cohere command-r-08-2024

7.5/10 10.3 s

cohere command-r-08-2024

Tokens 686

Code source 1013 B

Temps 10.3 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.5

Revue

Le texte respecte bien le format demandé avec un titre en ## et trois puces correspondant aux trois cadres éthiques. Le contenu est correct dans l'ensemble, bien que l'analyse de l'éthique des vertus soit un peu superficielle (mentionner 'compassion et empathie' pour une IA reste vague). La longueur est appropriée (~150 mots). Le raisonnement est fonctionnel mais manque de profondeur, notamment sur la tension inhérente entre déontologie et utilitarisme dans ce contexte spécifique.

google gemini-flash-latest

7.1/10 11.3 s

google gemini-flash-latest

Tokens 732

Code source 1.1 KB

Temps 11.3 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.13

Revue

Le contenu est exact et bien raisonné, couvrant correctement les trois cadres éthiques avec des verdicts pertinents et des références appropriées (Kant, phronèsis). La clarté est excellente avec une structure lisible. Cependant, la fidélité au prompt est pénalisée : le texte dépasse largement les ~150 mots demandés (environ 200 mots), et le format des puces inclut des sous-sections en gras intégrées qui alourdissent la présentation au lieu de rester strictement concis — chaque puce contient une description développée avant le verdict, ce qui ne correspond pas à l'esprit 'concis' demandé.

google gemini-flash-lite-latest

7.5/10 2.7 s

google gemini-flash-lite-latest

Tokens 747

Code source 1.2 KB

Temps 2.7 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.5

Revue

Le contenu est correct et les trois cadres éthiques sont bien représentés avec des verdicts pertinents. Cependant, le texte dépasse nettement les ~150 mots demandés (environ 220 mots), ce qui pénalise la fidélité au prompt ; de plus, il y a un paragraphe introductif avant les puces qui n'était pas demandé dans le format (le prompt demande '## Titre' puis directement 3 puces). La structure markdown est globalement respectée avec les bons titres et les puces, mais l'excès de longueur et le paragraphe supplémentaire constituent des écarts notables.

kimi moonshot-v1-128k

7.5/10 5.0 s

kimi moonshot-v1-128k

Tokens 680

Code source 989 B

Temps 5.0 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.5

Revue

Le contenu est excellent en termes de clarté et de pertinence philosophique. Cependant, le modèle a échoué sur la structure stricte demandée : il a utilisé des sous-titres (H3) et des paragraphes au lieu de respecter le format imposé de '3 puces avec un verdict court chacune'. La longueur est respectée, mais la non-conformité au formatage Markdown spécifique pénalise lourdement la fidélité.

mistral mistral-large-latest

7.9/10 8.6 s

mistral mistral-large-latest

Tokens 829

Code source 1.5 KB

Temps 8.6 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.88

Revue

Le contenu est philosophiquement solide, bien structuré et les trois cadres éthiques sont correctement appliqués au cas des voitures autonomes avec des verdicts pertinents. Cependant, la fidélité au prompt est imparfaite : le texte dépasse largement les ~150 mots demandés (environ 280 mots), ce qui constitue un écart notable à la contrainte de concision explicitement formulée. Le format markdown est respecté (## titre, 3 puces), mais la longueur excessive pénalise cette dimension.

mistral mistral-small-latest

7.0/10 2.2 s

mistral mistral-small-latest

Tokens 626

Code source 772 B

Temps 2.2 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

Le contenu est solide sur le plan éthique : les trois cadres sont correctement appliqués avec des verdicts pertinents. Cependant, la réponse est tronquée ('l'évitement du dilem'), ce qui nuit à la fidélité et à la clarté. De plus, la longueur semble légèrement en deçà des ~150 mots attendus, et le texte coupé constitue un écart notable aux contraintes du prompt.

mistral mistral-tiny-latest

4.1/10 4.8 s

mistral mistral-tiny-latest

Tokens 876

Code source 1.7 KB

Temps 4.8 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

4.13

Revue

Le contenu est globalement correct sur le plan conceptuel mais manque de précision et de profondeur dans les verdicts. La fidélité au prompt est très insuffisante : le format demandait 3 puces (bullet points) sous un seul titre `##`, non des sous-titres `###` avec des paragraphes développés ; de plus, le texte (~280 mots) dépasse largement la consigne de ~150 mots et inclut une introduction et une conclusion non demandées. Le raisonnement reste superficiel et les 'verdicts courts' attendus sont absents, remplacés par des développements nuancés sans conclusion tranchée.

openai gpt-4o-mini

7.1/10 5.1 s

openai gpt-4o-mini

Tokens 716

Code source 1.1 KB

Temps 5.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.13

Revue

Le texte couvre correctement les trois cadres éthiques avec des verdicts pertinents et utilise bien le format markdown demandé (titre ## et trois puces). Cependant, la longueur dépasse légèrement les ~150 mots demandés (environ 195 mots), ce qui pénalise la fidélité au prompt. Le raisonnement est solide mais manque de verdicts vraiment tranchés et concis — les puces s'étendent davantage en explications qu'en conclusions nettes, ce qui nuit à l'efficacité et à la concision requises.

openai gpt-5.4-nano

6.4/10 3.7 s

openai gpt-5.4-nano

Tokens 800

Code source 1.4 KB

Temps 3.7 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

6.38

Revue

Le contenu est philosophiquement solide et les trois cadres éthiques sont correctement appliqués au dilemme des voitures autonomes. Cependant, le texte est bien trop long (~220 mots au lieu de ~150), ce qui constitue un écart notable à la contrainte de longueur explicite du prompt ; la fidélité en pâtit significativement. Le format markdown est respecté (## titre, 3 puces, verdicts courts), mais la verbosité excessive nuit à l'efficacité et dépasse le cadre demandé.

openai gpt-5.5

9.9/10 8.0 s

openai gpt-5.5

Tokens 708

Code source 1.1 KB

Temps 8.0 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.88

Revue

Le modèle a parfaitement respecté toutes les contraintes du prompt. Le format markdown est exact, les trois cadres éthiques sont correctement appliqués et le verdict est inclus pour chacun. La longueur est optimale et respecte la consigne de concision tout en restant très instructif.

openai gpt-5.5-pro

9.9/10 183.5 s

openai gpt-5.5-pro

Tokens 676

Code source 975 B

Temps 183.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.88

Revue

Le modèle respecte scrupuleusement toutes les contraintes : le format Markdown est correct, les trois cadres éthiques sont présents avec leurs verdicts, et la longueur est parfaitement calibrée (~135 mots). L'analyse est précise, concise et démontre une excellente compréhension des nuances philosophiques appliquées au sujet.

productivia matania-latest

9.9/10 2.7 s

productivia matania-latest

Tokens 772

Code source 1.3 KB

Temps 2.7 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.88

Revue

Le modèle a parfaitement respecté toutes les contraintes du prompt : le format Markdown est exact, la structure en trois puces avec verdicts est respectée, et la longueur est idéale (environ 160 mots, ce qui reste dans la cible de concision). Le contenu est philosophiquement rigoureux et très clair.

xai grok-4-1-fast-non-reasoning

8.9/10 2.9 s

xai grok-4-1-fast-non-reasoning

Tokens 640

Code source 830 B

Temps 2.9 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.88

Revue

La réponse respecte fidèlement le format demandé (titre `##`, trois puces avec cadres éthiques et verdict court), et se situe bien autour de 150 mots (~130 mots hors titre). Les trois cadres sont correctement appliqués avec des verdicts clairs et pertinents. Le raisonnement est solide, quoique la déontologie aurait pu mentionner la distinction acte/omission plus explicitement, et l'éthique des vertus reste légèrement moins développée que les deux autres.

xai grok-4-1-fast-reasoning

8.9/10 8.5 s

xai grok-4-1-fast-reasoning

Tokens 590

Code source 628 B

Temps 8.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.88

Revue

Le texte respecte fidèlement le format demandé : titre en `## Titre`, trois puces avec les trois cadres éthiques, et un verdict court pour chacun. Le contenu est exact et pertinent sur les trois approches éthiques, avec des verdicts clairs et bien justifiés. La longueur est concise (~80 mots), légèrement en dessous des ~150 mots demandés, ce qui constitue un léger écart mais reste dans l'esprit « concis » du prompt.

Déduction complexe

text

anthropic claude-haiku-4-5-20251001

9.9/10 4.2 s

anthropic claude-haiku-4-5-20251001

Tokens 895

Code source 944 B

Temps 4.2 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.88

Revue

La réponse est parfaite. Le raisonnement logique est rigoureux, la solution est exacte et le format markdown est strictement respecté. La contrainte de longueur et le nombre de puces sont parfaitement maîtrisés.

anthropic claude-opus-4-6

9.1/10 10.2 s

anthropic claude-opus-4-6

Tokens 985

Code source 1.1 KB

Temps 10.2 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.13

Revue

La solution est parfaitement correcte : les 3 insulaires aux yeux bleus partent la 3ᵉ nuit, et le raisonnement par récurrence est bien construit (cas n=1, n=2, n=3 puis généralisation). Le format markdown respecte les titres demandés (## et ###), les 4-5 puces (exactement 5), et le rôle de la connaissance commune est correctement expliqué. La longueur est légèrement au-dessus de 150 mots mais reste dans un écart acceptable ; la section s'intitule 'Raisonnement par récurrence' au lieu de simplement 'Raisonnement', ce qui est une variation mineure mais fidèle à l'esprit du prompt.

anthropic claude-opus-4-7

9.4/10 10.5 s

anthropic claude-opus-4-7

Tokens 1 341

Code source 1.2 KB

Temps 10.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.38

Revue

La solution est parfaitement correcte : les 3 insulaires partent le 3ᵉ soir, et le raisonnement par récurrence est impeccablement construit (initialisation, hérédité, application). Le format markdown respecte scrupuleusement les sections demandées (## Titre, ### Résultat, ### Raisonnement avec 5 puces). La longueur est légèrement supérieure à 150 mots (~200 mots), ce qui entraîne une légère pénalité sur la fidélité, mais reste raisonnable. La dernière puce sur le rôle du sage est un ajout élégant qui enrichit la compréhension sans nuire à la concision globale.

anthropic claude-sonnet-4-6

9.9/10 11.3 s

anthropic claude-sonnet-4-6

Tokens 963

Code source 1.1 KB

Temps 11.3 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

9.88

Revue

La solution est parfaitement correcte : les 3 insulaires partent bien le 3e soir, et le raisonnement par récurrence est rigoureux, complet et bien structuré. Le format markdown respecte exactement les consignes (## Titre, ### Résultat, ### Raisonnement avec 5 puces), et la longueur est concise (~150 mots). La dernière puce sur le rôle de la connaissance commune apporte une profondeur analytique appréciable sans alourdir.

cohere command-r-08-2024

3.9/10 6.5 s

cohere command-r-08-2024

Tokens 630

Code source 737 B

Temps 6.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

3.88

Revue

La solution est fondamentalement incorrecte : l'énigme classique des yeux bleus porte sur le fait que les 3 insulaires aux yeux bleus partent le 3ème soir, par induction (avec k insulaires aux yeux bleus, ils partent tous le k-ième soir). Le modèle n'a pas compris la mécanique de connaissance commune ni la conclusion attendue (départ au bout de 3 jours). Le raisonnement par récurrence présenté est superficiel et ne correspond pas à la logique épistémique de l'énigme. Côté format, les sections demandées (## Titre, ### Résultat, ### Raisonnement) sont présentes et la longueur est respectée, mais le contenu de Résultat est trivial et les puces sont numérotées plutôt que sous forme de tirets, ce qui reste acceptable.

google gemini-flash-latest

8.4/10 6.5 s

google gemini-flash-latest

Tokens 842

Code source 1.3 KB

Temps 6.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.38

Revue

La solution est correcte : les 3 insulaires aux yeux bleus partent le 3ème soir, et le raisonnement par récurrence (initialisation n=1, hérédité n=2, cas n=3) est bien structuré et logiquement solide. Le format markdown respecte les sections demandées (## Titre, ### Résultat, ### Raisonnement avec 5 puces), mais le texte est légèrement au-dessus de 150 mots (environ 200 mots), ce qui représente un écart notable à la contrainte de longueur et pénalise la fidélité. La clarté est excellente avec des formulations précises et une conclusion synthétique.

google gemini-flash-lite-latest

8.8/10 2.8 s

google gemini-flash-lite-latest

Tokens 803

Code source 1.1 KB

Temps 2.8 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.75

Revue

La solution est correcte : les 3 insulaires partent le 3e jour, et le raisonnement par récurrence (base n=1, hérédité n=2, généralisation n=3) est bien structuré et logiquement solide. Le format markdown respecte scrupuleusement les sections demandées (## Titre, ### Résultat, ### Raisonnement avec 4 puces), et la longueur est conforme (~150 mots). Le raisonnement pour n=3 est légèrement moins précis ('comme personne ne part le 2e jour' mériterait plus de rigueur sur pourquoi le 2e jour ne suffit pas), mais reste compréhensible et fidèle à la logique modale de connaissance commune.

kimi moonshot-v1-128k

4.9/10 5.1 s

kimi moonshot-v1-128k

Tokens 667

Code source 886 B

Temps 5.1 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

4.88

Revue

Le modèle échoue sur la logique fondamentale de l'énigme : les personnes aux yeux bleus partent le 3ème jour, pas le 4ème, et le raisonnement par récurrence est mal articulé. Sur le plan de la fidélité, le nombre de puces est insuffisant (3 au lieu de 4 à 5 demandées) et le résultat est imprécis. La confusion entre le nombre de jours et le nombre d'individus nuit gravement à la validité de la solution.

mistral mistral-large-latest

7.8/10 5.7 s

mistral mistral-large-latest

Tokens 665

Code source 879 B

Temps 5.7 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

7.75

Revue

La solution est correcte : les 3 insulaires partent le 3e jour, et le raisonnement par récurrence est bien structuré et logiquement solide. Le format markdown est respecté avec les sections demandées (## et ###), mais le texte est tronqué à la fin ('dédu' coupé), ce qui indique une génération incomplète — défaut notable de fidélité. La longueur semble légèrement courte et la dernière phrase est incomplète, ce qui pénalise la fidelity.

mistral mistral-small-latest

5.5/10 2.7 s

mistral mistral-small-latest

Tokens 662

Code source 867 B

Temps 2.7 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

5.5

Revue

La solution donne un résultat incorrect : avec 3 insulaires aux yeux bleus, ils partent le 3ème jour, pas le 100ème — cette erreur fondamentale nuit gravement à la correctness. Le raisonnement par récurrence est globalement bien structuré mais la conclusion finale est tronquée (texte coupé au milieu d'une phrase), compromettant la clarté. Sur la fidélité, les sections markdown demandées sont présentes mais la réponse semble incomplète (texte coupé), ce qui constitue un manquement au format attendu.

mistral mistral-tiny-latest

3.6/10 1.5 s

mistral mistral-tiny-latest

Tokens 609

Code source 654 B

Temps 1.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

3.63

Revue

La réponse est fondamentalement incorrecte : la solution attendue est que les 3 insulaires aux yeux bleus quittent l'île le 3ème soir, par raisonnement par récurrence (induction logique). Le modèle n'a pas du tout compris l'énigme — il confond 'il y a au moins un' avec la conclusion triviale, sans aborder le départ des insulaires ni la récurrence. Le raisonnement présenté est circulaire et sans rapport avec la vraie logique de l'énigme. Concernant le format, les sections markdown sont présentes mais la section 'Titre' contient 'L'énigme...' comme contenu plutôt que dans le titre, et le raisonnement compte 6 puces au lieu de 4-5.

openai gpt-4o-mini

5.0/10 5.3 s

openai gpt-4o-mini

Tokens 704

Code source 1.0 KB

Temps 5.3 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

La solution est incorrecte : avec 3 insulaires aux yeux bleus, ils partent le 3e jour (nuit 3), non pas le 5e jour comme affirmé dans le résultat — la règle est n insulaires partent au jour n, donc la réponse correcte est le 3e jour. Cette contradiction entre le résultat ('cinquième jour') et le raisonnement ('troisième jour') est une erreur factuelle grave. Le raisonnement par récurrence est bien esquissé mais incomplet (seulement 4 puces au lieu de 4-5, et la 4e puce est trop vague). Le format markdown est globalement respecté avec les sections demandées, mais la longueur dépasse légèrement 150 mots et la mention du suicide (variante non standard) peut être une dérive par rapport à la formulation classique 'quitter l'île'.

openai gpt-5.4-nano

6.4/10 3.9 s

openai gpt-5.4-nano

Tokens 764

Code source 1.2 KB

Temps 3.9 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

6.38

Revue

La solution est globalement correcte (les 3 insulaires quittent l'île au jour 3), mais le vocabulaire est imprécis : on parle d'« aveu » et de « dénoncer » alors que dans l'énigme standard, les insulaires aux yeux bleus quittent l'île (ou se suicident selon la version) sans nécessairement se « dénoncer ». Le raisonnement par récurrence est présent et structuré mais reste un peu confus dans sa formulation (« premier aveu au jour 3 » mal introduit). Sur la fidélité au format, le titre markdown `## Titre` est utilisé littéralement comme intitulé au lieu d'un vrai titre thématique, et le texte dépasse légèrement les ~150 mots demandés ; les sections `### Résultat` et `### Raisonnement` sont bien présentes avec 4-5 puces, ce qui est positif.

openai gpt-5.5

10.0/10 12.9 s

openai gpt-5.5

Tokens 698

Code source 1011 B

Temps 12.9 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

Le modèle a parfaitement respecté toutes les contraintes. La solution est mathématiquement exacte, le raisonnement par récurrence est limpide et structuré, et le formatage Markdown ainsi que la longueur demandée sont scrupuleusement suivis.

openai gpt-5.5-pro

10.0/10 270.5 s

openai gpt-5.5-pro

Tokens 635

Code source 759 B

Temps 270.5 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

La réponse est parfaite. Le modèle respecte scrupuleusement toutes les contraintes de format (Markdown, titres), de structure (4 à 5 puces) et de longueur. Le raisonnement par récurrence est mathématiquement exact, élégant et parfaitement concis.

productivia matania-latest

10.0/10 2.9 s

productivia matania-latest

Tokens 697

Code source 1006 B

Temps 2.9 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

Revue

Le modèle respecte scrupuleusement toutes les contraintes du prompt : le format Markdown est exact, la structure des titres est respectée, et le raisonnement par récurrence est mathématiquement impeccable. La longueur est concise et parfaitement calibrée autour de la cible de 150 mots.

xai grok-4-1-fast-non-reasoning

8.9/10 3.8 s

xai grok-4-1-fast-non-reasoning

Tokens 663

Code source 870 B

Temps 3.8 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.88

Revue

La solution est correcte : les 3 insulaires aux yeux bleus partent le 3ᵉ jour, et le raisonnement par récurrence (induction) est bien articulé avec les cas de base 1 et 2, puis la généralisation. Le format markdown est respecté (## et ### présents, 4 puces + une ligne conclusive), et la longueur est conforme (~120 mots annoncés, dans la cible ~150). Une légère imprécision : 'il voit 0 bleu' est manqué dans la case 1 (il voit zéro autre bleu), mais la logique reste claire. L'efficacité est bonne mais la puce 'Cas 100' répète légèrement ce qui vient d'être dit dans la récurrence.

xai grok-4-1-fast-reasoning

8.4/10 7.9 s

xai grok-4-1-fast-reasoning

Tokens 660

Code source 856 B

Temps 7.9 s

Jugement Matania

Exactitude

Raisonnement

Efficacité

Clarté

Fidélité

Global

8.38

Revue

La solution est correcte : avec 3 insulaires aux yeux bleus, ils partent tous le troisième soir, et le raisonnement par récurrence est bien exposé. Le format markdown respecte les sections demandées (## et ###), mais la dernière puce sur les 97 autres est légèrement imprécise ('attendent indéfiniment' est correct mais la formulation est maladroite). La longueur est un peu courte par rapport aux ~150 mots demandés, et il manque 'zéro' dans 'voit zéro œil bleu' au cas de base (typo : 'voit œil bleu'), ce qui nuit légèrement à la fidélité et à la clarté.