Culture générale

Connaissance générale et pluridisciplinaire

5 tâches · 18 modèles testés · 90 résultats

Connexions inattendues

text
anthropic claude-haiku-4-5-20251001
6.5/10 4.3 s
anthropic claude-haiku-4-5-20251001
Tokens 794
Code source 897 B
Temps 4.3 s
Jugement Matania
Précision
4
Profondeur
5
Relevance
6
Clarté
9
Fidélité
7
Global
6.5
Revue
Le modèle respecte bien le format Markdown et l'absence de préambule, mais échoue sur la précision historique : la connexion entre Napoléon et les ceintures de sécurité est factuellement infondée et constitue une hallucination. De plus, la connexion sur les codes-barres est très spéculative. La contrainte de concision est respectée, mais la qualité de l'information nuit à la note globale.
anthropic claude-opus-4-6
9.8/10 7.8 s
anthropic claude-opus-4-6
Tokens 787
Code source 827 B
Temps 7.8 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle respecte scrupuleusement toutes les contraintes : le format Markdown est parfait, l'absence de préambule est respectée et la longueur est conforme. Les connexions historiques sont factuellement exactes, pertinentes et présentées avec une grande clarté.
anthropic claude-opus-4-7
9.3/10 7.7 s
anthropic claude-opus-4-7
Tokens 1 012
Code source 744 B
Temps 7.7 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
9
Global
9.25
Revue
Le contenu est factuellement excellent et les connexions sont pertinentes. Le format respecte presque parfaitement les consignes, bien que le titre soit légèrement différent de ce qui était attendu (le prompt demandait '## Titre' comme structure, et le modèle a généré un titre spécifique). La longueur est idéale et l'absence de préambule est respectée.
anthropic claude-sonnet-4-6
8.4/10 6.3 s
anthropic claude-sonnet-4-6
Tokens 744
Code source 717 B
Temps 6.3 s
Jugement Matania
Précision
7
Profondeur
7
Relevance
8
Clarté
9
Fidélité
9
Global
8.38
Revue
Le format est respecté (titre ## , liste numérotée, pas de préambule) et la longueur est appropriée (~120 mots). Les connexions sont originales et bien formulées, mais quelques imprécisions factuelles méritent attention : Morse n'a pas 'breveté' son télégraphe en 1839 (il a présenté son invention mais le brevet américain date de 1840), et le rôle exact de Tobias Schmidt comme 'facteur d'instruments' reste débattu historiographiquement. La connexion sur les cartes républicaines est bien documentée et pertinente. L'ensemble reste concis et percutant.
cohere command-r-08-2024
4.3/10 29.6 s
cohere command-r-08-2024
Tokens 605
Code source 709 B
Temps 29.6 s
Jugement Matania
Précision
4
Profondeur
3
Relevance
4
Clarté
7
Fidélité
4
Global
4.25
Revue
Le format markdown utilisé ne respecte pas la consigne : le prompt demande un seul titre `## Titre` suivi d'une liste numérotée, mais le modèle a produit trois titres `##` distincts sans liste numérotée unifiée. Sur le fond, les connexions sont peu surprenantes (Newton/Einstein est une relation directe et classique) et les affirmations sur Bach/chirurgie et échecs/astronautes manquent de bases factuelles vérifiables, voire semblent inventées. La longueur est dans les normes (~100 mots), mais le non-respect structurel du format pénalise fortement la fidélité.
google gemini-flash-latest
8.6/10 7.9 s
google gemini-flash-latest
Tokens 610
Code source 656 B
Temps 7.9 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
9
Fidélité
9
Global
8.63
Revue
Les trois connexions sont historiquement solides et surprenantes : le lien Tambora/draisienne, Napoléon/conserve et tour Eiffel/guerre sont bien documentés, même si quelques imprécisions subsistent (le prix offert était de 12 000 francs, chiffre souvent cité mais parfois contesté dans ses détails). La structure markdown est respectée (## Titre + liste numérotée), le texte est concis (~110 mots), sans préambule, ce qui satisfait pleinement les exigences de format. La profondeur reste limitée par la contrainte de concision imposée, mais chaque phrase offre suffisamment de contexte pour comprendre la connexion.
google gemini-flash-lite-latest
7.5/10 2.1 s
google gemini-flash-lite-latest
Tokens 632
Code source 837 B
Temps 2.1 s
Jugement Matania
Précision
7
Profondeur
6
Relevance
7
Clarté
8
Fidélité
8
Global
7.5
Revue
Le format est globalement respecté (titre ## et liste numérotée), mais le texte dépasse légèrement les ~120 mots demandés (environ 145 mots) et les items ne sont pas vraiment 'courts' pour des phrases uniques. Les connexions sont intéressantes et majoritairement exactes, bien que l'affirmation sur les Rothschild soit une simplification vulgarisée et que le lien Chappe → cartographie moderne soit un peu ténu. La profondeur reste limitée par le format imposé, ce qui est logique, mais les connexions manquent parfois du côté vraiment 'surprenant' (le lien Rothschild/Waterloo est déjà très connu).
kimi moonshot-v1-128k
4.1/10 5.6 s
kimi moonshot-v1-128k
Tokens 663
Code source 940 B
Temps 5.6 s
Jugement Matania
Précision
4
Profondeur
4
Relevance
5
Clarté
8
Fidélité
3
Global
4.13
Revue
Le modèle échoue lourdement sur la fidélité au prompt : il ne respecte pas la consigne de 'liste numérotée d'une phrase courte' (chaque point est un paragraphe complexe) et ne respecte pas la contrainte de longueur (~180 mots au lieu de ~120). De plus, l'exactitude historique est médiocre, notamment sur la connexion Napoléon/Pizza qui est factuellement infondée et la connexion Roosevelt/Tour Eiffel qui est très obscure et mal formulée.
mistral mistral-large-latest
8.8/10 6.7 s
mistral mistral-large-latest
Tokens 649
Code source 887 B
Temps 6.7 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
10
Fidélité
9
Global
8.75
Revue
Le modèle respecte presque parfaitement les contraintes de format et de concision, bien qu'il ait ajouté un titre légèrement différent de la structure suggérée. Les connexions sont pertinentes et bien formulées, même si la précision historique sur l'origine exacte du ketchup dans le premier point reste un sujet de débat académique.
mistral mistral-small-latest
8.4/10 4.6 s
mistral mistral-small-latest
Tokens 597
Code source 678 B
Temps 4.6 s
Jugement Matania
Précision
9
Profondeur
7
Relevance
9
Clarté
10
Fidélité
8
Global
8.38
Revue
Le contenu est factuellement précis et très clair. Cependant, la fidélité au prompt est légèrement pénalisée par l'ajout d'un titre qui ne respectait pas strictement la structure demandée (le prompt demandait '## Titre' et non un titre descriptif long) et par une légère déviation de la consigne de concision par rapport à la structure de liste demandée. Les connexions sont pertinentes mais manquent parfois de la 'surprise' attendue pour une tâche de ce type.
mistral mistral-tiny-latest
3.5/10 4.4 s
mistral mistral-tiny-latest
Tokens 828
Code source 1.6 KB
Temps 4.4 s
Jugement Matania
Précision
3
Profondeur
4
Relevance
5
Clarté
8
Fidélité
2
Global
3.5
Revue
La fidélité au prompt est très faible : le modèle a largement dépassé la limite de mots (~230 mots au lieu de ~120) et n'a pas respecté la contrainte de 'phrase courte' par item. De plus, l'exactitude historique est problématique, notamment l'affirmation hautement douteuse selon laquelle les pharaons pratiquaient la danse du ventre.
openai gpt-4o-mini
8.1/10 5.0 s
openai gpt-4o-mini
Tokens 606
Code source 714 B
Temps 5.0 s
Jugement Matania
Précision
10
Profondeur
6
Relevance
7
Clarté
10
Fidélité
8
Global
8.13
Revue
Les faits sont historiquement exacts et la clarté est excellente. Cependant, la 'fidélité' est pénalisée car les connexions proposées manquent de caractère 'surprenant' ou 'inattendu' par rapport au prompt, et le titre n'est pas strictement identique à la structure attendue. De plus, la profondeur est limitée par la contrainte de la phrase courte, ce qui est acceptable mais rend les liens très conventionnels.
openai gpt-5.4-nano
8.4/10 3.3 s
openai gpt-5.4-nano
Tokens 616
Code source 754 B
Temps 3.3 s
Jugement Matania
Précision
9
Profondeur
7
Relevance
9
Clarté
10
Fidélité
8
Global
8.38
Revue
Le contenu est historiquement pertinent et très clair. Cependant, la fidélité au prompt est légèrement pénalisée par l'ajout d'un titre non demandé dans le corps du texte (le prompt demandait '## Titre', mais le modèle a généré un titre spécifique '## Connexions historiques surprenantes' au lieu de suivre la structure de manière strictement minimaliste ou de respecter l'absence de préambule si l'on considère le titre comme faisant partie de la structure de réponse). La longueur est respectée.
openai gpt-5.5
9.8/10 5.5 s
openai gpt-5.5
Tokens 573
Code source 580 B
Temps 5.5 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle respecte parfaitement toutes les contraintes strictes : le format Markdown est exact, l'absence de préambule est respectée et la longueur est concise. Les faits historiques sont précis et les connexions proposées sont à la fois pertinentes et surprenantes.
openai gpt-5.5-pro
9.8/10 70.2 s
openai gpt-5.5-pro
Tokens 548
Code source 482 B
Temps 70.2 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle respecte parfaitement toutes les contraintes : le format Markdown est correct, le style est concis et il n'y a aucun préambule. Les faits historiques sont exacts et les connexions proposées sont à la fois pertinentes et surprenantes.
productivia matania-latest
9.3/10 2.8 s
productivia matania-latest
Tokens 609
Code source 727 B
Temps 2.8 s
Jugement Matania
Précision
9
Profondeur
7
Relevance
8
Clarté
10
Fidélité
10
Global
9.25
Revue
Le modèle respecte parfaitement toutes les contraintes de format, de structure et de concision demandées. Les connexions sont pertinentes et les faits historiques sont exacts. La profondeur est légèrement limitée par la contrainte de longueur, mais le résultat est d'une grande clarté.
xai grok-4-1-fast-non-reasoning
9.5/10 5.7 s
xai grok-4-1-fast-non-reasoning
Tokens 576
Code source 592 B
Temps 5.7 s
Jugement Matania
Précision
9
Profondeur
7
Relevance
10
Clarté
10
Fidélité
10
Global
9.5
Revue
Le modèle respecte parfaitement toutes les contraintes de formatage (Markdown, absence de préambule) et de longueur. Les connexions sont pertinentes et factuellement solides, bien que l'explication sur l'origine d'Oreo soit une théorie parmi d'autres, elle reste très convaincante dans ce contexte de concision.
xai grok-4-1-fast-reasoning
8.8/10 32.5 s
xai grok-4-1-fast-reasoning
Tokens 540
Code source 451 B
Temps 32.5 s
Jugement Matania
Précision
7
Profondeur
5
Relevance
8
Clarté
10
Fidélité
10
Global
8.75
Revue
Le modèle respecte parfaitement les contraintes de format, de structure et de concision demandées. Sur le plan factuel, bien que les connexions soient intéressantes, la précision historique est parfois discutable (le lien direct entre Braille et un code militaire spécifique est sujet à interprétation). La profondeur reste superficielle conformément à la contrainte de brièveté.

Chronologie comparée

text
anthropic claude-haiku-4-5-20251001
9.1/10 4.1 s
anthropic claude-haiku-4-5-20251001
Tokens 893
Code source 1.1 KB
Temps 4.1 s
Jugement Matania
Précision
7
Profondeur
7
Relevance
9
Clarté
10
Fidélité
10
Global
9.13
Revue
Le modèle respecte parfaitement toutes les contraintes structurelles (format markdown, colonnes, titre, nombre de lignes et longueur). L'exactitude historique est globalement bonne, bien que l'affirmation sur l'essor de l'empire aztèque vers 1200 soit historiquement prématurée (leur apogée étant plus tardive). La concision et la clarté sont excellentes.
anthropic claude-opus-4-6
7.9/10 9.3 s
anthropic claude-opus-4-6
Tokens 881
Code source 941 B
Temps 9.3 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
9
Clarté
9
Fidélité
7
Global
7.88
Revue
Le tableau est bien structuré et les informations factuelles sont globalement exactes et pertinentes, avec de bons exemples représentatifs pour chaque civilisation. Cependant, la fidélité au prompt est entamée par deux écarts notables : le prompt demandait '4 à 5 lignes maximum' et le tableau n'en contient que 4 (acceptable), mais surtout il manque la ligne pour ~1200 qui aurait couvert toute la période demandée jusqu'à 1200 ; par ailleurs, le nombre de mots dépasse légèrement les ~120 mots demandés (~140 mots environ). La profondeur est bonne pour un format aussi concis, bien que certaines entrées soient légèrement superficielles.
anthropic claude-opus-4-7
8.8/10 11.9 s
anthropic claude-opus-4-7
Tokens 1 235
Code source 1.1 KB
Temps 11.9 s
Jugement Matania
Précision
8
Profondeur
8
Relevance
9
Clarté
9
Fidélité
9
Global
8.75
Revue
Le tableau est bien structuré, respecte le format markdown demandé avec 5 lignes et 5 colonnes, et le titre est correctement formaté en `##`. Les faits sont globalement exacts, avec quelques approximations acceptables (la Première croisade placée à 1100 alors qu'elle date de 1096-1099, ce qui est honnêtement signalé). Le contenu est pertinent, équilibré entre les quatre civilisations, et la concision est bien respectée, bien que la longueur soit légèrement supérieure à 120 mots. La profondeur est remarquable pour un format aussi contraint.
anthropic claude-sonnet-4-6
8.1/10 8.5 s
anthropic claude-sonnet-4-6
Tokens 896
Code source 946 B
Temps 8.5 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
9
Fidélité
8
Global
8.13
Revue
Le tableau est bien structuré et les faits sont globalement exacts, avec quelques nuances : l'apogée maya classique tardif est légèrement décalé (Chichén Itzá connaît son essor plutôt vers 900-1200), et Bagdad à 1 million d'habitants au IXe siècle est une estimation haute contestée. La profondeur est correcte pour le format demandé, avec des exemples pertinents et variés pour chaque civilisation. Concernant la fidélité, le prompt demandait 'Année' comme intitulé de colonne (et non 'Période'), et le tableau comporte 4 lignes (dans la limite des 4-5 demandées) ; le titre et la concision (~120 mots) sont respectés, ce qui est globalement satisfaisant malgré le petit écart sur l'en-tête de colonne.
cohere command-r-08-2024
3.6/10 10.1 s
cohere command-r-08-2024
Tokens 751
Code source 1.2 KB
Temps 10.1 s
Jugement Matania
Précision
4
Profondeur
4
Relevance
5
Clarté
4
Fidélité
3
Global
3.63
Revue
La fidélité au prompt est très faible : les colonnes 'Année' contiennent des valeurs aberrantes (8, 9, 1, 12 au lieu d'années complètes comme 800, 900, 1000, 1200), ce qui rend le tableau incohérent et peu lisible. Sur le plan factuel, plusieurs imprécisions sont notables : les Aztèques n'émergent pas dès le IXe siècle, et les Incas ne sont pas encore formés à cette époque ; la mention de Charlemagne en colonne '8' (sous-entendu 800) est approximativement correcte mais le reste est flou. La structure demandée (tableau markdown + titre + concision ~120 mots) est partiellement respectée, mais les années tronquées constituent un défaut majeur de format.
google gemini-flash-latest
8.4/10 9.3 s
google gemini-flash-latest
Tokens 757
Code source 917 B
Temps 9.3 s
Jugement Matania
Précision
7
Profondeur
7
Relevance
8
Clarté
9
Fidélité
9
Global
8.38
Revue
Le tableau est bien structuré, respecte le format markdown demandé avec 4 lignes et un titre en ## — la fidélité au prompt est très bonne. L'exactitude est globalement solide, mais quelques imprécisions subsistent : la 'reconquête de Jérusalem par Saladin' date de 1187 (pas v. 1200), et la fondation du Saint-Empire est généralement datée de 962 (pas 960). La profondeur et la pertinence sont satisfaisantes pour le format contraint (~120 mots respectés), avec des exemples représentatifs et bien choisis pour chaque civilisation.
google gemini-flash-lite-latest
7.0/10 3.0 s
google gemini-flash-lite-latest
Tokens 786
Code source 1.1 KB
Temps 3.0 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
8
Clarté
9
Fidélité
6
Global
7
Revue
Le tableau est bien structuré et les faits généralement exacts, bien que la mention 'déclin maya, essor aztèque' à 1200 soit légèrement inexacte (les Aztèques n'émergent vraiment qu'après 1200). La fidélité au prompt est partiellement respectée : le titre est présent, le format markdown correct, mais le tableau ne contient que 3 lignes (4-5 demandées) et le texte dépasse les ~120 mots demandés (environ 130-140 mots). Ces écarts au format pénalisent la note de fidélité. La clarté et la pertinence des exemples sont bonnes, avec un bon équilibre entre les quatre civilisations.
kimi moonshot-v1-128k
4.1/10 5.5 s
kimi moonshot-v1-128k
Tokens 697
Code source 1.0 KB
Temps 5.5 s
Jugement Matania
Précision
4
Profondeur
4
Relevance
5
Clarté
8
Fidélité
3
Global
4.13
Revue
Le modèle échoue lourdement sur la fidélité et l'exactitude historique. Il y a des anachronismes majeurs : Charlemagne est mort en 814 (impossible en l'an 1000), les Incas n'existent pas en 800, et la dynastie Yuan commence en 1271 (pas en 1200). De plus, le tableau contient 3 lignes au lieu des 4 à 5 demandées, et la structure temporelle est incohérente avec les faits historiques présentés.
mistral mistral-large-latest
6.5/10 6.8 s
mistral mistral-large-latest
Tokens 725
Code source 1.1 KB
Temps 6.8 s
Jugement Matania
Précision
6
Profondeur
7
Relevance
8
Clarté
7
Fidélité
6
Global
6.5
Revue
Le tableau est bien structuré avec un titre markdown correct et des informations globalement pertinentes, mais plusieurs problèmes se posent. Sur le plan de la fidélité, le texte est tronqué en fin de tableau (la dernière cellule est incomplète : '132'), ce qui constitue un défaut majeur ; de plus, les lignes sont 3 au lieu de 4-5 demandées. Sur l'exactitude, la prise de Bagdad (1258) est mentionnée à la ligne 1200, ce qui est légèrement anachronique dans ce contexte, et la fondation de Tenochtitlan vers 1325 est indiquée '132' sans fin. La profondeur est correcte pour un tableau concis, avec de bonnes connexions entre civilisations, mais le texte dépasse probablement les ~120 mots demandés.
mistral mistral-small-latest
7.1/10 3.0 s
mistral mistral-small-latest
Tokens 655
Code source 885 B
Temps 3.0 s
Jugement Matania
Précision
6
Profondeur
7
Relevance
8
Clarté
8
Fidélité
7
Global
7.13
Revue
Le tableau est bien structuré et respecte globalement le format demandé, mais contient plusieurs erreurs factuelles : Jérusalem fut prise en 1099 mais est placée à la ligne 1100, l'Empire inca en formation au 1100 est anachronique (XIVe-XVe siècle), et la cellule Amériques de 1200 est tronquée (parenthèse non fermée). La ligne 1200 mentionne la chute des Song en 1279, soit hors de la période 800-1200. Le compte de lignes (5 lignes de données) est respecté, le titre est présent, mais la longueur dépasse légèrement les ~120 mots demandés et le contenu tronqué nuit à la fidélité.
mistral mistral-tiny-latest
6.5/10 4.9 s
mistral mistral-tiny-latest
Tokens 838
Code source 1.6 KB
Temps 4.9 s
Jugement Matania
Précision
5
Profondeur
6
Relevance
6
Clarté
7
Fidélité
7
Global
6.5
Revue
Le tableau markdown est bien structuré et respecte le format demandé avec 5 lignes et les 4 colonnes requises, et le titre est présent. Cependant, plusieurs erreurs factuelles pénalisent la note d'accuracy : les Aztèques n'existaient pas encore à 800 CE, la conquête de l'Andalousie par les Almoravides date de 1086 (pas 1000), la Dynasty Song du Sud commence en 1127, Gutenberg (presse à imprimer) est bien après 1200, et l'Empire Inca n'était pas encore expansionniste en 1200. La longueur du texte (~180 mots) dépasse légèrement le ~120 mots demandé, ce qui affecte modérément la fidélité.
openai gpt-4o-mini
3.0/10 6.1 s
openai gpt-4o-mini
Tokens 715
Code source 1.1 KB
Temps 6.1 s
Jugement Matania
Précision
3
Profondeur
4
Relevance
5
Clarté
4
Fidélité
2
Global
3
Revue
Le tableau présente de nombreuses erreurs factuelles et formelles : les années sont tronquées (800-120 au lieu de 800-1200, 100 au lieu de 1000, 110 au lieu de 1100, 120 au lieu de 1200), ce qui rend le contenu confus et inexact. La fidélité au prompt est très faible car le titre contient une erreur de date, les années dans le tableau sont incorrectes, et des anachronismes apparaissent (l'Empire inca n'existait pas en 1200, les mayas n'utilisaient pas l'écriture hiéroglyphique à cette période de la même façon). Le nombre de lignes (4) est conforme, mais la qualité générale souffre de ces erreurs fondamentales.
openai gpt-5.4-nano
4.4/10 3.7 s
openai gpt-5.4-nano
Tokens 718
Code source 1.1 KB
Temps 3.7 s
Jugement Matania
Précision
5
Profondeur
6
Relevance
7
Clarté
5
Fidélité
3
Global
4.38
Revue
Le tableau markdown est présent mais contient de graves erreurs de format : le titre indique '800–120' au lieu de '800–1200', et les années dans les lignes sont tronquées ('900–105', '105–120') au lieu de '900–1050' et '1050–1200', ce qui nuit fortement à la fidélité et à la précision. De plus, une ligne 'Bilan' a été ajoutée, portant le tableau à 4 lignes de données plus un bilan, ce qui dépasse légèrement l'esprit du prompt (4-5 lignes). Le contenu factuel est globalement correct mais approximatif, et la concision est respectée (~120 mots).
openai gpt-5.5
9.6/10 10.2 s
openai gpt-5.5
Tokens 705
Code source 1.1 KB
Temps 10.2 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.63
Revue
Le modèle respecte scrupuleusement toutes les contraintes : format markdown, nombre de lignes, structure des colonnes et titre. L'exactitude historique est excellente, notamment sur la transition des Song et le déclin maya. Le contenu est concis et parfaitement aligné avec la limite de mots demandée.
openai gpt-5.5-pro
9.6/10 203.3 s
openai gpt-5.5-pro
Tokens 635
Code source 805 B
Temps 203.3 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.63
Revue
Le modèle respecte scrupuleusement toutes les contraintes du prompt : le format markdown, le titre H2, le nombre de lignes, les colonnes spécifiques et la concision. Les informations historiques sont précises et pertinentes pour la période demandée, offrant une excellente synthèse malgré la limite de mots.
productivia matania-latest
9.4/10 3.0 s
productivia matania-latest
Tokens 687
Code source 1013 B
Temps 3.0 s
Jugement Matania
Précision
9
Profondeur
7
Relevance
9
Clarté
10
Fidélité
10
Global
9.38
Revue
Le modèle respecte scrupuleusement toutes les contraintes du prompt : le format markdown, le titre, le nombre de colonnes, le nombre de lignes et la limite de mots. Les données historiques sont précises et pertinentes pour la période demandée. La structure est parfaitement exécutée.
xai grok-4-1-fast-non-reasoning
3.9/10 4.2 s
xai grok-4-1-fast-non-reasoning
Tokens 707
Code source 1.1 KB
Temps 4.2 s
Jugement Matania
Précision
4
Profondeur
6
Relevance
7
Clarté
6
Fidélité
2
Global
3.88
Revue
Le tableau est bien structuré avec de bonnes informations par civilisation, mais les dates dans la colonne 'Année' sont manifestement tronquées (800, 100, 110, 120 au lieu de 800, 1000, 1100, 1200), ce qui constitue des erreurs factuelles graves et une violation majeure du format attendu. Le titre contient également '800-120' au lieu de '800-1200', confirmant un problème systématique de troncature. La fidélité au prompt est très faible : bien que le tableau markdown soit présent avec les bonnes colonnes et le titre ##, les données corrompues rendent le contenu non conforme aux exigences. Le contenu factuel lui-même (quand on comprend les dates voulues) est globalement pertinent et bien sélectionné.
xai grok-4-1-fast-reasoning
4.4/10 11.1 s
xai grok-4-1-fast-reasoning
Tokens 692
Code source 1.0 KB
Temps 11.1 s
Jugement Matania
Précision
4
Profondeur
6
Relevance
7
Clarté
6
Fidélité
3
Global
4.38
Revue
Le tableau markdown est bien structuré et les exemples choisis sont globalement pertinents, mais le contenu souffre de graves erreurs : le titre indique '800-120' au lieu de '800-1200', et les années dans le tableau sont tronquées (100, 110, 120 au lieu de 1000, 1100, 1200), ce qui constitue des erreurs factuelles et de formatage majeures. La fidélité au prompt est fortement pénalisée car la contrainte de ~120 mots semble respectée et le tableau est présent, mais les dates erronées et le titre incomplet sont des manquements critiques aux exigences de format et d'exactitude.

Étymologie

text
anthropic claude-haiku-4-5-20251001
9.6/10 4.7 s
anthropic claude-haiku-4-5-20251001
Tokens 770
Code source 779 B
Temps 4.7 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.63
Revue
Le modèle a parfaitement respecté toutes les contraintes structurelles et de formatage demandées (Markdown, structure des puces, gras). L'étymologie est exacte et la concision est exemplaire, respectant la limite de mots tout en offrant une profondeur historique pertinente pour chaque terme.
anthropic claude-opus-4-6
7.6/10 8.7 s
anthropic claude-opus-4-6
Tokens 804
Code source 877 B
Temps 8.7 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
9
Fidélité
7
Global
7.63
Revue
Le contenu est factuel et bien choisi, avec des étymologies solides et un bon niveau de détail. Cependant, le format ne respecte pas exactement la structure demandée : les puces auraient dû suivre le modèle strict `**mot** — racine — évolution` en format condensé, mais le texte produit des descriptions multi-phrases par puce, dépassant la concision attendue (~120 mots atteints mais la structure par tirets séparateurs n'est pas respectée). Le titre est correct en markdown `##`, mais l'absence du séparateur `—` entre racine et évolution tel que prescrit constitue un écart de fidélité notable.
anthropic claude-opus-4-7
7.8/10 9.4 s
anthropic claude-opus-4-7
Tokens 1 084
Code source 917 B
Temps 9.4 s
Jugement Matania
Précision
8
Profondeur
8
Relevance
9
Clarté
9
Fidélité
7
Global
7.75
Revue
Le contenu est solide sur le plan étymologique, avec des informations exactes et bien contextualisées pour les trois mots. Cependant, la fidélité au format souffre d'un dépassement notable de la longueur (~150 mots au lieu de ~120), et les puces sont bien structurées mais légèrement plus développées que ce que suggère le format 'concis'. Le titre et la structure markdown sont respectés, mais la contrainte de concision n'est pas pleinement honorée.
anthropic claude-sonnet-4-6
8.9/10 8.3 s
anthropic claude-sonnet-4-6
Tokens 829
Code source 938 B
Temps 8.3 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
9
Clarté
9
Fidélité
9
Global
8.88
Revue
Le contenu est factuellem précis (étymologies de fenêtre, travail et hasard bien documentées), avec des nuances intéressantes comme la connotation persistante de douleur dans 'travail' ou l'extension sémantique de 'hasard'. Le format markdown est respecté (## titre, 3 puces, **mot** en gras), mais le tiret séparateur est correct ; la longueur (~130 mots) dépasse légèrement les ~120 demandés, ce qui reste minime. La structure demandée est bien suivie.
cohere command-r-08-2024
7.0/10 4.7 s
cohere command-r-08-2024
Tokens 617
Code source 750 B
Temps 4.7 s
Jugement Matania
Précision
7
Profondeur
6
Relevance
8
Clarté
7
Fidélité
7
Global
7
Revue
Le format markdown avec titre `##` et trois puces avec `**mot**` est globalement respecté, mais la longueur dépasse légèrement les ~120 mots demandés. Sur le fond, les étymologies sont globalement correctes, bien que la précision sur *liber* mérite nuance (il désigne l'écorce intérieure du bois, pas spécifiquement l'aulne). La répétition aberrante de « *amoureuse* » trois fois dans la dernière puce est une erreur manifeste qui nuit à la qualité et à la crédibilité du texte. La profondeur reste superficielle mais suffisante pour le format demandé.
google gemini-flash-latest
7.9/10 5.9 s
google gemini-flash-latest
Tokens 702
Code source 992 B
Temps 5.9 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
9
Clarté
9
Fidélité
7
Global
7.88
Revue
Le contenu est factuelement solide et bien formulé, avec une évolution claire pour chaque mot. Cependant, le format ne respecte pas exactement la structure demandée : le prompt exige le format `**mot** — racine — évolution` en une puce concise, mais le texte développe des paragraphes complets par puce, ce qui dépasse la concision attendue (~120 mots) et s'écarte du format 'mot — racine — évolution' en trois éléments distincts. Le texte fait environ 180 mots, dépassant la limite demandée.
google gemini-flash-lite-latest
7.0/10 2.4 s
google gemini-flash-lite-latest
Tokens 676
Code source 873 B
Temps 2.4 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
8
Clarté
9
Fidélité
6
Global
7
Revue
Le contenu est factuelement solide et bien rédigé, avec des étymologies correctes et bien expliquées. Cependant, la fidélité au prompt est partiellement respectée : le format demandait explicitement `**mot** — racine — évolution` sur une seule puce concise, alors que le modèle a produit des descriptions développées qui dépassent largement le format compact requis. De plus, le texte dépasse sensiblement les ~120 mots demandés (environ 170 mots), ce qui constitue un écart notable aux contraintes explicites.
kimi moonshot-v1-128k
5.9/10 4.3 s
kimi moonshot-v1-128k
Tokens 608
Code source 713 B
Temps 4.3 s
Jugement Matania
Précision
6
Profondeur
4
Relevance
8
Clarté
9
Fidélité
5
Global
5.88
Revue
Le modèle échoue sur la structure demandée : il utilise des paragraphes descriptifs au lieu du format strict `**mot** — racine — évolution`. De plus, l'étymologie de 'Bonheur' est factuellement imprécise (le suffixe est -eur et non -itudo) et le texte dépasse légèrement la concision attendue pour respecter le format imposé. La fidélité au format est la cause principale de la note basse.
mistral mistral-large-latest
7.6/10 7.1 s
mistral mistral-large-latest
Tokens 729
Code source 1.2 KB
Temps 7.1 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
9
Fidélité
7
Global
7.63
Revue
Le contenu est factellement solide avec des étymologies bien documentées et des exemples pertinents pour les trois mots choisis. Cependant, la fidélité au format est partiellement respectée : le titre est correct en markdown, mais les puces sont trop développées (quasi des paragraphes) au lieu d'être concises, et le texte dépasse largement les ~120 mots demandés (environ 220 mots). Le format demandé '**mot** — racine — évolution' en puce courte n'est pas strictement respecté, chaque entrée étant un mini-paragraphe détaillé. La dernière puce est également tronquée, ce qui nuit à la complétude.
mistral mistral-small-latest
8.1/10 2.4 s
mistral mistral-small-latest
Tokens 635
Code source 822 B
Temps 2.4 s
Jugement Matania
Précision
9
Profondeur
7
Relevance
9
Clarté
8
Fidélité
8
Global
8.13
Revue
Le contenu est factuellemnt solide et bien structuré, avec trois mots pertinents et des étymologies correctes (latin liber, grec scholē, latin vectūra). La fidélité au format est bonne (titre ## et trois puces avec **mot** en gras), mais la dernière puce est tronquée ('automobile' ou 'moyen' sans suite), ce qui constitue un défaut notable. La concision est globalement respectée, mais la coupure finale nuit à la complétude et à la clarté.
mistral mistral-tiny-latest
6.8/10 1.7 s
mistral mistral-tiny-latest
Tokens 559
Code source 519 B
Temps 1.7 s
Jugement Matania
Précision
6
Profondeur
3
Relevance
6
Clarté
7
Fidélité
8
Global
6.75
Revue
Le format markdown est globalement respecté (titre ##, 3 puces, gras pour les mots), mais la structure de chaque puce mélange 'racine' et 'évolution' de façon redondante et circulaire (ex: 'racine latine amor (amour)'). La profondeur est très faible : les étymologies proposées sont superficielles, répétitives et n'apportent pas de vrai cheminement historique ni de contexte (pas de proto-indo-européen, pas de sens originel différent, pas d'évolution sémantique). L'exactitude est passable mais contestable pour 'Liberté' dont l'ordre chronologique est inversé (on cite bas latin après classique).
openai gpt-4o-mini
6.3/10 3.6 s
openai gpt-4o-mini
Tokens 586
Code source 627 B
Temps 3.6 s
Jugement Matania
Précision
7
Profondeur
5
Relevance
7
Clarté
7
Fidélité
6
Global
6.25
Revue
Le format markdown est partiellement respecté (titre `##`, trois puces, gras sur les mots), mais la phrase conclusive finale n'est pas demandée et dépasse la structure stricte des 3 puces. Sur le fond, l'étymologie de 'lumière' est légèrement inexacte : le mot vient plutôt de *luminaria* (pluriel neutre de *luminare*) ou du latin classique *lumen/luminis*, et l'explication du suffixe -ière est approximative. Le texte dépasse légèrement les ~120 mots avec la phrase conclusive non sollicitée, ce qui nuit à la fidélité au prompt. La profondeur reste superficielle sans contextualisation historique ou phonétique plus poussée.
openai gpt-5.4-nano
8.5/10 3.4 s
openai gpt-5.4-nano
Tokens 657
Code source 910 B
Temps 3.4 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
8
Fidélité
9
Global
8.5
Revue
Les trois étymologies sont globalement exactes et bien choisies (bonjour, fromage, travail sont des exemples classiques et pertinents). La structure markdown est respectée avec le titre `##` et les trois puces au format `**mot**` — racine — évolution. Le texte est légèrement au-dessus des ~120 mots demandés (~130), ce qui est une légère entorse à la contrainte de longueur, mais la fidelity reste bonne. La profondeur est honnête pour un format concis, bien que certaines nuances chronologiques (dates) soient absentes.
openai gpt-5.5
9.8/10 12.1 s
openai gpt-5.5
Tokens 601
Code source 684 B
Temps 12.1 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle respecte scrupuleusement toutes les contraintes : le format Markdown est parfait, la structure des puces est identique à la demande et la longueur est optimale (~105 mots). Les informations étymologiques sont exactes et la progression sémantique est clairement exposée.
openai gpt-5.5-pro
9.8/10 216.1 s
openai gpt-5.5-pro
Tokens 587
Code source 629 B
Temps 216.1 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle respecte scrupuleusement toutes les contraintes : le format Markdown est exact, la structure des puces est parfaitement conforme et la longueur est idéale (~115 mots). L'exactitude étymologique est irréprochable et la concision permet d'offrir une profondeur intéressante malgré la limite de mots.
productivia matania-latest
6.8/10 2.2 s
productivia matania-latest
Tokens 630
Code source 803 B
Temps 2.2 s
Jugement Matania
Précision
10
Profondeur
9
Relevance
10
Clarté
9
Fidélité
4
Global
6.75
Revue
L'exactitude historique et la qualité rédactionnelle sont excellentes. Cependant, le modèle échoue lourdement sur la fidélité au prompt : il répète le mot 'Travail' au lieu de proposer trois mots distincts, et inclut une note d'auto-correction ('Note : remplacement par...') qui n'était pas demandée, brisant la structure propre attendue.
xai grok-4-1-fast-non-reasoning
8.4/10 3.1 s
xai grok-4-1-fast-non-reasoning
Tokens 615
Code source 742 B
Temps 3.1 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
8
Clarté
8
Fidélité
9
Global
8.38
Revue
Le format markdown est bien respecté avec le titre H2 et les trois puces au format demandé (**mot** — racine — évolution). La longueur est appropriée (~120 mots). L'exactitude étymologique est globalement bonne (mansio/manere, femina, diurnata/diurnus), avec quelques légères approximations (la mention 'fëmin-' est superflue et peu rigoureuse, et 'période de 24h' pour 'journée' est inexact — une journée désigne la durée diurne, pas 24h). La profondeur reste concise mais suffisante pour le format demandé.
xai grok-4-1-fast-reasoning
8.6/10 14.5 s
xai grok-4-1-fast-reasoning
Tokens 543
Code source 452 B
Temps 14.5 s
Jugement Matania
Précision
9
Profondeur
6
Relevance
9
Clarté
9
Fidélité
9
Global
8.63
Revue
Les trois étymologies sont factuellement solides et bien choisies (liber, skholḗ, tripalium sont des racines correctes et bien documentées). Le format markdown respecte le titre en ## et les trois puces avec **mot** en gras, la racine et l'évolution. La concision est au rendez-vous (~60 mots, en deçà des 120 demandés), ce qui nuit légèrement à la profondeur : les transitions historiques intermédiaires (passage latin→vieux français, emprunts médiévaux) sont absentes. La fidélité est très bonne malgré l'absence de séparation explicite « racine — évolution » au sens strict d'un tiret triple (le format adopté reste conforme à l'esprit du prompt).

Géopolitique

text
anthropic claude-haiku-4-5-20251001
9.8/10 4.3 s
anthropic claude-haiku-4-5-20251001
Tokens 887
Code source 1.1 KB
Temps 4.3 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle a parfaitement respecté toutes les contraintes du prompt : le format Markdown est exact, la structure demandée est suivie, et la longueur est idéale (~155 mots). Les informations géopolitiques sont précises, pertinentes et traitent efficacement des enjeux de sécurité et de souveraineté.
anthropic claude-opus-4-6
8.9/10 10.2 s
anthropic claude-opus-4-6
Tokens 897
Code source 1.1 KB
Temps 10.2 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
9
Clarté
9
Fidélité
9
Global
8.88
Revue
Le contenu est factuellement solide (21 millions de barils/jour, Ve flotte à Bahreïn, largeur de 33 km) et bien structuré selon le format demandé. La profondeur est bonne pour un texte concis, avec mention du GNL qatari et des économies importatrices. Le texte dépasse légèrement les ~150 mots visés (environ 180 mots), ce qui constitue un écart mineur à la contrainte de longueur, justifiant une légère pénalité sur la fidélité.
anthropic claude-opus-4-7
9.4/10 10.6 s
anthropic claude-opus-4-7
Tokens 1 187
Code source 1.1 KB
Temps 10.6 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
9
Clarté
9
Fidélité
10
Global
9.38
Revue
La note respecte parfaitement le format demandé (markdown, trois sections exactes, titre cohérent) et se situe dans la fourchette de ~150 mots. Les données factuelles sont solides (33 km de largeur minimale, 20 % du pétrole mondial, Ve flotte à Bahreïn, base française à Abou Dabi, opération Agenor) et les enjeux sont bien hiérarchisés. La mention du GNL et des détails opérationnels (mines, vedettes, missiles côtiers) apporte une profondeur appréciable pour un texte aussi court, même si une nuance sur les alternatives (oléoduc saoudien Abqaiq-Yanbu) aurait enrichi davantage l'analyse.
anthropic claude-sonnet-4-6
9.4/10 8.8 s
anthropic claude-sonnet-4-6
Tokens 880
Code source 979 B
Temps 8.8 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
9
Clarté
9
Fidélité
10
Global
9.38
Revue
Le texte respecte scrupuleusement le format demandé (## Titre, ### sections) et reste dans la limite de ~150 mots. Les données factuelles sont exactes (largeur ~33 km, ~20% du pétrole mondial, 5e flotte à Bahreïn, oléoduc Abqaiq-Yanbu), avec une bonne couverture des acteurs clés et des enjeux énergétiques. La profondeur est correcte pour un format concis, bien que les tensions géopolitiques récentes (accords Abraham, incidents de 2019-2023) auraient pu être mentionnées pour enrichir l'analyse.
cohere command-r-08-2024
8.1/10 5.5 s
cohere command-r-08-2024
Tokens 725
Code source 1.1 KB
Temps 5.5 s
Jugement Matania
Précision
8
Profondeur
6
Relevance
7
Clarté
8
Fidélité
9
Global
8.13
Revue
Le texte respecte fidèlement le format markdown demandé avec les trois sections requises (Position, Enjeux, Acteurs clés) et un titre correct. Factuellement, la géographie est exacte (Iran, Oman, golfe Persique), mais des chiffres précis (environ 20-21% du pétrole mondial) ou des tensions récentes auraient renforcé la crédibilité. La profondeur reste superficielle : les nuances géopolitiques comme les tensions Iran-USA, les opérations navales, ou le rôle des Houthis sont absentes, et le texte dépasse légèrement les 150 mots (~160), ce qui est minime.
google gemini-flash-latest
9.4/10 7.2 s
google gemini-flash-latest
Tokens 785
Code source 1.3 KB
Temps 7.2 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
9
Clarté
9
Fidélité
10
Global
9.38
Revue
Le texte respecte scrupuleusement le format demandé (## Titre, ### sections) et se situe dans la fourchette de ~150 mots. Les données factuelles sont exactes (largeur du détroit, part du pétrole mondial, Ve Flotte à Bahreïn) et les enjeux sont bien hiérarchisés. La profondeur reste légèrement limitée par la contrainte de concision, mais les perspectives multiples (Iran, USA, monarchies du Golfe, Chine, UE) sont efficacement couvertes.
google gemini-flash-lite-latest
8.4/10 3.5 s
google gemini-flash-lite-latest
Tokens 763
Code source 1.3 KB
Temps 3.5 s
Jugement Matania
Précision
7
Profondeur
7
Relevance
8
Clarté
9
Fidélité
9
Global
8.38
Revue
Le texte respecte bien le format markdown demandé avec les trois sections requises et un titre clair. Factuellement, la largeur de 14 km est correcte, mais l'affirmation que 20 % du trafic pétrolier transite par Gibraltar 'via le canal de Suez' est maladroite et potentiellement inexacte dans sa formulation. La profondeur est honnête mais reste en surface ; on aurait pu mentionner le Brexit et ses implications sur le statut de Gibraltar. Le texte dépasse légèrement les 150 mots (~180 mots), ce qui constitue un petit écart au prompt, mais la structure et le format sont globalement bien respectés.
kimi moonshot-v1-128k
8.6/10 5.8 s
kimi moonshot-v1-128k
Tokens 707
Code source 1.1 KB
Temps 5.8 s
Jugement Matania
Précision
7
Profondeur
5
Relevance
8
Clarté
9
Fidélité
10
Global
8.63
Revue
Le modèle respecte parfaitement toutes les contraintes de format, de structure et de longueur (environ 145 mots). Cependant, sur le plan factuel, l'affirmation selon laquelle le détroit est 'contrôlé par le Royaume-Uni' est une simplification excessive qui omet le rôle de l'Espagne et la gestion partagée de la zone, ce qui limite la profondeur géopolitique.
mistral mistral-large-latest
8.4/10 9.7 s
mistral mistral-large-latest
Tokens 879
Code source 1.7 KB
Temps 9.7 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
9
Clarté
9
Fidélité
8
Global
8.38
Revue
Le contenu est factuellement solide avec des données précises (barils, pourcentages, acteurs) et bien structuré. La fidélité au format markdown est globalement respectée avec les titres demandés, mais le texte dépasse largement les ~150 mots demandés (environ 300 mots), ce qui constitue un écart notable à la contrainte de concision. La profondeur et la pertinence sont bonnes, avec des exemples concrets et des perspectives multiples (Iran, USA, Chine, pays du Golfe).
mistral mistral-small-latest
7.6/10 3.0 s
mistral mistral-small-latest
Tokens 698
Code source 1.0 KB
Temps 3.0 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
9
Fidélité
7
Global
7.63
Revue
Le contenu est factuellement solide (position géographique, 5e flotte US, rôle de l'Iran) et bien structuré avec des exemples pertinents. La fidélité au format est globalement respectée (## et ###), mais les titres de sections utilisent du gras supplémentaire (**###**) non demandé, et le texte dépasse légèrement les ~150 mots (environ 170-180), ce qui constitue un écart aux contraintes explicites du prompt. La profondeur est correcte mais reste superficielle sur les dynamiques récentes (accords d'Abraham, normalisation régionale).
mistral mistral-tiny-latest
8.3/10 2.9 s
mistral mistral-tiny-latest
Tokens 715
Code source 1.1 KB
Temps 2.9 s
Jugement Matania
Précision
8
Profondeur
6
Relevance
7
Clarté
9
Fidélité
9
Global
8.25
Revue
Le texte respecte bien la structure markdown demandée avec les trois sections requises et une longueur appropriée (~150 mots). Les informations sont globalement exactes (pays riverains, rôle commercial), bien que le chiffre de 30% soit légèrement exagéré (généralement 25-28%) et que la mention 'plus court chemin entre Asie de l'Est et Europe' soit imprécise géographiquement. La profondeur reste superficielle : on manque de nuances sur les tensions sino-américaines, la problématique de la piraterie passée, ou les alternatives envisagées par la Chine (canal thaïlandais, routes terrestres).
openai gpt-4o-mini
8.9/10 4.5 s
openai gpt-4o-mini
Tokens 681
Code source 976 B
Temps 4.5 s
Jugement Matania
Précision
8
Profondeur
6
Relevance
8
Clarté
9
Fidélité
10
Global
8.88
Revue
Le texte respecte parfaitement le format demandé (markdown, titres H2/H3, sections Position/Enjeux/Acteurs clés) et se situe dans la plage de longueur souhaitée (~150 mots). Les informations factuelles sont globalement exactes (géographie, importance du trafic), bien que la mention 'd'un quart du trafic maritime global' soit une légère surestimation (on parle habituellement de ~25-30% du commerce maritime, ce qui est acceptable). La profondeur reste limitée : les nuances géopolitiques (initiative BRI chinoise, accord de sécurité trilatéral, vulnérabilité énergétique japonaise) sont absentes, et les tensions sino-américaines sont évoquées de façon très générale.
openai gpt-5.4-nano
8.5/10 3.5 s
openai gpt-5.4-nano
Tokens 729
Code source 1.1 KB
Temps 3.5 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
8
Clarté
9
Fidélité
9
Global
8.5
Revue
Le texte respecte scrupuleusement la structure markdown demandée (## Titre, ### sections) et reste dans la cible des ~150 mots. Factuellement solide, les acteurs clés sont pertinents (Espagne, Royaume-Uni, Maroc, OTAN) et les enjeux bien couverts, bien que certains points (environnement, croisière) soient un peu secondaires par rapport aux enjeux géopolitiques centraux. La profondeur pourrait être légèrement accrue en mentionnant la souveraineté disputée de Gibraltar comme tension structurante, mais le format concis imposé limite cela.
openai gpt-5.5
9.8/10 9.4 s
openai gpt-5.5
Tokens 722
Code source 1.1 KB
Temps 9.4 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle respecte parfaitement toutes les contraintes : le format Markdown est exact, la structure demandée est scrupuleusement suivie et la longueur est optimale (~160 mots, très proche de la cible). Le contenu est factuellement irréprochable, clair et offre une analyse géopolitique concise et pertinente.
openai gpt-5.5-pro
9.8/10 58.6 s
openai gpt-5.5-pro
Tokens 695
Code source 1.0 KB
Temps 58.6 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle respecte parfaitement toutes les contraintes : la structure Markdown est exacte, le nombre de mots est idéalement proche de la cible (~145 mots) et le contenu est d'une grande précision factuelle. L'analyse est concise tout en couvrant les enjeux stratégiques essentiels.
productivia matania-latest
9.8/10 2.6 s
productivia matania-latest
Tokens 765
Code source 1.3 KB
Temps 2.6 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle a parfaitement respecté toutes les contraintes du prompt : le format Markdown est exact, la structure est strictement conforme et la longueur est idéale (environ 160 mots). Le contenu est factuellement précis, pertinent et traite les enjeux géopolitiques avec une clarté remarquable pour un format aussi concis.
xai grok-4-1-fast-non-reasoning
8.6/10 3.9 s
xai grok-4-1-fast-non-reasoning
Tokens 670
Code source 932 B
Temps 3.9 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
9
Fidélité
9
Global
8.63
Revue
Le texte respecte scrupuleusement le format markdown demandé (## titre, ### sections), couvre les trois sections requises et reste concis (~120-130 mots, dans la cible). Les données factuelles sont globalement exactes (20 % du pétrole mondial, 5e flotte à Bahreïn, largeur du détroit) bien que la largeur minimale soit plutôt ~34 km à certains points critiques et la mention '~120 mots' en bas est superflue. La profondeur est correcte pour un format court, mais manque de nuances sur les alternatives (pipeline Habshan-Fujairah) et les dynamiques récentes. Les exemples sont pertinents et bien choisis pour illustrer les enjeux stratégiques.
xai grok-4-1-fast-reasoning
8.5/10 6.6 s
xai grok-4-1-fast-reasoning
Tokens 666
Code source 917 B
Temps 6.6 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
8
Clarté
9
Fidélité
9
Global
8.5
Revue
Le contenu est factuellement solide (largeur du détroit, volumes de transit pétrolier) avec quelques chiffres légèrement variables selon les sources, mais globalement fiables. La structure markdown est parfaitement respectée (## titre, ### sections) et la longueur est conforme (~150 mots). La profondeur reste superficielle — les tensions Iran-USA auraient pu être nuancées davantage — mais le format concis contraint naturellement l'analyse.

Mythologie comparée

text
anthropic claude-haiku-4-5-20251001
9.8/10 4.9 s
anthropic claude-haiku-4-5-20251001
Tokens 941
Code source 1.2 KB
Temps 4.9 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle a parfaitement respecté toutes les contraintes : le format Markdown est exact, la structure est respectée et la longueur est idéale (~160 mots, très proche de la cible). Les informations sont factuellement précises et les nuances entre les trois cultures sont bien restituées malgré la concision imposée.
anthropic claude-opus-4-6
9.4/10 14.9 s
anthropic claude-opus-4-6
Tokens 965
Code source 1.2 KB
Temps 14.9 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
9
Clarté
9
Fidélité
10
Global
9.38
Revue
Le texte est factuellement solide : les références à la tablette XI de Gilgamesh, Uta-Napishtim, la Genèse 6-9 et le mythe aztèque Nahui-Atl avec Tata et Nene sont correctes et précises. La structure markdown est parfaitement respectée (## titre, liste à puces par culture, ### Parallèles), et la longueur est bien calibrée (~150 mots). La section des parallèles offre une synthèse nuancée qui distingue habilement les finalités divergentes des trois traditions, ce qui témoigne d'une vraie profondeur analytique pour un format aussi concis.
anthropic claude-opus-4-7
8.9/10 12.0 s
anthropic claude-opus-4-7
Tokens 1 274
Code source 1.2 KB
Temps 12.0 s
Jugement Matania
Précision
9
Profondeur
8
Relevance
9
Clarté
9
Fidélité
9
Global
8.88
Revue
Le texte est factuellement solide (Utanapishtim, Ea, références exactes aux textes sources, détails du mont Nisir et du Codex Chimalpopoca), avec quelques nuances pertinentes comme le corbeau/colombe et l'arc-en-ciel. La structure markdown est parfaitement respectée (## titre, liste à puces, ### Parallèles), et la longueur (~150 mots) est bien calibrée. La section Parallèles est concise et synthétique, bien que légèrement superficielle sur les divergences entre traditions.
anthropic claude-sonnet-4-6
8.6/10 10.7 s
anthropic claude-sonnet-4-6
Tokens 970
Code source 1.2 KB
Temps 10.7 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
9
Fidélité
9
Global
8.63
Revue
Le texte est bien structuré selon le format demandé (## titre, listes à puces, ### Parallèles) et couvre trois cultures pertinentes avec des détails factuellement solides. Quelques légères imprécisions : la datation de la Genèse au VIIe siècle est une simplification contestable, et le mythe nahuatl est légèrement simplifié (Tezcatlipoca n'est pas le dieu principal dans toutes les versions du mythe du Cinquième Soleil). La longueur (~180 mots) dépasse légèrement la cible de ~150 mots, mais reste acceptable. La section Parallèles est concise et analytiquement pertinente.
cohere command-r-08-2024
8.1/10 11.9 s
cohere command-r-08-2024
Tokens 786
Code source 1.3 KB
Temps 11.9 s
Jugement Matania
Précision
7
Profondeur
6
Relevance
8
Clarté
8
Fidélité
9
Global
8.13
Revue
Le texte respecte bien le format markdown demandé (## titre, liste à puces par culture, section ### Parallèles) et se situe dans la longueur cible (~150 mots). L'exactitude est globalement bonne, mais on note une erreur factuelle notable : la pluie dure 40 jours dans la Genèse, non pas 4 jours. La section mésoaméricaine reste trop vague, sans nommer de mythe précis (ex. Tepeu et Gucumatz chez les Mayas, ou Coxcoxtli chez les Aztèques), ce qui nuit à la profondeur. Les parallèles sont pertinents mais restent en surface sans nuancer les différences entre les traditions.
google gemini-flash-latest
9.1/10 6.2 s
google gemini-flash-latest
Tokens 817
Code source 1.3 KB
Temps 6.2 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
9
Fidélité
10
Global
9.13
Revue
Le texte respecte parfaitement le format demandé (## titre, liste à puces pour chaque culture, section ### Parallèles) et reste dans la contrainte de ~150 mots. Les faits sont globalement exacts — Outnapishtim, le mont Nimush, Noé, Tata et Nene — bien que l'attribution exclusive à Tezcatlipoca du rôle de sauveur dans le mythe aztèque soit légèrement inexacte (c'est davantage Titlacauan/Tezcatlipoca dans certaines versions, mais d'autres sources citent Tlaloc). La section Parallèles est concise et pertinente, dégageant correctement les thèmes communs sans tomber dans la superficialité.
google gemini-flash-lite-latest
8.6/10 3.7 s
google gemini-flash-lite-latest
Tokens 863
Code source 1.5 KB
Temps 3.7 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
9
Fidélité
9
Global
8.63
Revue
Le contenu est factuellement solide avec des détails précis (Utnapishtim, mont Nimush, Tata et Nene, Nahui-Atl), bien que le mont Nimush soit parfois orthographié Nisir et que le navire cubique mérite une nuance. La structure markdown est parfaitement respectée (## titre, listes à puces, ### Parallèles) et la longueur est dans la fourchette demandée (~150 mots). La section Parallèles est concise mais pertinente, offrant une synthèse anthropologique convaincante.
kimi moonshot-v1-128k
9.5/10 6.2 s
kimi moonshot-v1-128k
Tokens 767
Code source 1.3 KB
Temps 6.2 s
Jugement Matania
Précision
9
Profondeur
7
Relevance
10
Clarté
10
Fidélité
10
Global
9.5
Revue
Le modèle a parfaitement respecté toutes les contraintes : le format Markdown, la structure demandée, le nombre de cultures et la concision (~165 mots, très proche de la cible). L'exactitude historique est excellente et les parallèles sont pertinents, bien que la profondeur puisse être légèrement augmentée si le nombre de mots le permettait.
mistral mistral-large-latest
7.6/10 12.2 s
mistral mistral-large-latest
Tokens 986
Code source 2.1 KB
Temps 12.2 s
Jugement Matania
Précision
7
Profondeur
8
Relevance
9
Clarté
9
Fidélité
7
Global
7.63
Revue
La structure markdown est globalement respectée (## titre, listes à puces, ### Parallèles), mais le texte est nettement trop long (~350 mots au lieu de ~150), ce qui constitue un écart significatif par rapport à la contrainte de concision explicitement demandée. L'exactitude factuelle est bonne dans l'ensemble, bien que la date de l'Épopée de Gilgamesh (~2100 av. J.-C. pour les versions sumériennes) soit indiquée comme ~200 av. J.-C., ce qui est inexact. La profondeur et la pertinence sont remarquables, notamment la nuance sur le Popol Vuh et l'absence de héros sauveur.
mistral mistral-small-latest
7.4/10 4.6 s
mistral mistral-small-latest
Tokens 871
Code source 1.7 KB
Temps 4.6 s
Jugement Matania
Précision
7
Profondeur
7
Relevance
9
Clarté
8
Fidélité
7
Global
7.38
Revue
Le contenu est globalement solide et bien structuré : les trois cultures sont bien choisies et les détails (noms, sources, mesures) sont majoritairement exacts, bien que quelques points soient approximatifs (la datation de Gilgamesh, la description du mythe aztèque qui mélange des éléments). La section ### Parallèles est présente et pertinente. Cependant, le texte est nettement trop long (~250 mots au lieu de ~150), ce qui constitue un écart significatif au format demandé ; de plus, la réponse semble tronquée (phrase finale coupée), ce qui nuit à la fidelity. La clarté est bonne mais la longueur excessive impacte le respect des contraintes du prompt.
mistral mistral-tiny-latest
5.0/10 10.2 s
mistral mistral-tiny-latest
Tokens 922
Code source 1.9 KB
Temps 10.2 s
Jugement Matania
Précision
5
Profondeur
5
Relevance
7
Clarté
7
Fidélité
4
Global
5
Revue
Le contenu présente une erreur factuelle notable : l'Épopée de Gilgamesh ne date pas de '21 av. J.-C.' mais de circa 2100-1200 av. J.-C. (date manifestement tronquée ou erronée). Sur le fond du Popol Vuh maya, la description est approximative mais acceptable. Concernant la fidélité au format, la structure demandée n'est pas respectée : le prompt exige des listes à puces (une par culture) sous un seul titre `## Titre`, puis `### Parallèles`, mais le modèle a utilisé des sous-sections `###` pour chaque culture avec du texte en prose au lieu de listes à puces, ce qui constitue une déviation significative. De plus, le texte dépasse légèrement 150 mots (environ 300 mots), violant la contrainte de concision.
openai gpt-4o-mini
7.8/10 6.1 s
openai gpt-4o-mini
Tokens 733
Code source 1.1 KB
Temps 6.1 s
Jugement Matania
Précision
5
Profondeur
5
Relevance
8
Clarté
8
Fidélité
9
Global
7.75
Revue
Le format markdown est bien respecté (titres, listes, section Parallèles) et la longueur est dans la cible (~150 mots). Cependant, il y a une erreur factuelle notable : dans le Popol Vuh, les survivants du déluge ne s'appellent pas 'Tepeu et Gucumatz' — ce sont les dieux créateurs, non les survivants (qui seraient plutôt Zipacná ou des ancêtres humains) ; cette confusion nuit à l'exactitude. La profondeur reste superficielle, sans nuances culturelles spécifiques, mais c'est acceptable pour le format concis demandé. La clarté et la pertinence des exemples choisis sont bonnes.
openai gpt-5.4-nano
6.5/10 3.7 s
openai gpt-5.4-nano
Tokens 817
Code source 1.5 KB
Temps 3.7 s
Jugement Matania
Précision
8
Profondeur
7
Relevance
9
Clarté
8
Fidélité
5
Global
6.5
Revue
Le contenu est globalement exact et pertinent, avec de bonnes nuances culturelles (cycles cosmiques mésoaméricains vs châtiment moral biblique). Cependant, la fidélité au prompt est insuffisante : le format demande une liste à puces par culture sous un seul titre principal '## Titre', puis une section '### Parallèles', alors que le modèle a créé trois titres '##' distincts (un par culture), s'écartant de la structure demandée. De plus, le texte dépasse nettement les ~150 mots (environ 230 mots), ce qui contrevient à la contrainte de concision explicitement formulée.
openai gpt-5.5
9.8/10 11.2 s
openai gpt-5.5
Tokens 722
Code source 1.1 KB
Temps 11.2 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle a parfaitement respecté toutes les contraintes : le format Markdown est exact, la structure est respectée et la longueur est idéale (~145 mots). L'exactitude factuelle est irréprochable et la synthèse des parallèles est pertinente malgré la brièveté imposée.
openai gpt-5.5-pro
9.8/10 52.1 s
openai gpt-5.5-pro
Tokens 694
Code source 1013 B
Temps 52.1 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle a parfaitement respecté toutes les contraintes : le format Markdown est exact, la structure demandée est suivie et la longueur est idéalement calibrée (~145 mots). L'exactitude factuelle est irréprochable et la comparaison est pertinente et concise.
productivia matania-latest
9.8/10 2.6 s
productivia matania-latest
Tokens 724
Code source 1.1 KB
Temps 2.6 s
Jugement Matania
Précision
10
Profondeur
8
Relevance
10
Clarté
10
Fidélité
10
Global
9.75
Revue
Le modèle a parfaitement respecté toutes les contraintes du prompt : le format Markdown est exact, la structure est strictement suivie et la longueur est parfaitement calibrée (~160 mots). Le contenu est factuellement irréprochable et les parallèles sont pertinents sans être superficiels.
xai grok-4-1-fast-non-reasoning
8.4/10 6.2 s
xai grok-4-1-fast-non-reasoning
Tokens 776
Code source 1.3 KB
Temps 6.2 s
Jugement Matania
Précision
7
Profondeur
7
Relevance
9
Clarté
8
Fidélité
9
Global
8.38
Revue
Le texte respecte bien le format demandé (## titre, liste à puces par culture, ### Parallèles) et se situe dans la bonne fourchette de mots (~140). Sur le plan factuel, quelques imprécisions : Utnapishtim n'obtient pas l'immortalité après le déluge dans ce passage précis (il l'obtient via la plante), et le mélange Coxcox (aztèque) avec le Popol Vuh (maya) crée une confusion culturelle entre deux traditions distinctes. La profondeur reste convenable pour un format concis, avec des détails pertinents sur chaque mythe. La section Parallèles est synthétique et utile, bien qu'un peu énumérative.
xai grok-4-1-fast-reasoning
8.0/10 10.3 s
xai grok-4-1-fast-reasoning
Tokens 723
Code source 1.1 KB
Temps 10.3 s
Jugement Matania
Précision
6
Profondeur
6
Relevance
8
Clarté
8
Fidélité
9
Global
8
Revue
La structure markdown est bien respectée (## titre, listes à puces, ### Parallèles) et la longueur est conforme (~140 mots). Cependant, la date de l'Épopée de Gilgamesh est erronée : 'vers 210 av. J.-C.' est incorrect — la version standard akkadienne date d'environ 1200 av. J.-C., avec des versions antérieures sumériennes bien plus anciennes. Le traitement mésoaméricain manque de précision (le Popol Vuh ne décrit pas un couple simple mais une série de créations successives), ce qui nuit à la profondeur et à l'exactitude. La section Parallèles est concise mais pertinente.
Code