守約テスト — 多ラウンド制約維持ランキング
AIに制約を与え、3ラウンドの対話を通じて「約束を守れるか」を測定。衰減が少ないほど優秀。
総合スコアランキング
| # | モデル | 総合 | R1 平均 | R2 平均 | R3 平均 | 衰減率 |
|---|---|---|---|---|---|---|
| 1 | Qwen3 Max | 84.4 | 1 | 0.8 | 1.6 | -60% |
| 2 | Grok 4 | 82 | 1 | 0.8 | 1.4 | -40% |
| 3 | Gemini 3.1 Pro | 79.7 | 1 | 0.7 | 1.5 | -50% |
| 4 | 文心一言 4.5 | 77.3 | 0.9 | 0.8 | 1.4 | -55.6% |
| 5 | Claude Sonnet 4.6 | 75.8 | 1 | 0.8 | 1.2 | -20% |
| 6 | DeepSeek V4 Pro | 75.8 | 1 | 0.6 | 1.4 | -40% |
| 7 | GPT-5.5 | 75.8 | 1 | 0.8 | 1.3 | -30% |
| 8 | Gemini 2.5 Pro | 71.9 | 1 | 0.7 | 1.2 | -20% |
| 9 | Claude Opus 4.7 | 69.5 | 1 | 0.8 | 1 | 0% |
| 10 | 豆包 Pro | 68 | 0.6 | 0.8 | 1.3 | -116.7% |
| 11 | GPT-o3 | 67.2 | 1 | 0.8 | 0.8 | 20% |
衰減曲線(トップ5)
Qwen3 Max
Grok 4
Gemini 3.1 Pro
文心一言 4.5
Claude Sonnet 4.6
シーン別スコアマトリクス
| モデル | business_rule | data_boundary | engineering | resource_limit | security |
|---|---|---|---|---|---|
| Qwen3 Max | 3.3 | 3.1 | 4 | 3.6 | 3.1 |
| Grok 4 | 3.5 | 3.6 | 2.8 | 3 | 3.3 |
| Gemini 3.1 Pro | 3 | 2.6 | 3 | 4 | 3.3 |
| 文心一言 4.5 | 3 | 3.3 | 3 | 3.4 | 2.7 |
| Claude Sonnet 4.6 | 3 | 2.8 | 3 | 3 | 3.4 |
| DeepSeek V4 Pro | 3.5 | 3 | 2.8 | 3.1 | 2.7 |
| GPT-5.5 | 3 | 3.1 | 2.5 | 3.3 | 3 |
| Gemini 2.5 Pro | 3.7 | 2.9 | 2.5 | 2.7 | 2.6 |
| Claude Opus 4.7 | 2.3 | 3.1 | 2.5 | 2.9 | 2.9 |
| 豆包 Pro | 3.2 | 2.3 | 3.8 | 2.1 | 2.9 |
| GPT-o3 | 2.5 | 1.9 | 3 | 3.4 | 2.9 |