赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →AnthropicのFable 5:ワンクリックで奇妙で面白いビデオゲームを生成
Anthropicが発表した最新モデルClaude Fable 5は、自然言語で説明するだけでブラウザで動作可能なHTML5ゲームを数秒で生成し、ゲーム制作の民主化を推進している。
Hey Siri、これこそAIのあるべき姿だ
TechCrunchの記事を基に、現在の音声アシスタントが「指令実行器」に留まっている現状と、文脈を理解し能動的に提案できる真のAIアシスタントへの期待を考察する。同時に、便利さと依存の境界線についても問いかける。
WDCD Run #157:11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点
Winzheng動的コンテキスト劣化(WDCD)ベンチマークのRun #157では、11モデルの平均コミットメント劣化率が47.7%に達し、Claude Sonnet 4.6、Gemini 2.5 Pro、Qwen3 Maxの3モデルが67
WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲
最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。
11モデルWDCD横断評価:リソース制限で全員1点に崩壊、業務ルールで4点の最大差
WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が
R3の遵守率が24.5%に急落、72回のクラッシュが11モデルの本性を暴く
WDCDテストで明らかになった衝撃の事実:大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下で
67.5分三雄并列第一,Grok4仅50分垫底 WDCD守约榜
Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一,Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%,满分率仅13.6%,头部与尾部在压力测试下差距显著。
WWDC 2026:Siri AIが大幅アップグレード、iOS 27とApple Intelligenceが本格登場
2026年6月10日に開催されたWWDC開発者会議で、Appleは新たにアップグレードされたSiri AI、iOS 27、Apple Intelligenceプラットフォームを発表し、デバイス上での処理とプライバシー保護を中核に据えたAI戦
テック企業はより安価なAIモデルを愛せるか?
TechCrunchの分析記事を編訳し、複雑なAIワークロードがより安価なモデルで処理可能になることでAI業界の経済構造が大きく変化する可能性を論じる。コストパフォーマンス革命がAI業界の競争構造を再定義しつつある。
Google、Gemini 3.5 Live Translateを発表:リアルタイム音声相互翻訳で語調を保持
Googleは2026年Google I/Oで、原音声の語調・速度・音高を保ったまま翻訳するリアルタイム音声相互翻訳機能「Gemini 3.5 Live Translate」を発表した。SynthID電子透かしを搭載し、ディープフェイクの悪
Anthropic、これらのトピックは危険すぎるとし、Fable 5モデルが応答を拒否
Anthropicは最新のフロンティアモデルFable 5に、サイバーセキュリティ脆弱性の悪用、生物病原体の合成、化学兵器製造という3大カテゴリーの高リスクトピックを自動拒否する設計を組み込んだ。この拒否機構はモデルの訓練段階から埋め込まれ
Claude Sonnet 4.6が97.53点でトップ、材料制約で文心一言と40点差
Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。
レビュー
すべて見る →WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲
最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。
11モデルWDCD横断評価:リソース制限で全員1点に崩壊、業務ルールで4点の最大差
WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が
R3の遵守率が24.5%に急落、72回のクラッシュが11モデルの本性を暴く
WDCDテストで明らかになった衝撃の事実:大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下で
WDCD コンプライアンス
#1
Claude Sonnet 4.6
67.5
#2
Gemini 2.5 Pro
67.5
#3
Qwen3 Max
67.5
#4
GPT-o3
65
#5
Claude Opus 4.7
62.5
#6
Gemini 3.1 Pro
60
#7
GPT-5.5
57.5
守約ランキング全体を見る →
Research Lab
WDCD Run #157:11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点
Winzheng動的コンテキスト劣化(WDCD)ベンチマークのRun #157では、11モデルの平均コミットメント劣化率が47.7%に達し、Claude Sonnet 4.6、Gemini 2.5 P
3大モデル翻訳対決:第24週品質評価、passthroughが9点でリード
今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough(平均9/10)。
WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ
WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと