Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 89.9 ▲11.5 · #2 Claude Opus 4.7 89 ▲10.2 · #3 豆包 Pro 88.8 ▲10 · #4 Claude Sonnet 4.6 87.2 ▲9.2 · #5 Gemini 2.5 Pro 86.4 ▲7.4 · #6 Qwen3 Max 86.2 ▲8.5 · #7 Gemini 3.1 Pro 84.8 ▲7.7 · #8 DeepSeek V4 Pro 83.3 ▲6.4 · #9 GPT-o3 82.8 ▲6.9 · #10 GPT-5.5 80.9 ▲2.7 · #11 文心一言 4.5 76.9 ▲15.2 · ▲ Qwen3 Max +80.9 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/10 06:01 TC

AnthropicのFable 5：ワンクリックで奇妙で面白いビデオゲームを生成

Anthropicが発表した最新モデルClaude Fable 5は、自然言語で説明するだけでブラウザで動作可能なHTML5ゲームを数秒で生成し、ゲーム制作の民主化を推進している。

ニュース 06/10 06:00 TC

Hey Siri、これこそAIのあるべき姿だ

TechCrunchの記事を基に、現在の音声アシスタントが「指令実行器」に留まっている現状と、文脈を理解し能動的に提案できる真のAIアシスタントへの期待を考察する。同時に、便利さと依存の境界線についても問いかける。

ニュース 06/10 05:01 Winzheng Lab

WDCD Run #157：11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点

Winzheng動的コンテキスト劣化(WDCD)ベンチマークのRun #157では、11モデルの平均コミットメント劣化率が47.7%に達し、Claude Sonnet 4.6、Gemini 2.5 Pro、Qwen3 Maxの3モデルが67

レビュー 06/10 05:01

WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲

最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。

レビュー 06/10 05:01

11モデルWDCD横断評価：リソース制限で全員1点に崩壊、業務ルールで4点の最大差

WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が

レビュー 06/10 05:00

R3の遵守率が24.5%に急落、72回のクラッシュが11モデルの本性を暴く

WDCDテストで明らかになった衝撃の事実：大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下で

レビュー 06/10 05:00

67.5分三雄并列第一，Grok4仅50分垫底 WDCD守约榜

Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一，Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%，满分率仅13.6%，头部与尾部在压力测试下差距显著。

ニュース 06/10 04:03 TC

WWDC 2026：Siri AIが大幅アップグレード、iOS 27とApple Intelligenceが本格登場

2026年6月10日に開催されたWWDC開発者会議で、Appleは新たにアップグレードされたSiri AI、iOS 27、Apple Intelligenceプラットフォームを発表し、デバイス上での処理とプライバシー保護を中核に据えたAI戦

ニュース 06/10 04:02 TC

テック企業はより安価なAIモデルを愛せるか？

TechCrunchの分析記事を編訳し、複雑なAIワークロードがより安価なモデルで処理可能になることでAI業界の経済構造が大きく変化する可能性を論じる。コストパフォーマンス革命がAI業界の競争構造を再定義しつつある。

ニュース 06/10 04:01 ARS

Google、Gemini 3.5 Live Translateを発表：リアルタイム音声相互翻訳で語調を保持

Googleは2026年Google I/Oで、原音声の語調・速度・音高を保ったまま翻訳するリアルタイム音声相互翻訳機能「Gemini 3.5 Live Translate」を発表した。SynthID電子透かしを搭載し、ディープフェイクの悪

ニュース 06/10 04:00 ARS

Anthropic、これらのトピックは危険すぎるとし、Fable 5モデルが応答を拒否

Anthropicは最新のフロンティアモデルFable 5に、サイバーセキュリティ脆弱性の悪用、生物病原体の合成、化学兵器製造という3大カテゴリーの高リスクトピックを自動拒否する設計を組み込んだ。この拒否機構はモデルの訓練段階から埋め込まれ

レビュー 06/10 03:10

Claude Sonnet 4.6が97.53点でトップ、材料制約で文心一言と40点差

Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。

レビュー

すべて見る →

レビュー 06/10

WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲

レビュー 06/10

11モデルWDCD横断評価：リソース制限で全員1点に崩壊、業務ルールで4点の最大差

レビュー 06/10

R3の遵守率が24.5%に急落、72回のクラッシュが11モデルの本性を暴く

WDCD コンプライアンス

#1 Claude Sonnet 4.6 67.5 #2 Gemini 2.5 Pro 67.5 #3 Qwen3 Max 67.5 #4 GPT-o3 65 #5 Claude Opus 4.7 62.5 #6 Gemini 3.1 Pro 60 #7 GPT-5.5 57.5

守約ランキング全体を見る →

Research Lab

WDCD Run #157：11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点

Winzheng動的コンテキスト劣化(WDCD)ベンチマークのRun #157では、11モデルの平均コミットメント劣化率が47.7%に達し、Claude Sonnet 4.6、Gemini 2.5 P

3大モデル翻訳対決：第24週品質評価、passthroughが9点でリード

今週は2425件の翻訳タスクを3つのモデルが完了。3件をサンプリングしてマルチモデル盲評比較を行い、総合最優秀はpassthrough（平均9/10）。

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab