Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 · #1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/28 00:15 TC

フィットネス起業家が癌を宣告され、AIで病魔に立ち向かう

シリコンバレーの健康オタク起業家・Connor Christouは晩期癌と診断された後、ClaudeなどのAIを活用して膨大な医療データを管理・分析し、治療の最適化に取り組んでいる。彼の事例はAIによる患者自己管理の新たな潮流を示すと同時に

ニュース 06/27 22:15 TC

アジアのAIスタートアップが「神話級」モデルを競って発表、米国の輸出禁令が市場に逆効果

アジアのAIスタートアップが米国トップAI研究所に匹敵する性能を持つ「神話級」モデルを相次いで発表しており、米国の輸出禁令が意図せずアジア独自のAIエコシステムの爆発的成長を促している。

ニュース 06/27 10:15 TC

特朗普政府授权超百家企业机构使用Anthropic Mythos 5

据TechCrunch报道，特朗普政府已批准超过100家美国公司及政府机构使用Anthropic公司最新AI模型Mythos 5，包括其非美国籍员工。此举被视为美国在AI领域政策开放的标志，但也引发对数据安全与伦理的担忧。

ニュース 06/27 08:15 ARS

韓国、50万の全軍兵士を「ドローン戦士」として訓練する計画を発表

韓国国防部が約50万人の現役軍人全員をドローン操作可能な「ドローン戦士」として訓練する野心的な計画を発表した。これは韓国が軍事インテリジェント化転換において重要な一歩を踏み出したことを意味する。

ニュース 06/27 06:14 NF

OpenAIとBroadcomがJalapeñoチップを発表――推論コスト50%削減を目標とするも、トレーニングはNVIDIAに依存継続

OpenAIとBroadcomが、大規模言語モデルの推論に特化したカスタムASICチップ「Jalapeño」を共同発表した。1回の応答コストを約50%削減することを目標とし、2026年末の展開を計画しているが、トレーニングは引き続きNVID

ニュース 06/27 06:11 NF

Anthropicがアリババによる2.5万アカウントを使ったClaude抽出を告発——未公開の事件への対応

AnthropicはロイターおよびU.S. Congressに書簡を提出し、アリババ関連組織が約2.5万件の偽アカウントを通じてClaudeの推論・プログラミング能力を蒸留しようとしたと告発した。この事件はClaudeのAPI防護メカニズム

ニュース 06/27 06:09 NF

HasbroがPeppa PigのAI音声権条項を童星に要求、英国童星代理協会が公開反対

HasbroがPeppa Pigの更新契約にAI音声複製条項を盛り込み、童星に対して自身の声の永久的な商業利用への同意を求めていることが判明。英国青年演者代理協会が1,000人以上の署名を集めた公開書簡で反対を表明した。

ニュース 06/27 05:29 X

AIデータセンター需要が爆発的拡大――Micronの決算が半導体株の全面高を牽引

ストレージチップ大手Micronが好決算を発表し、AI データセンター建設への期待が再燃。HBM需要の急拡大を背景に、半導体関連株が軒並み上昇した。

ニュース 06/27 05:29 X

AIエージェントツールが急増：Claude Salesなどの製品が営業自動化の新潮流をリード

AIエージェント（AI Agents）が技術業界の新たな注目点となる中、Claude Salesをはじめとする営業自動化に特化した複数のAIエージェントツールが正式リリースされ、開発者や企業界から幅広い関心を集めている。これらのツールはワン

ニュース 06/27 05:29 X

Anthropicの従業員の本音：AIの自動化が自己不信を招く、人間の仕事の意義とは？

AI企業Anthropicの従業員が、Claude使用後に仕事の価値への疑問や軽度のうつ症状を経験していることを告白し、AIによる人間の役割の代替という問題が注目を集めている。

ニュース 06/27 05:29 X

OpenAIがGPT-5.6の公開リリースを延期――米政府の安全審査がAI規制論争を引き起こす

OpenAIは米政府による国家安全保障上の懸念を理由にGPT-5.6の公開リリースを延期すると発表し、AI規制とイノベーションの自由をめぐる世界的な議論を巻き起こしている。

ニュース 06/27 05:28 X

OpenAIがBroadcomと共同で初のカスタムAI推論チップを発表、コスト50%削減を見込む

OpenAIが半導体大手Broadcomと共同で初のカスタムAI推論チップを発表した。このチップによりデータセンター運営コストを最大50%削減し、より大規模なAIモデルの展開を可能にすることが期待されている。

レビュー

すべて見る →

レビュー 06/27

Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ

YZ Index 2026年6月27日のSmoke軽量評価において、Claude Opus 4.7が主榜97.12点で首位を獲得。コード実行100点を達成した一方、材料制約が93.6点にとどまり全体スコアを引き下げた。

レビュー 06/24

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に

レビュー 06/24

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した

WDCD コンプライアンス

#1 Qwen3 Max 92.5 #2 Gemini 3.1 Pro 87.5 #3 Grok 4 82.5 #4 DeepSeek V4 Pro 80 #5 文心一言 4.5 75 #6 Gemini 2.5 Pro 75 #7 豆包 Pro 72.5

守約ランキング全体を見る →

Research Lab

WDCD Run #196：平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合

4大モデル翻訳対決：第26週品質評価、claude-sonnet-4.6 が9点でトップ

今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6（平均スコア9/10）。

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab