Winzheng — AIモデル評価 · 変化情報

MIT Technology Reviewが独占電子書籍『How AI is becoming the next military advisor』を刊行し、AIが軍事意思決定においてますます中核的な役割を担う実態を、6本の深層レポートを通じて多角的に分析している。自律型ドローン群から戦場ロジスティクスの最適化まで、A

2026/06/17 06:16

AnthropicがClaude Agent SDKのトークン課金制への移行計画を緊急停止

Anthropicは今週、Claude Agent SDKにトークンベースの課金モデルを導入する計画を土壇場で停止した。高使用量ユーザーのコストが数倍に膨れ上が

KPMGがAgentic AIレポートを撤回――45件の引用のうち正確なのはわずか5件

KPMGが2025年10月に発行したAgentic AIに関するレポートが2026年6月15日に正式撤回された。GPTZeroの研究者が調査した結果、45件の引

総合トップ5

#1 Claude Opus 4.7 95.3 · #2 Qwen3 Max 93.1 · #3 GPT-5.5 92.5 · #4 DeepSeek V4 Pro 92 · #5 Claude Sonnet 4.6 91.2 · #6 GPT-o3 89.6 · #7 Grok 4 88 · #8 豆包 Pro 87.6 · #9 文心一言 4.5 77.1 · #10 Gemini 3.1 Pro 76.3 · #11 Gemini 2.5 Pro 76 · ▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5 · #1 Claude Opus 4.7 95.3 · #2 Qwen3 Max 93.1 · #3 GPT-5.5 92.5 · #4 DeepSeek V4 Pro 92 · #5 Claude Sonnet 4.6 91.2 · #6 GPT-o3 89.6 · #7 Grok 4 88 · #8 豆包 Pro 87.6 · #9 文心一言 4.5 77.1 · #10 Gemini 3.1 Pro 76.3 · #11 Gemini 2.5 Pro 76 · ▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/17 06:15 ARS

AnthropicがClaude Agent SDKのトークン課金制への移行計画を緊急停止

Anthropicは今週、Claude Agent SDKにトークンベースの課金モデルを導入する計画を土壇場で停止した。高使用量ユーザーのコストが数倍に膨れ上がる可能性があるとして、開発者コミュニティから強い反発を受けたためだ。

ニュース 06/17 06:13 NF

KPMGがAgentic AIレポートを撤回――45件の引用のうち正確なのはわずか5件

KPMGが2025年10月に発行したAgentic AIに関するレポートが2026年6月15日に正式撤回された。GPTZeroの研究者が調査した結果、45件の引用のうち元の出典に正確に対応していたのはわずか5件で、残りは誤解を招く内容、一部

ニュース 06/17 06:11 NF

ニューヨーク州検察長がOpenAIを召喚、データ慣行を調査――IPO準備に規制の逆風

ニューヨーク州など複数の州検察長連合がOpenAIに召喚状を発行し、ユーザーデータの取り扱い、未成年者の安全、広告、モデルの過度な迎合といった問題を調査している。同社が大規模なIPOを準備する中でのことである。

ニュース 06/17 06:09 NF

米国がAnthropicにFable 5とMythos 5モデルの使用禁止を命令――国家安全保障と規制の対立が激化

米国商務省は2026年6月17日、国家安全保障上のリスクとジェイルブレイクの脆弱性を理由に、AnthropicにFable 5およびMythos 5の2つの主力モデルのサービス提供停止を正式に要求した。この措置はグローバルユーザーのアクセス

ニュース 06/17 04:55 Winzheng Lab

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメント減衰率が-57.5%に達し、長文対話

ニュース 06/17 04:15 TC

SpaceXの評価額が2.6兆ドルに急騰、アマゾンを一時上回る

SpaceXの評価額が二次市場取引において2.6兆ドルに急騰し、アマゾン（現在の時価総額約2.5兆ドル）を一時上回った。先週金曜日の取引開始以来、同社の評価額はわずか1週間で1兆ドル急増し、世界企業の時価総額週間増加額として史上最高記録を樹

ニュース 06/17 02:20 ARS

流出した財務報告書が示すOpenAIの年間数十億ドルの赤字

テクノロジーメディアArs Technicaの報道によると、流出した監査財務文書がOpenAIの実態を明らかにした。収益は倍増したものの、研究開発・算力・人材への支出が大幅に上回り、赤字は拡大を続けている。

ニュース 06/17 02:19 ARS

SpaceX、600億ドルを投じてAIコーディングプラットフォームCursorを買収

SpaceXが約600億ドルでAIコーディングプラットフォームCursorの買収を正式発表した。この取引はAI業界のM&A史上最大級であり、航天ソフトウェア開発の効率化を目的としている。

ニュース 06/17 02:18 TC

米国消費者の6割がブランドの「AI」宣伝に反感

WordPress VIPの調査によると、米国消費者の60%がブランドのマーケティングメッセージに「AI」という言葉が登場すると購買意欲や信頼感が低下すると回答した。企業側がAIを重要な集客チャネルとして位置づける姿勢との間に、大きな認識の

ニュース 06/17 02:17 WD

危険なAIモデルはいずれ必ず来る——規制では流れを止められない

米国政府がAnthropicの最新AIモデルに禁止令を発動したが、高度な攻防能力を持つAIモデルが業界の新常態となる流れは不可逆的であり、従来型の技術的封じ込めはもはや根本的な問題を解決できないと指摘する記事。

ニュース 06/17 02:16 TC

Android 17リリース：マルチタスクの革新とGemini AIの深度統合

GoogleがAndroid 17とWear OS 7を正式リリース。マルチタスク処理の全面刷新、Gemini AIのシステム深部への統合、セキュリティ機能の強化を通じ、モバイルOSの新たな方向性を示した。

ニュース 06/17 02:15 ARS

国防総省がAIによる議会報告書代筆を自賛

米国防総省（ペンタゴン）は、傘下機関が生成AIツールを用いて国防授権法に基づく議会報告書の起草を開始したと発表した。150万人以上の軍人・文職員がAIを活用しているとされるが、議会の監視機能や法的責任の所在をめぐり批判の声も上がっている。

レビュー

すべて見る →

レビュー 06/16

豆包Pro、Smokeテストのメインランキングで9.9点急落――コード実行が100点から50点へ半減

YZ Indexが2026年6月に実施したSmokeテストで、豆包Proのメインランキングスコアが82.36点から72.50点へと9.9点下落した。主な原因はコード実行スコアが100.00点から50.00点へ半減したことにある。

レビュー 06/16

Claude Sonnet 4.6のコード実行スコアが100から50へ急落、メインランキングも6.9点低下

YZ Index 2026年6月の実測において、Claude Sonnet 4.6のSmokeテストにおけるコード実行スコアが前日の100.00から50.00へ急落し、メインランキング全体も79.44から72.50に低下した。この変動が題目

レビュー 06/16

Claude Opus 4.7が100点で首位独走、9モデルのコード実行スコアが50点暴落

2026年6月16日のSmoke軽量評価結果において、Claude Opus 4.7が全項目満点の100点を獲得し唯一の満点モデルとなった一方、9モデルでコード実行スコアが50点以上急落する大きな格差が生じた。

WDCD コンプライアンス

#1 Qwen3 Max 92.5 #2 Claude Sonnet 4.6 90 #3 DeepSeek V4 Pro 87.5 #4 Claude Opus 4.7 85 #5 文心一言 4.5 82.5 #6 Grok 4 82.5 #7 Gemini 2.5 Pro 80

守約ランキング全体を見る →

Research Lab

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ

5大モデル翻訳対決：第25週品質評価、passthroughが9点でトップ

今週443件の翻訳タスクを5つのモデルが担当。3件をサンプリングしてマルチモデルブラインド評価を実施した結果、総合最優秀はpassthrough（平均点9/10）となった。

WDCD Run #171：11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-3

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab