赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
最新ニュース
すべてのニュースを見る →Google Cloudの生成AIが都市計画の自動化を支援、英国の住宅目標を加速
英国政府はGoogle Cloudの生成AI技術を大規模導入し、地方自治体の都市計画業務を自動化することを発表した。これにより、2029年までに150万戸の新築住宅建設という目標達成を加速させることを目指している。
PinterestがAIショッピング実験アプリ「Ask Pinterest」を発表
ソーシャルビジュアル発見プラットフォームのPinterestが、対話型AIを核とした実験的ショッピングアプリ「Ask Pinterest」を正式に発表した。ユーザーは自然言語で購買ニーズを伝えることができ、AIがパーソナライズされたレコメン
DeepLがMixhaloを買収、ライブイベント向けリアルタイム翻訳とサンフランシスコ拠点を強化
AI翻訳大手のDeepLが、ライブ音声ストリーミング・翻訳スタートアップのMixhaloを買収した。この買収により、サンフランシスコに新オフィスを開設し、文書翻訳からリアルタイム音声翻訳へと製品ラインナップを拡充する。
ナイロビの起業家たちが太陽光発電を推進、ケニアの2030年全国電力普及を支援
ケニアの首都ナイロビでは、先見の明を持つ起業家たちがオフグリッド太陽光発電システムを活用し、2030年までに全国への電力供給を実現するという目標に向けた太陽エネルギー革命を起こしている。コスト低下と革新的なビジネスモデルが、低所得世帯へのク
トランプ政権、xAIのガスタービン環境訴訟を阻止しようと動く
NAACPがxAIのテネシー州データセンターにおける無許可ガスタービン使用について「クリーン・エア法」違反で訴訟を起こしたところ、トランプ政権が法院に動議を提出し訴訟の進行を阻止しようとしている。AIインフラの急速な拡大と環境規制の衝突が改
AnthropicとトランプP政権の対立が売上を促進?データが示す意外な答え
AnthropicとトランプP政権の公開対立が商業的に不利になると見られていたが、最新データはむしろ企業顧客の留保率向上や新規登録増加など、意外な恩恵をもたらしていることを示している。
AIはいかにして軍事顧問となるのか?独占電子書籍が徹底解説
MIT Technology Reviewが独占電子書籍『How AI is becoming the next military advisor』を刊行し、AIが軍事意思決定においてますます中核的な役割を担う実態を、6本の深層レポートを通
AnthropicがClaude Agent SDKのトークン課金制への移行計画を緊急停止
Anthropicは今週、Claude Agent SDKにトークンベースの課金モデルを導入する計画を土壇場で停止した。高使用量ユーザーのコストが数倍に膨れ上がる可能性があるとして、開発者コミュニティから強い反発を受けたためだ。
KPMGがAgentic AIレポートを撤回――45件の引用のうち正確なのはわずか5件
KPMGが2025年10月に発行したAgentic AIに関するレポートが2026年6月15日に正式撤回された。GPTZeroの研究者が調査した結果、45件の引用のうち元の出典に正確に対応していたのはわずか5件で、残りは誤解を招く内容、一部
ニューヨーク州検察長がOpenAIを召喚、データ慣行を調査――IPO準備に規制の逆風
ニューヨーク州など複数の州検察長連合がOpenAIに召喚状を発行し、ユーザーデータの取り扱い、未成年者の安全、広告、モデルの過度な迎合といった問題を調査している。同社が大規模なIPOを準備する中でのことである。
米国がAnthropicにFable 5とMythos 5モデルの使用禁止を命令――国家安全保障と規制の対立が激化
米国商務省は2026年6月17日、国家安全保障上のリスクとジェイルブレイクの脆弱性を理由に、AnthropicにFable 5およびMythos 5の2つの主力モデルのサービス提供停止を正式に要求した。この措置はグローバルユーザーのアクセス
WDCD Run #185:11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメント減衰率が-57.5%に達し、長文対話
レビュー
すべて見る →WDCD三ラウンド衰退実測:GPT-o3のR3崩壊率50%、Qwen3 Maxは崩壊ゼロ
WDCD三ラウンドテストにおいて、GPT-o3はR3フェーズで崩壊率50%を記録した一方、Qwen3 MaxはR3での崩壊回数がゼロとなり、両者ともR1確認率は1.00であったにもかかわらず、持続的なプレッシャー下で全く異なる誠実性の軌跡を
Qwen3 Max が92.50点でWDCD守約ランキング首位、豆包Pro は62.50点で最下位——30点差
Qwen3 MaxがWDCD守約ランキングで92.50点を獲得し首位に立った。一方、豆包Proは62.50点で11モデル中最下位となり、トップとの差は30点に達した。
文心一言4.5のメインランキングが10.4点急落、タスク表現次元が90点から46.3点へ半減
YZ Indexの2026年6月における11モデルの実測において、文心一言4.5のSmokeテストメインランキングスコアが81.69点から71.33点へと1日で10.4点下落した。ただし、抽選によるランダム変動の可能性が高く、モデル能力の系
WDCD コンプライアンス
#1
Qwen3 Max
92.5
#2
Claude Sonnet 4.6
90
#3
DeepSeek V4 Pro
87.5
#4
Claude Opus 4.7
85
#5
文心一言 4.5
82.5
#6
Grok 4
82.5
#7
Gemini 2.5 Pro
80
守約ランキング全体を見る →
Research Lab
WDCD Run #185:11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ
5大モデル翻訳対決:第25週品質評価、passthroughが9点でトップ
今週443件の翻訳タスクを5つのモデルが担当。3件をサンプリングしてマルチモデルブラインド評価を実施した結果、総合最優秀はpassthrough(平均点9/10)となった。
WDCD Run #171:11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-3