赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
#1
Claude Opus 4.7 89.3
▼1.3
·
#2
DeepSeek V4 Pro 88.8
▼3.5
·
#3
Grok 4 85
▼4.9
·
#4
GPT-o3 83.4
▼7.1
·
#5
Claude Sonnet 4.6 83
▲1.2
·
#6
Gemini 3.1 Pro 82.5
▲5.3
·
#7
豆包 Pro 81.6
▼6.5
·
#8
Qwen3 Max 81
▼6.8
·
#9
Gemini 2.5 Pro 77.9
▼4.3
·
#10
文心一言 4.5 73.2
▼8.1
·
#11
GPT-5.5 72.9
▼15.4
·
▲ Gemini 3.1 Pro +8.8 · ▼ GPT-5.5 -30.2
·
最新ニュース
すべてのニュースを見る →豆包 ProとGemini 3.1 Proが同率88.54点:2026-07-05 Smokeクイックテストデータ速報
2026-07-05のYZ Index Smokeクイックテストでは11モデルを対象に評価が行われ、豆包 ProとGemini 3.1 Proが88.54点で同率首位となった。GLM-4.6の誠実性評価がFailに低下した点が注目すべき信号
Googleの新広告、AIが独立宣言の起草を支援する世界を想像
アメリカ独立宣言署名250周年を記念し、Googleが「もし建国の父たちがGoogle Workspaceを持っていたら」をテーマにした広告を公開。AIと人文精神の関係について幅広い議論を呼んでいる。
米国がAnthropic Fable 5モデルの公開を制限後に政策調整、オープンウェイトモデル論争が激化
2026年、米国政府は輸出規制を理由にAnthropic Fable 5モデルの公開を制限し、その後同モデルはネットワークセキュリティ保護を強化した上で再公開された。この動きを受け、オープンウェイトモデルをめぐる議論が一層活発化している。
AnthropicがアリババによるClaudeモデル能力の抽出に向けた2万5千件の偽アカウント使用を告発
Anthropicは2026年6月10日付の米国上院議員宛書簡において、アリババ関連のQwenラボが約2万5千件の偽アカウントを通じてClaudeモデルに対し2880万回以上のインタラクションを行ったと暴露した。これは既知最大規模の蒸留攻撃
アリババ、社内でClaude Codeを禁止——高リスク管理が中国テック業界に波紋
アリババが社内でAnthropicのAIコーディングアシスタントClaude Codeを「高リスクソフトウェア」に指定し、従業員の使用を禁止したことが報じられた。この決定は中国企業によるAIツール管理強化の象徴的事例として業界に広く注目され
MidjourneyがハリウッドにAI使用の詳細開示を要求
AI画像生成企業のMidjourneyが、著作権侵害訴訟を起こした3つのハリウッド大手スタジオに対し、スタジオ自身のAI活用状況の開示を法廷に求める申し立てを行った。この動きは訴訟の焦点を単なる著作権侵害から「二重基準」という複雑な問題へと
Mistral AIの秘密を解明:OpenAIに対抗するオープンソースの新星
フランス発のAIスタートアップMistral AIは、「フロンティアAIを誰もの手に」をミッションに掲げ、2023年の創業以来6億ユーロ超の資金調達を達成。OpenAIの閉鎖的なモデル戦略に対抗し、オープンソースと効率性を武器に台頭している
MetaがケニアのIT請負業者を通じて未成年アカウントを偽装し、ChatGPTなどのAI安全性をテストしていた問題で倫理論争が勃発
Wiredの報道により、Metaが「Cannes」プロジェクトの一環としてケニアの請負業者を通じて偽の未成年アカウントを作成し、ChatGPTやGeminiに対して自殺・自傷・児童搾取に関するプロンプトを送信して安全性の脆弱性を検証していた
ブラウザ戦争の転換点:ChromeとSafariに代わる最良の選択肢
かつて検索エンジンをめぐる争いだったブラウザ戦争は、プライバシー保護・AI機能・パフォーマンスへの需要の高まりにより、その様相を大きく変えた。ChromeとSafariが依然として覇権を握る中、新興および実績ある代替ブラウザが新たな次元から
OpenAIがトランプ政権に5%株式譲渡を提案か — 42億ドル規模の取引がAI政治論争を巻き起こす
OpenAIのCEO Sam Altmanがトランプ政権に対し、同社株式の約5%を米国政府に譲渡する異例の提案を行ったと報じられた。この動きはAI企業の公的所有モデルをめぐる激しい議論を呼んでいる。
マイクロソフト、医療診断AI「MAI-DxO」を発表:複雑症例の正確率80〜85%、医師グループの4倍超
マイクロソフトが医療診断AIシステム「MAI-DxO」を正式発表し、『ニューイングランド・ジャーナル・オブ・メディシン』のベンチマークテストで診断正確率80〜85%を達成、複数の医師で構成されるグループの4倍以上の性能を示した。この技術的突
MetaがAIクラウド事業を準備中――余剰算力の貸し出しでインフラコスト圧力を緩和へ
Metaが余剰の計算リソースを外部に貸し出す新たなAIクラウド事業の準備を進めていることが明らかになった。年間数百億ドル規模に上るAIインフラへの巨額支出を一部相殺する狙いがある。
レビュー
すべて見る →豆包 ProとGemini 3.1 Proが同率88.54点:2026-07-05 Smokeクイックテストデータ速報
2026-07-05のYZ Index Smokeクイックテストでは11モデルを対象に評価が行われ、豆包 ProとGemini 3.1 Proが88.54点で同率首位となった。GLM-4.6の誠実性評価がFailに低下した点が注目すべき信号
SGLang におけるエージェント支援開発の初期探索
SGLang の開発においてエージェント支援開発の実践が進んでおり、CUDA クラッシュデバッグからカーネル最適化、性能ループまでをカバーする実行可能な SKILL.md やスクリプト群として工程知識を体系化する取り組みを紹介する。エージェ
Qwen3 Max、メインランキングで12.9ポイント急落――コード実行は1日で26.8ポイント下落
YZ Index 2026年6月のSmokeテストにおいて、Qwen3 Maxのメインランキングスコアが84.92点から72.02点へ12.9ポイント下落し、特にコード実行ディメンションが96.30点から69.50点へ急落した。単日データの
WDCD コンプライアンス
#1
Grok 4
91.2
#2
Gemini 3.1 Pro
79.1
#3
GPT-o3
76.6
#4
Claude Opus 4.7
72.2
#5
GLM-4.6
71.8
#6
Claude Sonnet 4.6
70
#7
DeepSeek V4 Pro
67.8
守約ランキング全体を見る →
Research Lab
WDCD Run #211:Grok 4が-13%のインストラクション劣化で首位、GPT-o3は-75%で崩壊
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #211では、11モデルを評価した結果、Grok 4が最高スコアかつ最小劣化率で首位を獲得。一方、G
WDCD Run #207:11モデルの平均指示崩壊率が-66.3%に達し、Grok 4がトップに
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #207では、11モデルを対象に複数ターン対話における指示遵守の崩壊を測定した結果、平均崩壊率は-6
4大モデル翻訳対決:第27週品質評価、claude-sonnet-4.6 が9点でトップ
今週は4つのモデルが376件の翻訳タスクを完了し、抽出した3件のマルチモデル盲目評価では、claude-sonnet-4.6が平均9点で総合最優秀となった。