赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
最新ニュース
すべてのニュースを見る →中国AIストレージのボトルネックが顕在化:HBMと先進パッケージングが今後3年間の核心的課題になる可能性
中国語SNSプラットフォームXで、中国AI産業の今後3年間の核心的ボトルネックに関する議論が加熱しており、HBM・DRAM・光インターコネクト・先進パッケージング技術がAI発展を制約する重要因子として広く認識されている。
Google Gemini 3.5 Pro まもなくリリース、開発者は新モデルがAI競争の構図を塗り替えることに期待
GoogleがGemini 3.5 Proを6月に正式リリースすることを確認した。現在は社内展開中であり、開発者たちは公開版を固唾を飲んで待ち望んでいる。
OpenAI GPT-5.6シリーズが間もなく登場:150万トークンのコンテキストウィンドウがAI競争構図を塗り替える
OpenAIは次世代大規模モデルGPT-5.6シリーズの発表を進めており、最大150万トークンのコンテキストウィンドウと強化された長距離コーディング能力を備えたMiniとProの2バージョンが登場予定。業界全体の競争構図に大きな影響を与える
AI Agent Loopsの自己改善システムが話題沸騰:Andrew Ngが40分でゼロからアプリを構築してみせる
著名なAI専門家Andrew NgとAnthropicのエンジニアが、AI Agent Loopsと呼ばれる自己改善システムの構築手法を共同で披露した。このシステムはAIエージェントがループによる反復を通じて自己最適化を実現し、わずか40分
Sakana AIがFuguマルチエージェントオーケストレーションシステムを発表、単一APIでフロンティアAI能力を提供
Sakana AIがFuguマルチエージェントオーケストレーションシステムとFugu Ultraモデルを正式発表し、単一APIで閉源モデルに匹敵する性能を提供しながら輸出規制リスクを回避する新技術として開発者コミュニティから注目を集めている
4大モデル翻訳対決:第26週品質評価、claude-sonnet-4.6 が9点でトップ
今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6(平均スコア9/10)。
GitHubでClaude技術スキルリポジトリが爆発的人気:AIエージェントのモジュール化実践が開発者の新トレンドを牽引
GitHub上でAnthropic Claudeに関連するスキル・プロンプトリポジトリが急増し、スター数が数十万規模に達している。この現象はAI開発者コミュニティで大きな注目を集め、エージェント式開発のモジュール化という新たな工学的実践の潮
Grok Connectors リリース:AIはチャットツールから生産性エンジンの新段階へ
xAIがGrok ConnectorsワークフローインテグレーションサービスをリリースしGrokをGoogle Drive、GitHub、Notionなどの主要ツールと連携できるようになった。これはAIツールが娯楽から生産性領域へと本格的に
オープンソースPyTorch LLMトレーニングパイプライン公開:単一GPUで億規模モデルのフルプロセストレーニングを実現
PyTorchベースの完全オープンソースLLMトレーニングパイプライン「Open-Source LLM Training Pipeline」が公開され、単一GPUで億規模パラメータモデルの事前学習からPPO/DPOまでの全トレーニングプロセ
Anthropicがソウルオフィスを正式開設、韓国大手企業と連携しエンタープライズAIの実装を加速
Anthropicが韓国・ソウルにオフィスを正式開設し、NAVER、サムスンSDS、LG CNSなどの韓国大手企業と複数の提携協定を締結した。これはAnthropicのアジア市場展開における重要なマイルストーンと位置づけられている。
Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減
Gemini 2.5 Pro は YZ Index 2026年6月 Smoke 評価において、メインランキングのスコアが前日の99.28点から71.33点へと1日で28点下落した。コード実行ディメンションが100.00点から50.00点に急
Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇
YZ Indexの2026年6月における11モデルの実測で、Qwen3 MaxのSmokeテスト材料制約スコアが前日比26.7点減の68.80点に急落した一方、コード実行スコアは100点満点を記録した。総合メインランキングスコアは5.1点増
レビュー
すべて見る →Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減
Gemini 2.5 Pro は YZ Index 2026年6月 Smoke 評価において、メインランキングのスコアが前日の99.28点から71.33点へと1日で28点下落した。コード実行ディメンションが100.00点から50.00点に急
Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇
YZ Indexの2026年6月における11モデルの実測で、Qwen3 MaxのSmokeテスト材料制約スコアが前日比26.7点減の68.80点に急落した一方、コード実行スコアは100点満点を記録した。総合メインランキングスコアは5.1点増
文心一言がメインランキングで40.3点急落、Smoke評価テストで実行・制約の両崩壊が露呈
2026年6月22日のSmoke軽量評価テストにて、GPT-5.5とGPT-o3が満点で首位に並ぶ一方、文心一言4.5はメインランキングで前日比40.3点急落し、実行・制約の両次元で大幅な低下を記録した。
WDCD コンプライアンス
#1
Qwen3 Max
92.5
#2
Claude Sonnet 4.6
90
#3
DeepSeek V4 Pro
87.5
#4
Claude Opus 4.7
85
#5
文心一言 4.5
82.5
#6
Grok 4
82.5
#7
Gemini 2.5 Pro
80
守約ランキング全体を見る →
Research Lab
4大モデル翻訳対決:第26週品質評価、claude-sonnet-4.6 が9点でトップ
今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6(平均スコア9/10)。
WDCD Run #185:11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ
5大モデル翻訳対決:第25週品質評価、passthroughが9点でトップ
今週443件の翻訳タスクを5つのモデルが担当。3件をサンプリングしてマルチモデルブラインド評価を実施した結果、総合最優秀はpassthrough(平均点9/10)となった。