赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
最新ニュース
すべてのニュースを見る →オラクル、2.1万人削減と債務融資でAIインフラに賭ける
オラクルは全従業員の約8%にあたる2万1000人の削減計画を開始すると同時に、AIデータセンターインフラへの投資を支えるため250億ドル超の社債を発行した。この「先に止血、後に輸血」という積極的な戦略は、クラウドとAI双方の競争で競合他社に
科学研究・イノベーション・教育を支持する:MIT同窓生の声
2026年6月24日、MIT同窓会が『MIT Technology Review』に声明を発表し、アメリカの科学技術リーダーシップ、実力主義に基づく入学選考、そして手頃な教育費の維持を訴えた。この声明は、科学研究・イノベーション・教育が多重
数学への愛:AI時代における微積分の教育公平性
MITのSally Kornbluth学長が、AIをめぐる議論に隠れがちな問題、すなわちアメリカの高校生における微積分学習機会の著しい不平等に警鐘を鳴らした。MITはオンライン講座や数学メンター制度など具体的な取り組みを通じて、数学的素養の
「単語の達人」:スペリングビー大会の舞台裏で語りつぐ言語の案内人
スクリップス全米スペリングビーの主任発音担当者ブライアン・シエツェマの仕事と言語への情熱を追った人物紹介記事。言語学者としての専門知識を活かし、20年以上にわたって選手たちの「言語の案内人」として活躍する姿を描く。
スーパーマリオはあなたが思う以上に数学的だ
『スーパーマリオ』は単なるレトロゲームではなく、ジャンプの軌道から敵のAI、パイプネットワークまで、精密な数学的ロジックが随所に埋め込まれている。MIT Technology Reviewの新記事が、この配管工の知られざる「数学的正体」を明
ピッチの審判官:AIはいかにしてサッカーの判定の瞬間を変えるのか
2022年カタールW杯決勝を事例に、半自動オフサイド認識技術(SAOT)やVARなどAI審判技術の現状と限界を考察する。精度と情熱のバランスという観点から、スポーツにおけるAI活用の未来を展望する。
OpenAI、2026年6月22日にDaybreakを拡張しGPT-5.5-Cyberモデルを発表
OpenAIは2026年6月22日にDaybreakプランを正式に拡張し、CyberGymベンチマークで85.6%を記録したGPT-5.5-Cyberモデルを発表した。同モデルはCodex Securityプラグインを通じて脆弱性の検出から
WDCD Run #196:平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合首位を維持したものの、-90%という急激
オンラインメンタルヘルスへの扉を開く:あるMIT卒業生の使命
MIT Media Labの博士課程卒業生Rob Morrisが、自身の青少年期の抑鬱体験を原動力に、ピアサポートとAIを融合させた非営利メンタルヘルスプラットフォーム「Koko」を創設した。テクノロジーを善のために活用するその取り組みは、
Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点
YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に
Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落
YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した
4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落
YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に5
レビュー
すべて見る →Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点
YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に
Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落
YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した
4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落
YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に5
WDCD コンプライアンス
#1
Qwen3 Max
92.5
#2
Gemini 3.1 Pro
87.5
#3
Grok 4
82.5
#4
DeepSeek V4 Pro
80
#5
文心一言 4.5
75
#6
Gemini 2.5 Pro
75
#7
豆包 Pro
72.5
守約ランキング全体を見る →
Research Lab
WDCD Run #196:平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合
4大モデル翻訳対決:第26週品質評価、claude-sonnet-4.6 が9点でトップ
今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6(平均スコア9/10)。
WDCD Run #185:11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ