赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
最新ニュース
すべてのニュースを見る →欧州熱波が電力網を直撃、IBMチップがムーアの法則に挑戦
欧州各地で記録的な熱波が電力インフラに深刻な打撃を与えている一方、IBMは垂直積層ナノシート技術による新型チップでムーアの法則の継続を実証しようとしている。
AdobeがAI画像強化のトップ企業Topaz Labsを買収、AI編集能力をさらに強化
Adobeは2026年6月25日、AI画像・動画強化ツール分野のリーディングカンパニーであるTopaz Labsの買収を正式発表した。同社の技術をPhotoshopやLightroomなど主要製品に統合し、プロフェッショナル映像編集における
スタートアップサミットの早割チケット、残り2日で190ドルお得
TechCrunch Founder Summit 2026の早割チケットが太平洋時間6月26日深夜11時59分に締め切りとなり、最大190ドルの割引が受けられる最後のチャンスとなっている。すでに1,000人以上の創業者・投資家・業界リーダ
欧州の熱波が電力網を直撃:高温下のエネルギー危機
今週、欧州各国が記録的な熱波に見舞われ、冷房需要の急増と発電能力の低下が重なる「エネルギーの完璧な嵐」が発生した。この事態は、気候変動対策と電力インフラの脆弱性という深刻な矛盾を改めて浮き彫りにしている。
ワールドカップ出場国がAIの主導権を争う
2026年ワールドカップでFIFAが全参賽国に公式AIエージェントを提供する計画が明らかになった。しかし強豪国はすでに独自のAIモデルに数百万ドルを投じており、技術格差の問題が浮き彫りになっている。
アマゾン、インドへの投資を拡大——AI基盤インフラ構築に130億ドルを追加投資
アマゾンは現地時間6月25日、インドにおけるAIデータセンターおよびクラウドコンピューティングインフラの拡充に向け、130億ドルの追加投資を発表した。これはアマゾンが2012年にインド市場へ参入して以来、最大規模の単発投資となる。
英国警察が巨大な犯罪予測マシンを構築、一部の結果は信頼性に欠く
英国のある地域で実施された犯罪予測分析システムの実験が、データの欠陥・アルゴリズムの偏り・説明不能なエラーといった深刻な問題を露呈した。WIREDの調査により、AI警務の理想と現実の間に存在する大きな溝が明らかになった。
IBMが世界初のサブ1ナノメートルチップ技術突破を実現
IBMは2026年6月25日、垂直積層ナノシートトランジスタ構造を用いた世界初のサブ1ナノメートル(sub-1nm)チップ製造プロセスの開発に成功したと発表した。この技術は現行の3nmプロセスと比較してトランジスタ密度を約4倍向上させるもの
OpenAI「Jalapeño」チップの背後にあるコスト計算
OpenAIがBroadcomと共同で「Jalapeño」という名のカスタムASICチップを開発中であることが報じられた。これはNvidiaへの依存を減らし、推論コストを大幅に削減するための戦略的な動きとして注目されている。
OpenAIと博通が大規模モデル推論チップを共同開発
OpenAIとBroadcomが大規模言語モデルの推論タスク専用カスタムチップの開発完了を発表した。同チップはNVIDIAのH200 GPUと比較して同コストで3倍の処理速度、60%の消費電力削減を実現するとされ、AI推論市場に大きな影響を
Googleの検索新AI学習機能:オプトアウトの方法
Googleは2026年6月、ユーザーが検索時にアップロードしたメディアファイルをデフォルトでAIモデルの学習に使用する新機能を静かに導入した。本記事では、この変更の内容とオプトアウトの具体的な手順を解説する。
Cerebrasの初決算後に株価急落、CEOは利益率見通しが誤解されたと主張
AIチップのスタートアップ企業Cerebras Systemsが上場後初の決算で投資家を失望させる粗利率予測を示し、時間外取引で株価が20%超急落した。CEOのAndrew Feldmanは市場が利益率見通しを誤解していると反論した。
レビュー
すべて見る →Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点
YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に
Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落
YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した
4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落
YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に5
WDCD コンプライアンス
#1
Qwen3 Max
92.5
#2
Gemini 3.1 Pro
87.5
#3
Grok 4
82.5
#4
DeepSeek V4 Pro
80
#5
文心一言 4.5
75
#6
Gemini 2.5 Pro
75
#7
豆包 Pro
72.5
守約ランキング全体を見る →
Research Lab
WDCD Run #196:平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合
4大モデル翻訳対決:第26週品質評価、claude-sonnet-4.6 が9点でトップ
今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6(平均スコア9/10)。
WDCD Run #185:11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ