赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
▲ Qwen3 Max +17.2 · ▼ GPT-5.5 -23.5
·
最新ニュース
すべてのニュースを見る →鸿蒙OS 7、中国市場におけるAppleのAI空白を埋める
Appleが中国市場へのSiri AI機能提供を見送ると発表したわずか4日後、HuaweiはHarmonyOS 7を発表し、新世代のAIエージェントアーキテクチャを投入した。端末側AI処理とデータローカライズを軸としたこの戦略により、Hua
固体エアコンは涼しい未来を約束できるか?科学者たちの懐疑的な声
固体エアコン技術が注目を集めているが、材料疲労・温度差の限界・高コストという三つの課題を前に、熱力学・材料科学の専門家たちは依然として慎重な姿勢を崩していない。従来型エアコンの効率向上や天然冷媒の普及が、現時点では現実的な脱炭素手段として評
アクセンチュア調査:消費者の74%が親友よりAIショッピングエージェントを信頼
アクセンチュアが発表した「2026年消費者パルス調査」によると、世界16カ国の消費者を対象にした調査で74%が最も親しい友人よりも個人AIエージェントを信頼してショッピング決定を行うと回答し、AI消費領域における影響力が新たな段階に入ったこ
AIによるリストラ波:くすぶり続ける火薬樽
生成AIへの投資熱が最高潮に達する中、米国テック業界では大規模なリストラが相次ぎ、一握りのAI関係者が急速に富を蓄積する一方で数万人の労働者が職を失うという極端な格差が社会不安の火種となりつつある。
AIスイッチをめぐる争い:Anthropicの輸出規制が世界的な主権不安を爆発させる
2026年6月13日、Anthropicが米政府の命令に従い最先進AIモデルへの非米国ユーザーのアクセスを遮断したことで、世界各国でAI主権をめぐる警戒感が一気に高まった。この事件はチップから始まったAI輸出規制がモデルレベルへと拡大した歴
AI算力債務の証券化が論争を呼ぶ:CoreWeaveの債券格付けA3の背後に潜むバブルリスク
CoreWeaveなどの企業がNVIDIAチップ調達債務を投資適格債券に組み替えA3格付けを取得した手法が急速に拡大しているが、バブルリスクへの懸念も広がっている。AI算力の金融化が退職基金などの機関投資家を巻き込み、システミックリスクを増
Claude 4.7 大型アップデート:60秒でプレゼン資料を一発生成、プロンプトエンジニアリングコミュニティが沸騰
AnthropicがClaude 4.7をリリースし、「60秒でPPT資料を自動生成」する機能が注目を集めている。この機能はプロンプトエンジニアリングコミュニティで大きな反響を呼び、多くのユーザーが「PowerPointにさよなら」と歓迎し
NVIDIAが韓国大手企業とAIデータセンター構築を加速:800Vアーキテクチャと SK AI ファクトリーが焦点に
NVIDIAはNaperやSK Telecomなど韓国主要テクノロジー企業との協力関係を拡大し、800V高電圧電源アーキテクチャの導入と2027年稼働予定のSK AIファクトリー建設を中心に、次世代AIデータセンターの整備を推進している。
Apple iOS 27発表:SiriがクロスアプリメモリCapabilityを獲得、Apple Intelligenceが実用段階へ
AppleはWWDC開発者会議にてiOS 27を正式発表し、Siriがクロスアプリのコンテキストメモリとインテリジェント操作能力を獲得した。Apple Intelligenceフレームワークがデモ段階から実際のユーザー日常利用へと本格移行す
MetaがManusの20億ドル買収を断念:北京の圧力下におけるAI M&Aの苦境
Metaは北京のAIスタートアップManusに対する20億ドルの買収交易を正式に終了した。中国政府の介入により取引が頓挫し、中米テクノロジーのデカップリングがグローバルAI業界に改めて突きつけられた。
OpenAI、複数州の刑事捜査と安全関連訴訟に直面――AIの責任範囲をめぐり論争
OpenAIが米国複数州の刑事捜査および一連の安全関連訴訟に直面しており、AIモデルの有害な出力が自殺や銃撃などの悲劇的事件に関与したとして問題となっている。本件はAI開発者の刑事責任をめぐる重要な先例となる可能性があり、生成AI業界全体に
米国政府が突然の輸出規制を実施——AnthropicのFable 5とMythos 5モデルが禁止に
米国政府がAI企業Anthropicに対し、新モデル「Fable 5」と「Mythos 5」への非米国ユーザーのアクセスを即時停止するよう緊急命令を発した。国家安全保障とサイバー能力リスクを理由とするこの措置は、AIモデルを対象とした最新の
レビュー
すべて見る →豆包Pro、材料制約スコアが24点急落――コード実行は38.4から100へ急騰
本日のSmokeテストにおいて、豆包Proの材料制約スコアが84.80から60.80へ24点下落した一方、コード実行スコアは38.40から100.00へ61.6点急騰した。この極端な反方向の変動は、モデルの能力変化よりも小サンプルによる問題
Grok 4の材料制約スコアが21.7点急落、コード実行は100点満点に
YZ IndexのSmoke評価において、Grok 4の材料制約スコアが83.00から61.30へと21.7点急落した一方、コード実行スコアは80.90から100.00へと満点を記録した。
材料制約スコアが39点急落、YZ Index 11モデルメインランキングが一斉に下落
2026年6月15日のSmoke軽量評価において、Grok 4がメインランキング首位を維持したものの、全11モデルで材料制約スコアが大幅に低下し、10モデルで20点超の下落が確認された。
WDCD コンプライアンス
#1
Qwen3 Max
84.4
#2
Grok 4
82
#3
Gemini 3.1 Pro
79.7
#4
文心一言 4.5
77.3
#5
Claude Sonnet 4.6
75.8
#6
DeepSeek V4 Pro
75.8
#7
GPT-5.5
75.8
守約ランキング全体を見る →
Research Lab
5大モデル翻訳対決:第25週品質評価、passthroughが9点でトップ
今週443件の翻訳タスクを5つのモデルが担当。3件をサンプリングしてマルチモデルブラインド評価を実施した結果、総合最優秀はpassthrough(平均点9/10)となった。
WDCD Run #171:11モデルの平均指示崩壊率が-37.9%を記録、Qwen3 Maxが急落にもかかわらずトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #171では、11モデルを対象に評価した結果、ラウンド1からラウンド3にかけての平均指示崩壊率が-3
WDCD Run #169:Grok 4がマルチターン遵守テストでトップ、平均指示減衰率は4.5%に低下
Winzhengの動的コンテキスト減衰(WDCD)ベンチマークRun #169において、11モデルの平均指示減衰率は4.5%となり、Grok 4が74.2ポイントでトップを獲得した。一方、GPT-o3