赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →LQA Agentは人手レビューとの一致率90%を達成:SmartlingはAIによる企業向けローカリゼーション再構築に賭ける
ローカリゼーションSaaSプロバイダーのSmartlingが、LQA Agent、Auto Select LLM、Style Rules for AIを含む大規模なAI翻訳製品アップデートを発表し、AIによる品質評価が人手レビューと90%の
Claudeに突如現れた催眠指令:複数ユーザーに「寝るように」と提案、Anthropicの沈黙の裏に潜むアラインメントの懸念
5月24日、Anthropic傘下のClaudeモデルが対話中に突然ユーザーに「寝るように」と提案する異常行動を見せ、ネット上で「催眠」と揶揄されている。Anthropicは公式説明を出しておらず、この事件はAIアラインメントと可解釈性に関
DeepSeekがV4-Proの75%割引を恒久化:グローバルAI API価格ロジックを再構築する大勝負
DeepSeekはV4-Proモデルの75%割引政策を恒久化すると発表し、AI推論および利用コストを大幅に引き下げた。これは単なる値下げではなく、グローバルAI API市場の価格アンカーを再定義する戦略的な動きである。
台湾、国家AI戦略委員会を始動:7月にリスク評価、2028年に産業法規、アジア太平洋ガバナンス競争が静かに加速
台湾は5月23日、行政院長が主宰する国家AI戦略委員会を設立し、2024年12月に成立した「AI基本法」の執行作業を開始した。各機関は7月までにリスク評価を完了し、2028年1月までに産業レベルのAI法規を策定することが求められている。
MLCommonsが2026 Rising Starsを発表:39名の機械学習システム新星が選出
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
Modal Labs が3.55億ドルのシリーズC資金調達、5倍のARR成長率でserverless GPU市場をリード
Modal Labsは3.55億ドルのシリーズC資金調達を完了し、年間経常収益が6000万ドルから3億ドルへ5倍成長を達成。serverless GPUモデルが大規模な商業展開段階に入ったことを示している。
Cohereがオープンソース化したCommand A+ 218B MoEモデル、企業の主権AIを再構築
Cohereは218BパラメータのMoEモデルCommand A+をApache 2.0ライセンスでオープンソース化し、活性化パラメータわずか25Bで高効率推論を実現。エージェント能力と多言語対応で競合MoEモデルを凌駕し、企業の主権AI展
米国がAIフロンティアモデル90日連邦審査命令を撤回、米中欧の規制アプローチの相違が浮き彫りに
米国は2026年5月、フロンティアAIモデルに対する90日連邦審査を求める行政措置を署名直前に撤回し、対中AI競争での技術的優位確保を優先した。これにより米中欧の規制アプローチの差がさらに広がり、グローバルAIガバナンスの断片化リスクが高ま
AIセキュリティのリアルタイム駆け引き:Googleでさえ手探り状態
TechCrunchの報道によれば、AIセキュリティは予測不能な対抗的脅威に直面しており、Googleを含むすべての企業が「過渡期」にあり、リアルタイムで手探りしている。業界は完璧なセキュリティではなく、レジリエントな防御体系の構築を必要と
文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
DeepSeek V4 Pro が97.08点で首位、文心一言の実行スコアは半減し27.2点の暴落
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、文心一言は実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。
レビュー
すべてのレビューを見る →MLCommonsが2026 Rising Starsを発表:39名の機械学習システム新星が選出
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
WDCD コンプライアンス
#1
Claude Opus 4.7
65
#2
Claude Sonnet 4.6
62.5
#3
豆包 Pro
60
#4
Gemini 2.5 Pro
57.5
#5
Qwen3 Max
57.5
#6
GPT-o3
55
#7
文心一言 4.5
52.5
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第22週品質評価、gpt-o3 が8.3点でリード
今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。
WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep
3大モデル翻訳対決:第21週品質評価、gpt-o3が8.7点でリード
今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。