赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →AI時代が脆弱性探索の軍拡競争を加速
AIの活用により、攻撃側と防御側双方による脆弱性発見・利用の競争が激化している。攻撃コストの低下と防御負担の増大により、業界はエコシステムレベルの協調防御への転換を迫られている。
LQA Agentは人手レビューとの一致率90%を達成:SmartlingはAIによる企業向けローカリゼーション再構築に賭ける
ローカリゼーションSaaSプロバイダーのSmartlingが、LQA Agent、Auto Select LLM、Style Rules for AIを含む大規模なAI翻訳製品アップデートを発表し、AIによる品質評価が人手レビューと90%の
DeepSeekがV4-Proの75%割引を恒久化:グローバルAI API価格ロジックを再構築する大勝負
DeepSeekはV4-Proモデルの75%割引政策を恒久化すると発表し、AI推論および利用コストを大幅に引き下げた。これは単なる値下げではなく、グローバルAI API市場の価格アンカーを再定義する戦略的な動きである。
台湾、国家AI戦略委員会を始動:7月にリスク評価、2028年に産業法規、アジア太平洋ガバナンス競争が静かに加速
台湾は5月23日、行政院長が主宰する国家AI戦略委員会を設立し、2024年12月に成立した「AI基本法」の執行作業を開始した。各機関は7月までにリスク評価を完了し、2028年1月までに産業レベルのAI法規を策定することが求められている。
3大モデル翻訳対決:第22週品質評価、gpt-o3 が8.3点でリード
今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。
MLCommonsが2026 Rising Starsを発表:39名の機械学習システム新星が選出
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
Modal Labs が3.55億ドルのシリーズC資金調達、5倍のARR成長率でserverless GPU市場をリード
Modal Labsは3.55億ドルのシリーズC資金調達を完了し、年間経常収益が6000万ドルから3億ドルへ5倍成長を達成。serverless GPUモデルが大規模な商業展開段階に入ったことを示している。
Cohereがオープンソース化したCommand A+ 218B MoEモデル、企業の主権AIを再構築
Cohereは218BパラメータのMoEモデルCommand A+をApache 2.0ライセンスでオープンソース化し、活性化パラメータわずか25Bで高効率推論を実現。エージェント能力と多言語対応で競合MoEモデルを凌駕し、企業の主権AI展
米国がAIフロンティアモデル90日連邦審査命令を撤回、米中欧の規制アプローチの相違が浮き彫りに
米国は2026年5月、フロンティアAIモデルに対する90日連邦審査を求める行政措置を署名直前に撤回し、対中AI競争での技術的優位確保を優先した。これにより米中欧の規制アプローチの差がさらに広がり、グローバルAIガバナンスの断片化リスクが高ま
AIセキュリティのリアルタイム駆け引き:Googleでさえ手探り状態
TechCrunchの報道によれば、AIセキュリティは予測不能な対抗的脅威に直面しており、Googleを含むすべての企業が「過渡期」にあり、リアルタイムで手探りしている。業界は完璧なセキュリティではなく、レジリエントな防御体系の構築を必要と
文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
レビュー
すべてのレビューを見る →MLCommonsが2026 Rising Starsを発表:39名の機械学習システム新星が選出
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
WDCD コンプライアンス
#1
Claude Opus 4.7
65
#2
Claude Sonnet 4.6
62.5
#3
豆包 Pro
60
#4
Gemini 2.5 Pro
57.5
#5
Qwen3 Max
57.5
#6
GPT-o3
55
#7
文心一言 4.5
52.5
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第22週品質評価、gpt-o3 が8.3点でリード
今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。
WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep
3大モデル翻訳対決:第21週品質評価、gpt-o3が8.7点でリード
今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。