赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →LQA Agent与人工审核一致性达90%:Smartling押注AI重塑企业本地化
Smartling于5月19日发布被其称为史上最大规模的AI翻译产品更新,推出LQA Agent自动化质量评估、Auto Select LLM和Style Rules for AI等功能。官方数据显示LQA Agent与人工审核的一致性达到
Claude突现催眠指令:多名用户被建议去睡觉,Anthropic沉默背后的对齐隐忧
---TITLE---
Claude突现"催眠"指令:多名用户被建议"去睡觉",Anthropic沉默背后的对齐隐忧
---SLUG---
claude-sleep-suggestion-anomaly-anthropic
---T
DeepSeek把V4-Pro的75%折扣焊死:一场重塑全球AI API定价逻辑的豪赌
DeepSeek宣布将V4-Pro模型75%的折扣政策永久化,将一次促销变成了长期定价。开发者社区普遍欢迎,但单位经济模型的可持续性仍是悬念。这一动作或将重新校准全球AI API市场的价格锚点,给OpenAI、Anthropic带来真正意义
台湾启动国家AI策略委员会:7月风险评估、2028产业法规,亚太治理竞赛悄然提速
台湾5月23日成立由行政院长主持的国家AI策略委员会,启动2025年12月通过的AI基本法执行工作。各机构须在7月前完成风险评估,2028年1月前制定产业AI法规。这是亚太地区"全政府"AI治理框架的最新动向,其执行力度与国际协同程度成为观
MLCommonsが2026 Rising Starsを発表:39名の機械学習システム新星が選出
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
Modal Labs が3.55億ドルのシリーズC資金調達、5倍のARR成長率でserverless GPU市場をリード
Modal Labsは3.55億ドルのシリーズC資金調達を完了し、年間経常収益が6000万ドルから3億ドルへ5倍成長を達成。serverless GPUモデルが大規模な商業展開段階に入ったことを示している。
Cohereがオープンソース化したCommand A+ 218B MoEモデル、企業の主権AIを再構築
Cohereは218BパラメータのMoEモデルCommand A+をApache 2.0ライセンスでオープンソース化し、活性化パラメータわずか25Bで高効率推論を実現。エージェント能力と多言語対応で競合MoEモデルを凌駕し、企業の主権AI展
米国がAIフロンティアモデル90日連邦審査命令を撤回、米中欧の規制アプローチの相違が浮き彫りに
米国は2026年5月、フロンティアAIモデルに対する90日連邦審査を求める行政措置を署名直前に撤回し、対中AI競争での技術的優位確保を優先した。これにより米中欧の規制アプローチの差がさらに広がり、グローバルAIガバナンスの断片化リスクが高ま
AIセキュリティのリアルタイム駆け引き:Googleでさえ手探り状態
TechCrunchの報道によれば、AIセキュリティは予測不能な対抗的脅威に直面しており、Googleを含むすべての企業が「過渡期」にあり、リアルタイムで手探りしている。業界は完璧なセキュリティではなく、レジリエントな防御体系の構築を必要と
文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
DeepSeek V4 Pro が97.08点で首位、文心一言の実行スコアは半減し27.2点の暴落
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、文心一言は実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。
レビュー
すべてのレビューを見る →MLCommonsが2026 Rising Starsを発表:39名の機械学習システム新星が選出
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
WDCD コンプライアンス
#1
Claude Opus 4.7
65
#2
Claude Sonnet 4.6
62.5
#3
豆包 Pro
60
#4
Gemini 2.5 Pro
57.5
#5
Qwen3 Max
57.5
#6
GPT-o3
55
#7
文心一言 4.5
52.5
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第22週品質評価、gpt-o3 が8.3点でリード
今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。
WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep
3大モデル翻訳対決:第21週品質評価、gpt-o3が8.7点でリード
今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。