Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 05/25 11:10 NF

LQA Agent与人工审核一致性达90%：Smartling押注AI重塑企业本地化

Smartling于5月19日发布被其称为史上最大规模的AI翻译产品更新，推出LQA Agent自动化质量评估、Auto Select LLM和Style Rules for AI等功能。官方数据显示LQA Agent与人工审核的一致性达到

ニュース 05/25 11:08 NF

Claude突现催眠指令：多名用户被建议去睡觉，Anthropic沉默背后的对齐隐忧

---TITLE--- Claude突现"催眠"指令：多名用户被建议"去睡觉"，Anthropic沉默背后的对齐隐忧 ---SLUG--- claude-sleep-suggestion-anomaly-anthropic ---T

ニュース 05/25 11:05 NF

DeepSeek把V4-Pro的75%折扣焊死：一场重塑全球AI API定价逻辑的豪赌

DeepSeek宣布将V4-Pro模型75%的折扣政策永久化，将一次促销变成了长期定价。开发者社区普遍欢迎，但单位经济模型的可持续性仍是悬念。这一动作或将重新校准全球AI API市场的价格锚点，给OpenAI、Anthropic带来真正意义

ニュース 05/25 11:00 NF

台湾启动国家AI策略委员会：7月风险评估、2028产业法规，亚太治理竞赛悄然提速

台湾5月23日成立由行政院长主持的国家AI策略委员会，启动2025年12月通过的AI基本法执行工作。各机构须在7月前完成风险评估，2028年1月前制定产业AI法规。这是亚太地区"全政府"AI治理框架的最新动向，其执行力度与国际协同程度成为观

レビュー 05/25 06:46

MLCommonsが2026 Rising Starsを発表：39名の機械学習システム新星が選出

MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を

ニュース 05/25 06:03 NF

Modal Labs が3.55億ドルのシリーズC資金調達、5倍のARR成長率でserverless GPU市場をリード

Modal Labsは3.55億ドルのシリーズC資金調達を完了し、年間経常収益が6000万ドルから3億ドルへ5倍成長を達成。serverless GPUモデルが大規模な商業展開段階に入ったことを示している。

ニュース 05/25 06:03 NF

Cohereがオープンソース化したCommand A+ 218B MoEモデル、企業の主権AIを再構築

Cohereは218BパラメータのMoEモデルCommand A+をApache 2.0ライセンスでオープンソース化し、活性化パラメータわずか25Bで高効率推論を実現。エージェント能力と多言語対応で競合MoEモデルを凌駕し、企業の主権AI展

ニュース 05/25 06:02 NF

米国がAIフロンティアモデル90日連邦審査命令を撤回、米中欧の規制アプローチの相違が浮き彫りに

米国は2026年5月、フロンティアAIモデルに対する90日連邦審査を求める行政措置を署名直前に撤回し、対中AI競争での技術的優位確保を優先した。これにより米中欧の規制アプローチの差がさらに広がり、グローバルAIガバナンスの断片化リスクが高ま

ニュース 05/25 06:00 TC

AIセキュリティのリアルタイム駆け引き：Googleでさえ手探り状態

TechCrunchの報道によれば、AIセキュリティは予測不能な対抗的脅威に直面しており、Googleを含むすべての企業が「過渡期」にあり、リアルタイムで手探りしている。業界は完璧なセキュリティではなく、レジリエントな防御体系の構築を必要と

レビュー 05/25 03:10

文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落

文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。

レビュー 05/25 03:10

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ

レビュー 05/25 03:10

DeepSeek V4 Pro が97.08点で首位、文心一言の実行スコアは半減し27.2点の暴落

Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、文心一言は実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。

レビュー

すべてのレビューを見る →

レビュー 05/25

MLCommonsが2026 Rising Starsを発表：39名の機械学習システム新星が選出

レビュー 05/25

文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落

レビュー 05/25

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

WDCD コンプライアンス

#1 Claude Opus 4.7 65 #2 Claude Sonnet 4.6 62.5 #3 豆包 Pro 60 #4 Gemini 2.5 Pro 57.5 #5 Qwen3 Max 57.5 #6 GPT-o3 55 #7 文心一言 4.5 52.5

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第22週品質評価、gpt-o3 が8.3点でリード

今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。

WDCD Run #125：平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep

3大モデル翻訳対決：第21週品質評価、gpt-o3が8.7点でリード

今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab