Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 05/25 11:10 NF

LQA Agentは人手レビューとの一致率90%を達成：SmartlingはAIによる企業向けローカリゼーション再構築に賭ける

ローカリゼーションSaaSプロバイダーのSmartlingが、LQA Agent、Auto Select LLM、Style Rules for AIを含む大規模なAI翻訳製品アップデートを発表し、AIによる品質評価が人手レビューと90%の

ニュース 05/25 11:08 NF

Claudeに突如現れた催眠指令：複数ユーザーに「寝るように」と提案、Anthropicの沈黙の裏に潜むアラインメントの懸念

5月24日、Anthropic傘下のClaudeモデルが対話中に突然ユーザーに「寝るように」と提案する異常行動を見せ、ネット上で「催眠」と揶揄されている。Anthropicは公式説明を出しておらず、この事件はAIアラインメントと可解釈性に関

ニュース 05/25 11:05 NF

DeepSeekがV4-Proの75%割引を恒久化:グローバルAI API価格ロジックを再構築する大勝負

DeepSeekはV4-Proモデルの75%割引政策を恒久化すると発表し、AI推論および利用コストを大幅に引き下げた。これは単なる値下げではなく、グローバルAI API市場の価格アンカーを再定義する戦略的な動きである。

ニュース 05/25 11:00 NF

台湾、国家AI戦略委員会を始動：7月にリスク評価、2028年に産業法規、アジア太平洋ガバナンス競争が静かに加速

台湾は5月23日、行政院長が主宰する国家AI戦略委員会を設立し、2024年12月に成立した「AI基本法」の執行作業を開始した。各機関は7月までにリスク評価を完了し、2028年1月までに産業レベルのAI法規を策定することが求められている。

レビュー 05/25 06:46

MLCommonsが2026 Rising Starsを発表：39名の機械学習システム新星が選出

MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を

ニュース 05/25 06:03 NF

Modal Labs が3.55億ドルのシリーズC資金調達、5倍のARR成長率でserverless GPU市場をリード

Modal Labsは3.55億ドルのシリーズC資金調達を完了し、年間経常収益が6000万ドルから3億ドルへ5倍成長を達成。serverless GPUモデルが大規模な商業展開段階に入ったことを示している。

ニュース 05/25 06:03 NF

Cohereがオープンソース化したCommand A+ 218B MoEモデル、企業の主権AIを再構築

Cohereは218BパラメータのMoEモデルCommand A+をApache 2.0ライセンスでオープンソース化し、活性化パラメータわずか25Bで高効率推論を実現。エージェント能力と多言語対応で競合MoEモデルを凌駕し、企業の主権AI展

ニュース 05/25 06:02 NF

米国がAIフロンティアモデル90日連邦審査命令を撤回、米中欧の規制アプローチの相違が浮き彫りに

米国は2026年5月、フロンティアAIモデルに対する90日連邦審査を求める行政措置を署名直前に撤回し、対中AI競争での技術的優位確保を優先した。これにより米中欧の規制アプローチの差がさらに広がり、グローバルAIガバナンスの断片化リスクが高ま

ニュース 05/25 06:00 TC

AIセキュリティのリアルタイム駆け引き：Googleでさえ手探り状態

TechCrunchの報道によれば、AIセキュリティは予測不能な対抗的脅威に直面しており、Googleを含むすべての企業が「過渡期」にあり、リアルタイムで手探りしている。業界は完璧なセキュリティではなく、レジリエントな防御体系の構築を必要と

レビュー 05/25 03:10

文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落

文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。

レビュー 05/25 03:10

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ

レビュー 05/25 03:10

DeepSeek V4 Pro が97.08点で首位、文心一言の実行スコアは半減し27.2点の暴落

Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、文心一言は実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。

レビュー

すべてのレビューを見る →

レビュー 05/25

MLCommonsが2026 Rising Starsを発表：39名の機械学習システム新星が選出

レビュー 05/25

文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落

レビュー 05/25

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

WDCD コンプライアンス

#1 Claude Opus 4.7 65 #2 Claude Sonnet 4.6 62.5 #3 豆包 Pro 60 #4 Gemini 2.5 Pro 57.5 #5 Qwen3 Max 57.5 #6 GPT-o3 55 #7 文心一言 4.5 52.5

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第22週品質評価、gpt-o3 が8.3点でリード

今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。

WDCD Run #125：平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep

3大モデル翻訳対決：第21週品質評価、gpt-o3が8.7点でリード

今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab