Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 05/26 18:02 MIT

エントリーレベルの仕事の危機が迫る、早急な対応が必要

AIによる大規模失業は現時点で顕在化していないが、エントリーレベルの仕事が静かに侵食されつつあり、若者がキャリアの第一歩を踏み出せなくなる「経験の格差」が深刻化する恐れがある。

ニュース 05/26 18:01 MIT

AI失業パニック：現実検証

生成AIの台頭で「ホワイトカラーの仕事がAIに取って代わられる」という言説が広がっているが、テック大手の人員削減の真の原因は別にあり、AIの能力にも依然として明確な境界が存在する。

ニュース 05/26 18:00 WD

米法執行機関、「反テクノロジー過激主義」の高まりに警鐘

米国土安全保障省とFBIが、AI施設やデータセンターへの暴力的破壊行為を「反テクノロジー過激主義」と正式分類し、全国の警察に行動識別ガイドラインを発出した。AIによる雇用喪失やデータセンターによる地域環境悪化を背景に、過激な感情が拡散してい

ニュース 05/26 06:11 NF

教皇レオ、AIに関する回勅を発布し武装解除を呼びかけビッグテックの権力集中が反発を招く

2026年5月、教皇レオはバチカンで回勅『Magnifica Humanitas』を発布し、AIの軍事化と権力集中問題に対応するよう求めた。これはバチカンが専門文書として初めてAIの自律的武器化と権力集中問題に応える事例となった。

ニュース 05/26 04:00 TC

ClickUpが大規模リストラ:AI Agentがホワイトカラーの仕事を代替する

プロジェクト管理ソフトウェア企業のClickUpが数百人を解雇し、AI Agentで置き換えると発表。知識労働分野におけるAIによる人間労働力の大規模代替を示す象徴的事例として注目されている。

レビュー 05/26 03:10

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。

レビュー 05/26 03:10

Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊

Claude Opus 4.7が本日のSmoke評価でメインランキング88.53点と前日比8.2点下落し、材料制約次元で単日18.3点という異常な下落を記録した。Anthropic社のAPI安全戦略の調整が影響している可能性がある。

レビュー 05/26 03:10

Gemini 2.5 Proがメインランキングで35.6点急落、DeepSeek V4 ProがSmoke評価でトップに

Smoke軽量評価の最新データで、Gemini 2.5 Proが実行能力の系統的失効により大幅下落。DeepSeek V4 Proが95.28点でトップに立ち、各モデルの素材制約スコアが集団的に下落する傾向が顕著となった。

ニュース 05/26 00:02 TC

早割カウントダウン残り5日！TechCrunch Disrupt 2026チケットが410ドルお得に

TechCrunch Disrupt 2026の早割チケット販売終了まで残り5日。5月29日までに購入すれば最大410ドル割引となる。

ニュース 05/26 00:01 TC

Startup Battlefield 200の応募締切迫る、5月27日までにチャンスをつかめ

TechCrunch主催の創業コンテスト「Startup Battlefield 200」の応募締切が2026年5月27日に迫っており、世界中のスタートアップに最後のチャンスが残されている。賞金10万ドルに加え、VC機関への直接アクセスやグ

ニュース 05/26 00:00 TC

教皇のAI回勅：テクノロジーの霧を借りて権力独占を省みる

2026年5月25日、教皇レオ14世が初の回勅を発表。AI倫理を直接論じるのではなく、AIを鏡として、より古い権力集中・民主主義の危機といった構造的問題を照らし出した。

ニュース 05/25 20:00 WD

AI時代が脆弱性探索の軍拡競争を加速

AIの活用により、攻撃側と防御側双方による脆弱性発見・利用の競争が激化している。攻撃コストの低下と防御負担の増大により、業界はエコシステムレベルの協調防御への転換を迫られている。

レビュー

すべてのレビューを見る →

レビュー 05/26

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

レビュー 05/26

Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊

レビュー 05/26

Gemini 2.5 Proがメインランキングで35.6点急落、DeepSeek V4 ProがSmoke評価でトップに

WDCD コンプライアンス

#1 Claude Opus 4.7 65 #2 Claude Sonnet 4.6 62.5 #3 豆包 Pro 60 #4 Gemini 2.5 Pro 57.5 #5 Qwen3 Max 57.5 #6 GPT-o3 55 #7 文心一言 4.5 52.5

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第22週品質評価、gpt-o3 が8.3点でリード

今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。

WDCD Run #125：平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep

3大モデル翻訳対決：第21週品質評価、gpt-o3が8.7点でリード

今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab