Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Claude Sonnet 4.6 83 ▼0.5 · #2 豆包 Pro 81.3 ▼1.3 · #3 Grok 4 81 ▲31.8 · #4 Claude Opus 4.7 80 ▼1.1 · #5 Gemini 2.5 Pro 79 ▲0.5 · #6 Qwen3 Max 79 ▲1.8 · #7 GPT-o3 78.3 ▲2.6 · #8 Gemini 3.1 Pro 77.7 ▼1.5 · #9 GPT-5.5 77 ▲3.8 · #10 DeepSeek V4 Pro 76.4 ▼1.3 · #11 文心一言 4.5 67.1 ▼11.1 · ▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1 · #1 Claude Sonnet 4.6 83 ▼0.5 · #2 豆包 Pro 81.3 ▼1.3 · #3 Grok 4 81 ▲31.8 · #4 Claude Opus 4.7 80 ▼1.1 · #5 Gemini 2.5 Pro 79 ▲0.5 · #6 Qwen3 Max 79 ▲1.8 · #7 GPT-o3 78.3 ▲2.6 · #8 Gemini 3.1 Pro 77.7 ▼1.5 · #9 GPT-5.5 77 ▲3.8 · #10 DeepSeek V4 Pro 76.4 ▼1.3 · #11 文心一言 4.5 67.1 ▼11.1 · ▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

レビュー 05/25 03:10

文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落

文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。

レビュー 05/25 03:10

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ

レビュー 05/25 03:10

DeepSeek V4 Pro が97.08点で首位、文心一言の実行スコアは半減し27.2点の暴落

Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、文心一言は実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。

ニュース 05/24 20:00 WD

サンフランシスコ・テンダーロイン地区：ロボットが非営利団体の食事作りを引き継ぐ

サンフランシスコの非営利団体「SF Meal Share」が、ボランティア不足を補うためロボットによる自動調理システムを導入し、低所得者向けに毎日2500食を提供している事例を紹介。

ニュース 05/24 14:03 X

Anthropic Claude Mythosモデルに安全上の脆弱性が露呈専門家が公開リスクを警告

Anthropicが開発したClaude Mythosモデルに、1万件以上のソフトウェア脆弱性を攻撃するために悪用される可能性のある重大な安全上の問題が発見された。専門家は、不適切な使用や公開展開のリスクが現在のAIツールをはるかに上回ると

ニュース 05/24 14:02 X

OpenAIが正式にS-1書類を提出しIPOを計画、AI企業の非営利から上場への道のりが加速

OpenAIが正式にS-1書類を提出し、IPOプロセスを開始する計画を発表した。これは同社が当初の非営利の使命から商業化・上場の道へと転換することを示すものである。

ニュース 05/24 14:02 X

トランプ氏がAI大統領令を保留 MuskとZuckerbergの重要な説得が政策論争を呼ぶ

トランプ前米大統領が人工知能に関する大統領令への署名を保留する決定を下し、この動きはシリコンバレーの大物であるElon MuskとMark Zuckerbergの影響を受けたと報じられている。この決定は、米国のAI規制と中米テクノロジー競争

ニュース 05/24 06:08 NF

Hark、シリーズA で7億ドル調達評価額60億ドルに

AIハードウェアスタートアップのHarkがシリーズAで7億ドルの資金調達を完了し、評価額は60億ドルに達した。Nvidia、AMD Ventures、Intel Capitalなど複数の半導体・ソフトウェア大手が出資に参加している。

ニュース 05/24 06:07 NF

Andrew Ng氏、ホワイトハウスのグリーンカード新政策を批判米国のAI人材競争力を弱めると指摘

スタンフォード大学教授のAndrew Ng氏が、グリーンカード申請者に米国外からの申請を義務付けるホワイトハウスの新政策を批判。家族の分離を招き、米国のAI分野における競争力を損なうと警告した。

レビュー 05/24 03:11

GPT-o3のコード実行が42.5点暴落、メインランキングは1日で18点崩壊

GPT-o3が本日のSmoke評価において、コード実行次元で90.00から47.50へ急落し、メインランキング全体も18点下落して58.08となった。コード実行の堅牢性が著しく損なわれた可能性を示唆する信号である。

レビュー 05/24 03:10

文心一言4.5、エンジニアリング判断が50から10へ急落も、メインランキングは逆に14.5上昇

文心一言4.5は本日のSmoke簡易テストでエンジニアリング判断が50点から10点へ急落したが、素材制約は55.8点から80.5点へ跳ね上がり、メインランキング総合は74点から88.48点へ上昇した。単日の側面ランキング崩壊はモデルの退化を

レビュー 05/24 03:10

GPT-5.5が29.7点の逆襲、GPT-o3は36.4点の急落：2026 W21 Smoke 7日間トレンド

2026年W21週のSmoke快速テストでは、GPT-5.5が7日間で29.7点の上昇を見せた一方、GPT-o3とDeepSeek V4 Proが大幅下落し、誠実性評価でも警告が頻発した。Gemini 3.1 ProやQwen3 Maxなど

レビュー

すべてのレビューを見る →

レビュー 05/25

文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落

レビュー 05/25

DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇

レビュー 05/25

DeepSeek V4 Pro が97.08点で首位、文心一言の実行スコアは半減し27.2点の暴落

WDCD コンプライアンス

#1 Claude Opus 4.7 65 #2 Claude Sonnet 4.6 62.5 #3 豆包 Pro 60 #4 Gemini 2.5 Pro 57.5 #5 Qwen3 Max 57.5 #6 GPT-o3 55 #7 文心一言 4.5 52.5

守約ランキング全体を見る →

Research Lab

WDCD Run #125：平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep

3大モデル翻訳対決：第21週品質評価、gpt-o3が8.7点でリード

今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。

WDCD Run #120：11モデルの平均指示減衰率は35.2%、GPT-5.5が-13%でトップに

Winzheng動的コンテキスト減衰（WDCD）ベンチマーク Run #120では、11モデルの平均コミットメント減衰率が35.2%に達し、GPT-5.5が-13%の減衰率でトップを獲得しました。指示

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab