Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/01 06:00 TC

環境闘士再び出撃：Erin Brockovich、データセンターの「秘密」に疑問を投げかける

水質汚染告発で有名な草の根活動家Erin Brockovichが、データセンターを新たなターゲットに、テック企業の透明性欠如に対する運動を展開している。

ニュース 06/01 04:45 X

Grokの画像編集機能がソーシャルプラットフォームで大ブレイク、AIアート創作がバイラル拡散の新潮流をリード

xAIが発表したGrokチャットボットの画像編集機能がソーシャルメディアで爆発的な人気を博し、ユーザーが有名人の写真の加工や創造的なアート作品の制作に活用している。この現象は消費者向けAIアプリケーションの普及を示すと同時に、プライバシーや

ニュース 06/01 04:45 X

Claudeダイナミックワークフロー革命：Anthropicエンジニアが明かす自己プロンプトエージェントシステムの新パラダイム

Anthropic社のエンジニアがClaudeモデルの高度なワークフロー構築手法を公開し、自己プロンプトメカニズムによって従来の手動プロンプトエンジニアリングを置き換え、複雑なタスクの処理効率を大幅に向上させた。

ニュース 06/01 04:45 X

OpenAIがPhysical AIに進出：Sam Altmanがハードウェアおよび機械学習エンジニアを募集、ロボット時代の到来が加速

OpenAIのCEOであるSam AltmanがOpenAI Roboticsチームの採用活動を発表し、ハードウェアエンジニアや機械学習専門家などを募集している。これはOpenAIが純粋なソフトウェアシミュレーション研究から、ハードウェアと

レビュー 06/01 03:10

Smoke評価：Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。

ニュース 06/01 00:00 TC

AI精神錯乱？テックCEOたちの熱狂的議論

TechCrunchのポッドキャスト《Equity》で、編集者たちはテックCEOが「AI精神錯乱」に陥りやすいかどうかについて議論を展開した。本記事はこの現象の背景、歴史的類似点、そして狂熱の背後にある真のリスクを掘り下げている。

ニュース 05/31 18:00 WD

トルコはいかにテクノロジーで世界の植毛市場を「攻略」したのか

トルコは精密モーター、AIアルゴリズム、医療データを駆使し、年間50万人以上の海外患者を集める世界の植毛中心地へと変貌を遂げた。本記事では、その技術革新と産業エコシステムの実態を解説する。

ニュース 05/31 06:12 NF

ハーバード卒業式スピーチが「AIを殺せ」と呼びかけ、支持者から反知性主義との批判と文化的転換の議論を引き起こす

米国時間2026年5月27日、コメディアンのRonny Chiengがハーバード大学卒業式で「あなた達世代の使命はAIを殺すことだ」と発言し、AI支持者と反対者の間で激しい議論を呼んでいる。本稿はAI製品開発と企業対応への示唆を分析する。

ニュース 05/31 06:00 TC

ソフトバンク、750億ユーロを投入しフランスに巨大データセンターを建設へ

日本のテクノロジー投資大手ソフトバンクグループは、フランスで最大5ギガワット規模のデータセンター容量を開発・運営するため、750億ユーロ（約810億ドル）を投資する計画を発表しました。本プロジェクトはフランスの低炭素原子力エネルギー資源と政

ニュース 05/31 05:55 Winzheng Lab

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話における制約維持能力が、現行フロンティア

レビュー 05/31 05:55

Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落

最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。

レビュー 05/31 05:55

リソース制限シーンで全モデル崩壊！WDCDテストで11モデルの平均はわずか1.95点

WDCD守約テストでは11モデルがリソース制限シーンで軒並み低スコアを記録し、平均1.95点に留まった。安全コンプライアンスシーンでは最大の差が現れ、企業選定における偏科モデルのリスクが浮き彫りとなった。

レビュー

すべてのレビューを見る →

レビュー 06/01

Smoke評価：Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

レビュー 05/31

Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落

最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。

レビュー 05/31

リソース制限シーンで全モデル崩壊！WDCDテストで11モデルの平均はわずか1.95点

WDCD コンプライアンス

#1 Qwen3 Max 70.8 #2 Claude Sonnet 4.6 66.7 #3 Gemini 3.1 Pro 66.7 #4 GPT-o3 65 #5 Claude Opus 4.7 64.2 #6 DeepSeek V4 Pro 64.2 #7 Gemini 2.5 Pro 64.2

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話

WDCD Run #135：Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab