Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 · #1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/05 00:01 TC

AppleのApp Store取引額が1.4兆ドル突破、9割は手数料無料

Appleが発表した最新報告によると、2025年のApp Storeプラットフォームが促進した総取引額は1.4兆ドルに達し、前年比約7.7%増となった。そのうち90%の取引はAppleに手数料を支払う必要のないものだが、デジタル商品の手数料

ニュース 06/05 00:01 ARS

データセンターはいかにして水使用問題を解決するか

AIブームとクラウドコンピューティング需要の高まりにより、世界中のデータセンターが急速に拡大する中、その膨大な水資源消費が深刻な環境問題として浮上している。大手運営事業者は循環冷却や空冷技術などで対応を進めるが、規制と商業の駆け引きも続いて

ニュース 06/05 00:00 TC

シリコンバレーはロボットの家庭進出に準備ができているのか？Hello Robotが新モデルを発表

カリフォルニア州のスタートアップHello Robotが第4世代の家庭用補助ロボット「Stretch」を発表した。同社は人型ロボットを追求する競合とは一線を画し、高齢者や障害者の自立を支援する信頼性の高い実用的なツールの開発に注力している。

ニュース 06/04 22:00 MIT

AI生成訴訟の洪水とデータセンター・バーチャルパワープラント

AIによって生成された訴状が米国の裁判所に殺到し、司法システムに前例のない負担をもたらしている。一方、電力業界では、データセンターの増大するエネルギー需要に対応するため、バーチャルパワープラント（VPP）が新たな解決策として注目を集めている

ニュース 06/04 20:02 WD

年間学費6.5万ドルの「非学校」：Alpha Schoolニューヨーク分校の内幕

ニューヨーク・マンハッタンに開設されたAI駆動型の高級教育機関「Alpha School」は、自らを「学校ではない」と位置づけることで規制を回避しながら、富裕層向けに年間6.5万ドルの教育サービスを提供している。しかし、内部文書には「開校日

ニュース 06/04 20:01 WD

ベゾスが5億ドルを投じ、脳の核心アルゴリズムを追跡

ジェフ・ベゾスがベンチャー投資機関を通じてスタートアップFlourishに5億ドルを投資し、評価額が25億ドルに到達。同社は実験室で培養した生体ニューロンを解析することで、生物知能を駆動する「核心アルゴリズム」の発見を目指している。

ニュース 06/04 20:00 MIT

裁判所はAI生成訴訟の洪水にどう対応するか

生成AIの普及により、弁護士なしで訴訟を起こす当事者がAIツールを使って法的文書を作成する事例が急増し、米国の裁判所は「幻覚」による架空の判例引用や形式不備など、前例のない課題に直面している。本記事では裁判所の対応策とAI時代の司法公平性の

ニュース 06/04 18:00 WD

量子コンピューティング企業のIPO時代：赤字でも投資家の熱意は止まらない

量子コンピューティング企業Quantinuumが数百万ドルの赤字を抱えながらもIPO準備を進め、推定企業価値100億ドル超で投資家から熱い視線を浴びている。短期的な財務状況より長期的な技術潜在力を重視する現在の資本市場の論理を象徴している。

ニュース 06/04 12:12 X

AIエージェントがテック業界の議論の焦点に：マルチモーダルと企業自動化における興奮と現実のギャップ

X（旧Twitter）でAIエージェントに関する議論が急増し、マルチモーダルモデルの統合応用から企業プロセス自動化まで話題が広がる一方、技術成熟度と商業実装との間のギャップへの懸念も浮上している。

ニュース 06/04 12:12 X

Alphabetが850億ドルを調達しAIを加速、Google事業に資本流入の新たな波

Alphabetは傘下のGoogle AI事業拡大のため、850億ドルという同社史上最大規模の資金調達を完了した。これは近年世界のテック業界における最大級のAI専用投資の一つとなる。

ニュース 06/04 12:12 X

xAI、Grokによる性的画像生成で英国議員に提訴される AIコンテンツの安全性をめぐる論争を引き起こす

英国の議員がxAIに対し、同社のチャットボットGrokが性的画像を生成可能であるとして提訴した。この事件はAI倫理、コンテンツ安全性、規制責任をめぐる激しい議論を引き起こしている。

ニュース 06/04 12:12 X

TSMC CEOがAIチップ需要に楽観的見通し半導体産業は力強い成長サイクルへ

TSMC（台湾積体電路製造）のCEOがAIチップ需要の旺盛さを強調し、先進プロセスの注文が満杯状態にあると表明した。半導体セクターは全面高となり、AI業界の中核話題に浮上している。

レビュー

すべて見る →

レビュー 06/04

Smokeクイックテスト：文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50

Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。

レビュー 06/03

Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し

最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。

レビュー 06/03

WDCD横断比較で判明：リソース制限が11モデル最大の弱点、平均わずか1.7点

WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。

WDCD コンプライアンス

#1 Claude Opus 4.7 70 #2 GPT-5.5 70 #3 GPT-o3 70 #4 Claude Sonnet 4.6 67.5 #5 Gemini 2.5 Pro 67.5 #6 豆包 Pro 62.5 #7 Gemini 3.1 Pro 62.5

守約ランキング全体を見る →

Research Lab

WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ

WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3（平均9/10）でした。

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab