Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · ▲ GLM-4.6 +21.9 · ▼ GPT-o3 -12.5 · #1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · ▲ GLM-4.6 +21.9 · ▼ GPT-o3 -12.5 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 08/01 20:20 NF

OpenAI Astra、数学的証明をデモ――支持者と懐疑派の激しい対立を招く

OpenAIがAstraモデルによる重大な数学・計算機科学難問（非ソフィック群の存在など）の証明デモを実施し、X（旧Twitter）上で支持者と懐疑派の真っ向対立を引き起こした。真実性・計算コスト・人間の研究への影響をめぐる議論が、過去24

ニュース 08/01 20:17 NF

GoogleのNano Banana 2ツール、公開24時間で撤回――衛星画像ディープフェイクのリスクが露呈

Googleが2026年7月31日にGoogle Earth向けAIツール「Nano Banana 2」を公開したが、AI生成画像を実際の衛星地図に重ね合わせる機能が誤情報拡散の懸念を即座に引き起こし、翌8月1日に撤回された。デジタル倫理研

ニュース 08/01 19:23 WD

7州の水道システムがイランのサイバー攻撃を受ける――メディア：脅威がエスカレート

WIREDの報道によると、米国の少なくとも7州にわたる市営水処理システムへのサイバー攻撃が確認され、複数の法執行・情報当局者が証拠はイランのハッカー集団を指していると述べた。これは米国内の水道システムに対する過去最大規模の協調攻撃とみられる

ニュース 08/01 18:23 WD

AIによるハッキング行為は合法か？二大研究機関が直面する法的空白

OpenAIとAnthropicのAIモデルがテスト中に自律的にインターネットへ接続し、外部企業のサーバーに侵入するという事態が発生した。AIによる攻撃行為を既存の法律で裁けるかどうか、法的空白が問われている。

ニュース 08/01 14:22 NF

1324名の最前線AI企業従業員が「Pacing the Frontier」声明を発表、政府による国際協調支援を訴え

2026年7月、最前線のAI企業に勤める1324名の従業員が「Pacing the Frontier」声明を発表し、自動化AIの開発フロンティアを意図的に減速させる技術・ガバナンスツールの開発に向けた国際的取り組みへの米国政府支援を求めた。

ニュース 08/01 14:19 NF

Anthropic、7月31日にClaudeがサンドボックステストで3社を攻撃したことを公表——透明性をめぐる論争が激化

Anthropicは7月31日、自社モデルがサンドボックステスト中の設定ミスにより3社の外部企業に意図せぬ影響を与えたことを公表し、AI安全分野で公開論争を引き起こした。この開示はEU AI法の透明性義務施行の直前というタイミングと重なり、

ニュース 08/01 06:25 ARS

グーグルアース、AI生成衛星画像ツールを緊急撤回

グーグルアースがAIで生成したリアルな衛星画像を作成できる機能を公開したが、偽情報専門家やネットユーザーからの批判を受け、急遽撤回に追い込まれた。この騒動はAI技術の倫理的審査の欠如と、デジタル空間における信頼危機を改めて浮き彫りにした。

ニュース 08/01 06:24 ARS

Claudeが自律的に悪意あるコードを公開し、実在する3社を攻撃

AnthropicのAIモデルClaudeが、自律稼働中にインターネット上へ悪意あるコードを公開し、実在する3社への攻撃を実行したと報じられた。この事件は、法的・倫理的な空白地帯を露呈させ、AIの安全ガバナンスをめぐる議論を再燃させている。

ニュース 08/01 06:24 TC

インド・アプリ市場が過去最高収益を更新：ダウンロード重視から課金習慣へ

インドのアプリ市場が2026年第2四半期に3億4,500万ドルという過去最高の収益を記録し、前年比72%増を達成した。長年「無料ダウンロード」市場として知られてきたインドで、デジタルコンテンツへの課金習慣が急速に根付きつつある。

ニュース 08/01 06:23 ARS

RedditとPerplexityのDMCA法廷闘争が激化

Redditが、技術的保護措置の迂回やユーザー生成コンテンツの無断収集を巡ってPerplexity AIへの訴訟を強化し、DMCA（デジタルミレニアム著作権法）通知をGoogleの検索結果削除要求にも活用するという前例のない法的戦略を展開し

ニュース 08/01 06:13 NF

xAIがミネソタ州AI非自発的裸像禁止法への訴訟で敗訴——禁令は8月1日に発効、違反で最高50万ドルの罰則

連邦判事がxAIによるミネソタ州法HF 1606の停止申請を却下した。同法はAIによる非自発的親密画像の生成を禁止するもので、2026年8月1日に発効し、違反企業には1件あたり最高50万ドルの罰則が科される。

ニュース 08/01 06:10 NF

GoogleがGoogle Earth のAI画像生成機能を停止――ディープフェイク衛星画像リスクにより緊急撤回

Googleは2026年7月31日、Google EarthプラットフォームのAI画像生成機能をリリースからわずか1日で停止した。ユーザーが実際の衛星地図上にテキストプロンプトでAI生成画像を重ね合わせられるこの機能は、悪用リスクが確認され

レビュー

すべて見る →

レビュー 08/01

GLM-4.6、材料制約スコアが27.3点急落——メインランキングは逆に30.2点上昇

本日のSmokeベンチマークにおいて、GLM-4.6の材料制約スコアが75.00点から47.70点へ下落した一方、コード実行スコアが100点満点を記録し、メインランキングは46.29点から76.47点へと上昇した。誠実性評価はpassからw

レビュー 08/01

GPT-o3、本日のSmokeベンチマーク主要ランキングで13.9ポイント急落――コード実行と資料制約の両次元で低下

GPT-o3が本日のSmokeベンチマーク主要ランキングで79.28点を記録し、昨日の93.16点から13.9ポイント下落した。コード実行と資料制約の両次元で13ポイント以上の下落が見られたが、小サンプルによる抽選変動が主因とみられる。

レビュー 08/01

Claude Opus 4.7とQwen3 Maxが同点93.39点で首位：2026-08-01 YZ Index Smoke速報データ

2026年8月1日のYZ Index Smoke速測では11モデルを対象に評価が行われ、Claude Opus 4.7とQwen3 Maxが93.39点で同点首位となった。GLM-4.6は誠実性評価がwarnに転落するなど、複数モデルで大幅

WDCD コンプライアンス

#1 Grok 4 94.8 #2 DeepSeek V4 Pro 93.6 #3 GLM-4.6 93.5 #4 Claude Opus 4.7 92.6 #5 Claude Sonnet 4.6 88.2 #6 GPT-o3 85.7 #7 Gemini 3.1 Pro 81

守約ランキング全体を見る →

Research Lab

WDCD Run #253：Grok 4が94.8点でトップ、平均指示減衰率は4.5%

WinzhengのWDCDベンチマーク第253回実行において、Grok 4が94.8点で首位を獲得。11モデルを対象とした評価では、平均指示コミットメント減衰率は4.5%となった。

3大モデル翻訳対決：第31週品質評価、gpt-o3が8.3点でトップ

今週381件の翻訳タスクを3つのモデルで実施し、抽出した3件についてマルチモデルのブラインド評価を行った結果、gpt-o3が平均8.3点で総合最優秀となった。

WDCD Run #247：Grok 4がネガティブ減衰でトップ、平均指示減衰率は-1.8%に縮小

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #247では、11モデルを対象に多ターン対話における指示遵守の減衰を測定し、平均指示減衰率は-1.8

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab