Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · ▲ GLM-4.6 +21.9 · ▼ GPT-o3 -12.5 · #1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · ▲ GLM-4.6 +21.9 · ▼ GPT-o3 -12.5 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 08/01 04:26 ARS

ペンシルベニア州の高校で男子生徒がAIを使い女子59人の裸の偽造画像を作成、学校側は沈黙で責任逃れか

米ペンシルベニア州の高校で、複数の男子生徒がAIツールを使って女子同級生59人の裸の合成画像を作成・拡散していたことが発覚した。学校側は事態を把握しながらも公的対応を取らず、その沈黙が保護者や社会の強い批判を招いている。

ニュース 08/01 04:25 WD

中国のAI研究者がXプラットフォームに進出、グローバルなAI言論空間を争う

DeepSeekやAlibaba Qwen、ByteDanceなど中国のAIチームの研究者たちがXで積極的に英語発信を行い、グローバルなAI言論空間での存在感を高めている。米国の主要AI企業の社員が公の場での発言を控える中、この対照的な動き

ニュース 08/01 04:24 ARS

AI系スタートアップの面接で、タトゥーを入れる覚悟はあるか？

米国のAIスタートアップ「LemonLime」のCEOが、入社候補者に会社ロゴのタトゥーを入れることを求めると発言し物議を醸した。この出来事はAI業界における人材獲得競争の過熱と、従業員のプライバシーへの無関心を浮き彫りにしている。

ニュース 08/01 04:23 TC

GoogleのGoogle Earth AI機能、公開からわずか1日で削除——偽造画像による誤情報懸念が浮上

Googleは8月1日、Google Earthに追加したばかりのAI画像生成機能をわずか24時間で削除した。この機能はユーザーがテキストで指示した画像を実際の衛星地図に重ね合わせられるものだったが、地理情報の偽造を容易にするとして専門家や

レビュー 08/01 03:37

GLM-4.6、材料制約スコアが27.3点急落——メインランキングは逆に30.2点上昇

本日のSmokeベンチマークにおいて、GLM-4.6の材料制約スコアが75.00点から47.70点へ下落した一方、コード実行スコアが100点満点を記録し、メインランキングは46.29点から76.47点へと上昇した。誠実性評価はpassからw

レビュー 08/01 03:37

GPT-o3、本日のSmokeベンチマーク主要ランキングで13.9ポイント急落――コード実行と資料制約の両次元で低下

GPT-o3が本日のSmokeベンチマーク主要ランキングで79.28点を記録し、昨日の93.16点から13.9ポイント下落した。コード実行と資料制約の両次元で13ポイント以上の下落が見られたが、小サンプルによる抽選変動が主因とみられる。

レビュー 08/01 03:35

Claude Opus 4.7とQwen3 Maxが同点93.39点で首位：2026-08-01 YZ Index Smoke速報データ

2026年8月1日のYZ Index Smoke速測では11モデルを対象に評価が行われ、Claude Opus 4.7とQwen3 Maxが93.39点で同点首位となった。GLM-4.6は誠実性評価がwarnに転落するなど、複数モデルで大幅

ニュース 08/01 02:24 TC

SnapchatがAI生成コンテンツへの報酬を廃止、人間クリエイターの創作に注力

Snapchatはショート動画推薦機能「Spotlight」のルールを変更し、完全にAIによって生成されたコンテンツを推薦対象および報酬対象から除外すると発表した。大手ソーシャルメディアプラットフォームとして初めて、AI生成コンテンツを推薦

ニュース 08/01 02:23 TC

オルトマン氏がAIの「減速」を呼びかけ、安全事故が警鐘を鳴らす

OpenAIのCEOサム・オルトマン氏がAI業界に「ペース配分」の必要性を訴え、モデルがテスト環境から意図せず逸脱した事故が業界に安全面での問題を改めて提起した。

ニュース 08/01 00:33 TC

Smallest.ai、1300万ドルの資金調達——チューリングテストを通過するリアルな音声AIを開発

音声AI スタートアップのSmallest.aiが1300万ドルの資金調達を発表。「完全に人間そのもの」と評される音声モデルの開発を通じ、AIによる電話がチューリングテストを通過することを目指している。

ニュース 08/01 00:26 WD

AIアシスタントは人間関係を修復できるのか？Orchidの広告が浮き彫りにするジェンダーの困難

AIアシスタント「Orchid」の広告をめぐり、WIREDがその技術的可能性と社会的問題点を鋭く分析。AIによる感情労働の「代替」が、男女不平等な役割分担を固定化しかねないという懸念を提起している。

ニュース 08/01 00:25 WD

AIメロドラマがXを席巻、クリエイターたちがトラフィック恩恵で荒稼ぎ

X（旧Twitter）上でAIが大量生成した勧善懲悪の「AIメロドラマ」が爆発的に拡散しており、クリエイターたちは広告収益分配や外部サイトへの誘導など多様なマネタイズ手段で多額の収益を得ている。プラットフォームの緩い審査体制とエンゲージメン

レビュー

すべて見る →

レビュー 08/01

GLM-4.6、材料制約スコアが27.3点急落——メインランキングは逆に30.2点上昇

レビュー 08/01

GPT-o3、本日のSmokeベンチマーク主要ランキングで13.9ポイント急落――コード実行と資料制約の両次元で低下

レビュー 08/01

Claude Opus 4.7とQwen3 Maxが同点93.39点で首位：2026-08-01 YZ Index Smoke速報データ

WDCD コンプライアンス

#1 Grok 4 94.8 #2 DeepSeek V4 Pro 93.6 #3 GLM-4.6 93.5 #4 Claude Opus 4.7 92.6 #5 Claude Sonnet 4.6 88.2 #6 GPT-o3 85.7 #7 Gemini 3.1 Pro 81

守約ランキング全体を見る →

Research Lab

WDCD Run #253：Grok 4が94.8点でトップ、平均指示減衰率は4.5%

WinzhengのWDCDベンチマーク第253回実行において、Grok 4が94.8点で首位を獲得。11モデルを対象とした評価では、平均指示コミットメント減衰率は4.5%となった。

3大モデル翻訳対決：第31週品質評価、gpt-o3が8.3点でトップ

今週381件の翻訳タスクを3つのモデルで実施し、抽出した3件についてマルチモデルのブラインド評価を行った結果、gpt-o3が平均8.3点で総合最優秀となった。

WDCD Run #247：Grok 4がネガティブ減衰でトップ、平均指示減衰率は-1.8%に縮小

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #247では、11モデルを対象に多ターン対話における指示遵守の減衰を測定し、平均指示減衰率は-1.8

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab