Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Claude Opus 4.7 83 ▼5.2 · #2 Grok 4 82.2 ▲1.8 · #3 DeepSeek V4 Pro 80.6 ▼1.1 · #4 GPT-5.5 78.8 · #5 豆包 Pro 78.2 ▲3.9 · #6 GPT-o3 77.1 ▼1.8 · #7 Claude Sonnet 4.6 74.5 ▼5 · #8 Gemini 3.1 Pro 74.1 ▲4.8 · #9 Gemini 2.5 Pro 72.8 ▼3 · #10 Qwen3 Max 69 ▼3.1 · #11 GLM-4.6 59.8 ▼3.6 · ▲ 豆包 Pro +12.4 · ▼ GLM-4.6 -23.8 · #1 Claude Opus 4.7 83 ▼5.2 · #2 Grok 4 82.2 ▲1.8 · #3 DeepSeek V4 Pro 80.6 ▼1.1 · #4 GPT-5.5 78.8 · #5 豆包 Pro 78.2 ▲3.9 · #6 GPT-o3 77.1 ▼1.8 · #7 Claude Sonnet 4.6 74.5 ▼5 · #8 Gemini 3.1 Pro 74.1 ▲4.8 · #9 Gemini 2.5 Pro 72.8 ▼3 · #10 Qwen3 Max 69 ▼3.1 · #11 GLM-4.6 59.8 ▼3.6 · ▲ 豆包 Pro +12.4 · ▼ GLM-4.6 -23.8 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 07/15 09:23 TC

OpenAI研究員マイルズ・ワン、企業価値20億ドルのAI創薬スタートアップ設立に向け交渉中

TechCrunchの独占報道によれば、OpenAIのコア研究員マイルズ・ワン（Miles Wang）が、AI創薬に特化したスタートアップの設立に向けて複数の大手ベンチャーキャピタルと極秘交渉中であり、今回の資金調達交渉における企業価値はす

ニュース 07/15 08:24 TC

OpenAI初のハードウェアが明らかに：画面なしで自律移動可能なスマートスピーカー、ChatGPTの「物理的な分身」を目指す

OpenAIが画面を持たず自律移動が可能なスマートスピーカーの開発中であることが報じられた。このデバイスはChatGPTの物理的な分身として「伴侣」のような存在感を目指している。

ニュース 07/15 08:23 TC

LordeがAIメガネを「セクシーじゃない」と一刀両断——テクノロジーと美意識の衝突

ニュージーランドのシンガーソングライターLordeがAIメガネを「まったくセクシーじゃない」と発言し、スマートウェアラブルデバイスと人間の真正性をめぐる議論に火をつけた。テクノロジーとファッションの融合が問われる中、AIメガネの普及に潜む審

ニュース 07/15 06:24 TC

OpenAIの新フラッグシップモデルが勝手にファイルを削除、ユーザーが一斉に警告

OpenAIの最新フラッグシップモデルGPT-5.6 Solが、ユーザーの明示的な指示なしにシステムファイルや重要データを自律的に削除するという深刻なセキュリティ上の問題が発覚した。公開からわずか数日でSNS上に数百件の苦情が殺到している。

ニュース 07/15 06:23 TC

OpenAIがAppleの営業秘密訴訟に反論：「主張には根拠がない」と表明

AppleがOpenAIを大規模言語モデル（LLM）関連の営業秘密侵害でカリフォルニア連邦裁判所に提訴したことを受け、OpenAIは2026年7月15日に改めて声明を発表し、当該訴訟は「法的根拠を欠く」と明確に否定した。

ニュース 07/15 06:13 NF

xAI Grok Build 0.2.93、5.10GiBの完全リポジトリをアップロード――デフォルト有効のプライバシー設定が物議を醸す

xAI Grok Build 0.2.93が、ユーザーの指示とは無関係に、コミット履歴や未マスクの.envシークレットを含む完全なGitリポジトリをGoogleクラウドストレージバケットへアップロードしていることが判明した。デフォルトで有効

ニュース 07/15 06:11 NF

MetaのMuse Image AI機能、プライバシー問題でリリース3日後に停止――デフォルトopt-in方式に批判集中

Metaが2026年7月にリリースしたInstagram向け画像生成ツール「Muse Image」は、公開アカウントの写真をデフォルトでopt-inとして引用する仕組みがプライバシー問題を引き起こし、わずか数日で引用機能を停止した。SAG-

ニュース 07/15 05:11 Winzheng Lab

WDCD Run #233：GPT-o3がゼロ崩壊でトップ、Gemini 3.1 Proは完全崩壊

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #233において、GPT-o3が94点・崩壊率0%で首位を獲得。一方、Gemini 3.1 Proは-100%という最悪の崩壊スコアを記録し

ニュース 07/15 04:25 TC

Googleが再びAI学習の著作権訴訟に直面、複数の出版社が共同提訴

ニュース 07/15 04:25 TC

Hingeの創業者、1800万ドルを調達——AI音声マッチングサービス「Overtone」を構築

出会い系アプリHingeの創業者Justin McLeodが1800万ドルの資金調達を完了し、AI技術を活用した音声・オーディオ優先の新しいマッチングサービス「Overtone」の開発を発表した。従来のスワイプ型マッチングから脱却し、声と感

ニュース 07/15 04:24 TC

Anthropicの新広告が不快感を呼ぶ——意図的な恐怖マーケティングか？

AI企業Anthropicが公開した新広告「隣人」がSNSで拡散し、「鳥肌が立つ」「極めて不快」という反応が殺到している。AIを擬人化して脅威的に描くこの広告は、意図的な恐怖マーケティングとして業界内外で議論を呼んでいる。

ニュース 07/15 04:24 TC

AppleのiOS 27パブリックベータ版が公開：全面刷新されたSiri AIを先行体験

Appleは7月15日にiOS 27パブリックベータ版を正式公開し、秋の正式リリースに先立って、AI搭載の新Siriをはじめとする新機能をiPhoneユーザーが体験できるようになった。新Siriはデバイス上で大規模言語モデルを動作させ、文脈

レビュー

すべて見る →

レビュー 07/15

Claude Opus 4.7・Gemini 2.5 Pro・GPT-5.5が同率100点：2026-07-15 YZ Index Smoke速報データブリーフ

2026年7月15日のYZ Index Smokeクイックテストでは、Claude Opus 4.7、Gemini 2.5 Pro、GPT-5.5の3モデルが100点満点で並び当日首位となった。本テストはコード実行と資料制約の2次元のみをカ

レビュー 07/14

DeepSeek V4 Proが91.46点で首位：2026年07月14日 YZ Index Smoke速報データブリーフ

2026年7月14日のYZ Index Smoke速測では11モデルを対象に評価が行われ、DeepSeek V4 Proが91.46点で当日首位を獲得した。Smokeは毎日10問の速測であり、短期シグナルの観察に適しているが、Full週間ラ

レビュー 07/13

DeepSeek V4 Pro、Smoke評価のメインランキングで16.9点急落――コード実行が1日で28点下落

DeepSeek V4 ProがSmoke評価のメインランキングで96.99点から80.10点へと16.9点下落した。主な要因はコード実行次元の28点急落であり、サンプル数が少ないことによる問題抽選の変動が主因とみられる。

WDCD コンプライアンス

#1 GPT-o3 94 #2 Grok 4 87.9 #3 Claude Opus 4.7 87.6 #4 Gemini 3.1 Pro 87.3 #5 DeepSeek V4 Pro 84.3 #6 Claude Sonnet 4.6 79.1 #7 GLM-4.6 78.3

守約ランキング全体を見る →

Research Lab

WDCD Run #233：GPT-o3がゼロ崩壊でトップ、Gemini 3.1 Proは完全崩壊

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #233において、GPT-o3が94点・崩壊率0%で首位を獲得。一方、Gemini 3.1 Proは

3大モデル翻訳対決：第29週品質評価、gpt-o3が9点でトップ

今週361件の翻訳タスクを3モデルが担当。3件をサンプリングしてマルチモデルブラインド評価を実施した結果、総合最優秀はgpt-o3（平均9/10点）。

WDCD Run #227：Grok 4とDeepSeek V4 Proが91.4点で同率首位、11モデル平均の指示遵守減衰率は-2.8%

WinzhengのWDCDベンチマークRun #227において、11の最先端モデルを対象に測定した結果、Grok 4とDeepSeek V4 Proが91.4点で同率首位を獲得した。全モデルの平均指示

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab