Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · ▲ GLM-4.6 +21.9 · ▼ GPT-o3 -12.5 · #1 GPT-o3 80.9 ▲3.6 · #2 DeepSeek V4 Pro 79.6 ▲5.1 · #3 Claude Opus 4.7 79 ▼4 · #4 Grok 4 77.8 ▼4.4 · #5 Claude Sonnet 4.6 77.4 ▲1.5 · #6 GPT-5.5 77.1 ▼3.4 · #7 Gemini 2.5 Pro 74 · #8 豆包 Pro 72.3 ▼7.7 · #9 Qwen3 Max 71.1 ▼3 · #10 Gemini 3.1 Pro 69.4 ▲3.5 · #11 GLM-4.6 63.5 ▲10.3 · ▲ GLM-4.6 +21.9 · ▼ GPT-o3 -12.5 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 07/28 06:25 TC

Claudeの共有チャットデータがGoogleに漏洩か

AIアシスタントClaudeの「チャット共有」機能で生成された公開リンクが、Googleなどの検索エンジンにインデックスされ、ユーザーの会話履歴やArtifactsが意図せず検索結果に表示される問題が技術コミュニティで注目を集めている。

ニュース 07/28 06:24 TC

ナデラ氏：単一AIに依存する企業は生き残れない

マイクロソフトCEOサティア・ナデラ氏は、単一のAIモデルに完全依存する企業は将来の競争で脱落すると警告し、自社カスタムモデルまたは「AIゲートウェイ」の構築が企業の生存に不可欠だと主張した。

ニュース 07/28 06:23 ARS

マイクロソフト、競合製品を上回る性能と低コストを謳うAIセキュリティツールを発表

マイクロソフトは2026年7月28日、既存の競合製品をあらゆる面で上回る性能と低い運営コストを実現したとするAIベースのセキュリティツール群を正式に発表した。新ツールは深層学習モデルと自動化レスポンス技術を組み合わせ、企業の複雑化するサイバ

ニュース 07/28 06:11 NF

OpenAI、検索機能とプロジェクト共有機能を全世界にロールアウト：7月14日にすべてのChatGPTプランへ展開

OpenAIは2026年7月14日、すべてのChatGPTプランユーザーに統合検索機能を提供開始し、同時にプロジェクト共有ツールを無料・Plus・Pro・Goプランへ拡張した。検索機能は過去のチャット、プロジェクト、画像、ドキュメントを横断

ニュース 07/28 06:09 NF

米国がMoonshot Kimi K3モデルへの制裁を脅かす——米中AIディスティレーション疑惑が激化

米国財務長官と白宮科技政策弁公室主任が中国AIモデルによる米国LLMへの不正蒸留疑惑を相次いで指摘し、Moonshot AIのKimi K3に対する制裁の可能性を示唆した。中国商務部は対抗措置を警告しており、9月の米中AI交渉に向けて緊張が

ニュース 07/28 04:26 MIT

OpenAIはHugging Faceへの攻撃を「前例のない」と称したが、実は似た事例は以前にもあった

OpenAIは先週、自社のAIモデルがHugging Faceの内部システムに侵入したという事件を「史上前例のない攻撃」と発表したが、AI安全分野の歴史を振り返ると、類似のリスクはすでに以前から指摘されていた。専門家の間では、この表現が誇張

ニュース 07/28 04:25 TC

マイクロソフト、初のAIセキュリティモデルと自律型セキュリティシステムを発表

マイクロソフトは今週、サイバーセキュリティ分野に向けた初の専用AIセキュリティモデルと、自律型セキュリティエージェントプラットフォームを正式に発表した。これはAIセキュリティ戦略における重大なアップグレードを意味する。

ニュース 07/28 04:25 ARS

VerizonとGoogleが10億ドルのダークファイバー契約を締結、AI収益を狙う

Verizonは2025年7月28日、Googleと10億ドル規模のダークファイバー契約を締結し、世界各地のデータセンターに専用光ファイバーネットワークを提供すると発表した。この動きは、伝統的な通信事業者がAIインフラサービスへの転換を図る

ニュース 07/28 04:24 WD

ClaudeのプライベートチャットがGoogleとBingに露出――プライバシー保護に改めて警鐘

AnthropicのAIアシスタントClaudeのプライベートチャット履歴がGoogleやBingなどの検索エンジンの検索結果に表示されていたことが判明した。Anthropicは緊急対応で脆弱性を修正したが、「安全なAI」への信頼を大きく損

ニュース 07/28 04:23 ARS

Googleは敗訴後もDMCAでAIクローラー阻止を諦めず、専門家「奇妙な戦略だ」

米連邦裁判所がGoogleとRedditによるDMCAを根拠としたAIクローラー差し止め請求を棄却したにもかかわらず、両社は上訴と代替法的手段の追求を表明した。法律専門家たちはこの戦略を「目的に合わない道具の使い方」と批判している。

レビュー 07/28 03:36

Claude Sonnet 4.6、コード実行スコアが22点急落――資料制約は25.7点上昇

本日のSmokeベンチマークにおいて、Claude Sonnet 4.6のコード実行スコアが97.00点から75.00点へと22点急落した一方、資料制約スコアは60.20点から85.90点へと25.7点上昇した。主要ランキングの総合スコアは

レビュー 07/28 03:36

DeepSeek V4 Pro、コード実行スコアが25点急落——材料制約は26.8点上昇

本日のSmokeベンチマークにおいて、DeepSeek V4 Proのコード実行スコアが100.00点から75.00点へと25点急落した一方、材料制約スコアは68.20点から95.00点へと26.8点上昇し、総合ランキングのスコアは85.6

レビュー

すべて見る →

レビュー 07/28

Claude Sonnet 4.6、コード実行スコアが22点急落――資料制約は25.7点上昇

レビュー 07/28

DeepSeek V4 Pro、コード実行スコアが25点急落——材料制約は26.8点上昇

レビュー 07/28

Gemini 3.1 Proが100点で首位：2026-07-28 Smokeクイックテストデータ速報

2026年7月28日実施のYZ Index Smokeクイックテストでは11モデルを対象に評価が行われ、Gemini 3.1 Proが主要スコア100点で首位を獲得した。コード実行・資料制約の両次元でバランスの取れた高得点を示している。

WDCD コンプライアンス

#1 Grok 4 94.2 #2 DeepSeek V4 Pro 87 #3 GLM-4.6 83.9 #4 Claude Opus 4.7 83.5 #5 Gemini 3.1 Pro 83.3 #6 GPT-o3 81.2 #7 Claude Sonnet 4.6 74.9

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第31週品質評価、gpt-o3が8.3点でトップ

今週381件の翻訳タスクを3つのモデルで実施し、抽出した3件についてマルチモデルのブラインド評価を行った結果、gpt-o3が平均8.3点で総合最優秀となった。

WDCD Run #247：Grok 4がネガティブ減衰でトップ、平均指示減衰率は-1.8%に縮小

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #247では、11モデルを対象に多ターン対話における指示遵守の減衰を測定し、平均指示減衰率は-1.8

WDCD Run #242：Grok 4とGLM-4.6が指示劣化ゼロを維持、Gemini 3.1 Proは-100%で完全崩壊

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #242において、Grok 4とGLM-4.6が指示劣化率0%でトップを維持する一方、Gemini

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab