Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 · #1 Gemini 2.5 Pro 79 ▲29.7 · #2 Claude Opus 4.7 78.8 ▼3.1 · #3 豆包 Pro 78.8 ▼2.8 · #4 Grok 4 78.4 ▼5.3 · #5 GPT-5.5 78.2 ▼1.2 · #6 Claude Sonnet 4.6 78 ▼3.2 · #7 Qwen3 Max 77.7 ▼3.1 · #8 Gemini 3.1 Pro 77.1 ▲24.3 · #9 DeepSeek V4 Pro 76.9 ▼4.2 · #10 GPT-o3 75.9 ▼2.6 · #11 文心一言 4.5 61.7 ▼12.5 · ▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/03 02:02 TC

OpenAIがCodexプラグイン6種を発表、ホワイトカラー業務の自動化を狙う

OpenAIは2026年6月3日、データ分析、クリエイティブ制作、営業、製品デザイン、株式投資、投資銀行業務の6つの専門分野を対象とした、ホワイトカラー業務向けのCodexプラグインを正式に発表した。各プラグインは特定の職種向けに指示、コン

ニュース 06/03 02:01 TC

トランプ氏が縮小版AI大統領令に署名：業界の反対を受け自主審査に変更

2026年6月3日、トランプ大統領は修正版のAI規制大統領令に署名し、当初予定されていた先進AIモデルに対する強制的な事前審査を、完全に自主的なものへと変更した。この動きは、ホワイトハウスが科学技術業界に対して行った大きな譲歩であり、米国連

ニュース 06/03 02:00 TC

Amazon Ringの顔認識機能が集団訴訟に直面

バージニア州の住民が、Amazon傘下のRingの「Familiar Faces（熟悉面孔）」機能がユーザーの明示的な同意なしに顔認証の生体情報を収集・保存しているとして、シアトル連邦裁判所に集団訴訟を提起した。2023年のFTC和解以降、

ニュース 06/03 00:01 TC

AnthropicがClaude Mythosを15カ国の重要インフラへ拡大

AI安全企業Anthropicが、セキュリティ脆弱性プロジェクトProject Glasswingと中核安全プラットフォームMythosのアクセス権を15カ国150組織に拡大し、電力、水道、医療、通信などの重要インフラ領域に展開する。

ニュース 06/03 00:01 WD

OpenAIから巨額の投資を獲得、OpalがAI音声デバイス開発へと転換

かつて高品質ウェブカメラOneCamで注目を集めたOpalが、OpenAIとサムスンから1億2000万ドル超の戦略的投資を受け、AI音声デバイス開発へと方向転換している。

ニュース 06/02 22:02 TC

ロケットエンジンスタートアップImpulseが5億ドルを調達、AIではなく人材採用を優先

ロケットエンジンスタートアップのImpulse Spaceが5億ドルの大型資金調達を発表し、その資金を主にAIシステムへの投資ではなく、人間のエンジニア採用に充てる方針を明確にした。

ニュース 06/02 22:01 MIT

AIが行政業務を担う：小規模企業の効率的運営の新たなエンジン

MIT Technology ReviewのコラムThe Downloadは、AIが企業の行政管理を担えるようになり、特に中小企業にかつてない機会をもたらしていると指摘した。会計から設計まで、AIツールが小規模事業者を煩雑な業務から解放しつ

ニュース 06/02 22:00 TC

ZeroDriftが1000万ドルの資金調達を完了、AIモデルに「コンプライアンス・ファイアウォール」を構築

AIコンプライアンス分野のスタートアップZeroDriftが1000万ドルのシードラウンド資金調達を完了し、AIモデルとユーザーの間に「コンプライアンスフィルター層」を構築することで、企業の生成AI導入における規制リスクを解決することを目指

ニュース 06/02 20:01 AIN

GitHub Copilotユーザーがトークン課金値上げに直面

GitHubは6月1日からCopilotのトークンベース従量課金モデルを正式導入したが、わずか1日で多くのユーザーが請求額の急増を訴え、料金が30%～80%上昇したケースが報告されている。

ニュース 06/02 20:00 MIT

AIエージェント時代：グローバル医療をいかに人間性に回帰させるか？

グローバル医療業界が深刻な人材不足と需要急増の圧力に直面する中、エージェントAI（Agentic AI）が反復作業を自動化することで、医療従事者を本来の人間的なケア業務に回帰させる可能性を示している。

ニュース 06/02 18:01 MIT

中小企業のAI活用：財務から研究開発まで完全ガイド

生成AIと大規模言語モデル（LLM）の活用により、中小企業は会計・設計・市場調査・製品開発などの分野で大手企業並みの能力を獲得できるようになっています。本記事では中小企業が体系的にAIを導入するための具体的な方法と注意点を解説します。

ニュース 06/02 18:00 WD

トランプ政権内紛：AI規制をめぐる争いが膠着状態に

トランプ政権はバイデン時代のAI規制枠組みを撤廃したものの、政権内部では完全な自由放任を主張する陣営と、安全保障の観点から新たな統治メカニズムを求める陣営に分裂し、対立が深まっている。

レビュー

すべて見る →

レビュー 06/02

GPT-5.5 が素材制約71点でSmokeランキング首位に、コード満点後の後半戦で差が拡大

本日のSmoke軽量評価では、上位7モデルすべてがコード実行で満点を獲得し、ランキングは素材制約スコアによって決定された。GPT-5.5 は素材制約71点で総合86.95点を記録し、首位に立った。

レビュー 06/01

Smoke評価：Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞

Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。

レビュー 05/31

Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落

最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。

WDCD コンプライアンス

#1 Qwen3 Max 70.8 #2 Claude Sonnet 4.6 66.7 #3 Gemini 3.1 Pro 66.7 #4 GPT-o3 65 #5 Claude Opus 4.7 64.2 #6 DeepSeek V4 Pro 64.2 #7 Gemini 2.5 Pro 64.2

守約ランキング全体を見る →

Research Lab

3大モデル翻訳対決：第23週品質評価、gpt-o3が9点でトップ

今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3（平均9/10）でした。

WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話

WDCD Run #135：Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab