Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 · #1 Grok 4 83.7 ▲2.7 · #2 Claude Opus 4.7 81.9 ▲1.9 · #3 豆包 Pro 81.6 · #4 Claude Sonnet 4.6 81.2 ▼1.8 · #5 DeepSeek V4 Pro 81.1 ▲4.8 · #6 Qwen3 Max 80.8 ▲1.8 · #7 GPT-5.5 79.4 ▲2.4 · #8 GPT-o3 78.5 · #9 文心一言 4.5 74.2 ▲7.1 · #10 Gemini 3.1 Pro 52.8 ▼24.9 · #11 Gemini 2.5 Pro 49.3 ▼29.7 · ▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 05/31 02:01 TC

MetaがAIハードウェアを展開：スマートペンダントが次世代インタラクションの入口に

MetaがAIスマートペンダント「Sofia」を秘密裏に開発中で、音声・カメラ・AIチップを搭載し、リアルタイム翻訳や物体認識などをサポート、雷朋スマートグラスに続く第二のAIハードウェアと位置付けられている。

ニュース 05/31 02:00 TC

GitHub Copilotの課金改革に開発者から嘲笑の嵐：「まったく笑い話だ」

GitHubがAIプログラミングアシスタントCopilotを2026年6月からトークンベースの課金モデルへ移行すると発表し、開発者コミュニティで激しい反発が広がっている。月額固定料金から従量制への変更により、費用が300%〜500%増加する

ニュース 05/31 00:00 TC

Google AIアシスタント Gemini Spark 実機検証：24時間体制で高効率かつ実用的

Googleの新しい独立型AIアシスタント「Gemini Spark」を1週間試用したレビュー。受信トレイの要約や地元アクティビティの企画など実用性は高いものの、独立製品としての位置付けの曖昧さや、エコシステム統合という課題も浮き彫りとなっ

ニュース 05/30 22:00 TC

ブラウザ戦争激化！2026年にChromeとSafariに挑む5つの注目新選択肢

2026年、ChromeとSafariの支配が揺らぐ中、Arc、Brave、Vivaldi、Firefox、Microsoft Edgeなど新興・改革派ブラウザがプライバシー保護や差別化機能で急速に台頭している。

ニュース 05/30 18:00 WD

文字起こしソフトは有料にすべき？実機テストで検証する価値の有無

WIRED のJustin Potが2週間にわたりWispr Flow、Otter.ai、Rev、無料のWhisperローカル版を実測し、有料の文字起こしソフトの価値を検証。結論は使用頻度、プライバシー意識、高度機能の必要性次第。

ニュース 05/30 08:00 TC

AIなしではプログラミング不可？専門家がAIへの依存が自らを蝕む可能性を警告

シリコンバレーでAIコーディングアシスタントへの依存が深まる中、研究者たちはコード品質の低下、開発者スキルの退化、セキュリティリスクの増加を警告している。効率と基本能力のバランスが今後の課題となっている。

ニュース 05/30 06:30 X

Meta社員のマウス追跡ツールが暴露：リモートワーク監視とEUプライバシー規制の衝突

ソーシャルメディア大手のMetaが社内でマウス追跡ツールを導入し、社員の操作行動を監視していたことが暴露され、EUのGDPRに抵触する可能性が指摘されている。この事件はリモートワーク時代における効率性とプライバシー保護のバランスをめぐる議論

ニュース 05/30 06:30 X

Claudeのポートフォリオ、ServiceNowの反発に賭ける：AIエージェントはインフラの勝者か、それとも市場の幻想か？

Claudeがシミュレーションポートフォリオの中でServiceNowを買い、AIエージェントインフラの受益者だと判断したことが業界の注目を集めた。この見解の公表後、ServiceNowの株価は反発し、AIモデルの投資判断能力をめぐる議論を

ニュース 05/30 06:30 X

OppoがX-OmniClawフレームワークをオープンソース化：デバイス側AIエージェントがプライバシーとインテリジェント体験をどう再構築するか

Oppoが開発したAndroid向けAIエージェントフレームワーク「X-OmniClaw」をオープンソース化。デバイス側でのローカル処理とマルチモーダル対応により、プライバシー保護とインテリジェント機能の両立を実現する。

ニュース 05/30 06:29 X

ウォーレン上院議員のAI課税提案がシリコンバレーと政界で激論を呼ぶ：年間4兆ドルの税収は実現可能か？

米上院議員エリザベス・ウォーレンが提案したAI業界への課税案は、年間4兆ドルの税収を見込み社会プロジェクトの財源とすることを目指しているが、シリコンバレーと政界で激しい議論を引き起こしている。

ニュース 05/30 06:29 X

NVIDIAとDellが提携してAI Factoryを発表：エンタープライズ向けagentic AIとロボティクス導入に新たなブレークスルー

NVIDIAとDellがTechWorldイベントでAI Factoryソリューションを共同発表し、企業のオンプレミスagentic AIシステム導入と物理ロボットの統合活用を支援する。製造、物流などの分野で実用化が進んでおり、AI技術のエ

ニュース 05/30 06:29 X

GoogleのAgentic AI Searchが検索分野を再構築：Geminiマルチモーダルエージェント技術のブレークスルーが業界の注目を集める

Googleは正式にAgentic AI Search戦略を推進し、インテリジェント情報エージェントとマルチモーダル処理能力を導入。Geminiシリーズモデルの最新進展を披露し、検索技術が受動的応答から能動的エージェントへ転換する重要な一歩

レビュー

すべてのレビューを見る →

レビュー 05/30

文心一言4.5のコード実行が100から50へ急落、メインランキングで1日に11ポイント低下

文心一言4.5は本日のSmoke快速テストにおいて、メインランキングが74点から62.96点へと11ポイント下落し、コード実行スコアは100点から50点へ崩壊した。単日の変動か、それとも実質的な退化か、引き続き観察が必要である。

レビュー 05/30

文心一言の実行スコア50に暴落、Smoke軽量評価で本日メインランキングが大幅再編

レビュー 05/29

DeepSeek V4 Pro Smokeテスト、メインボードで48.7点急騰も工程判断は28.4点暴落

DeepSeek V4 Proが本日のSmoke評価で極端に分化した結果を示し、メインボードは87.99点まで急騰した一方、工程判断は10.00点に半減した。コード実行は満点を獲得したが、安定性とシステム的思考に明らかな短所が露呈している。

WDCD コンプライアンス

#1 Qwen3 Max 72.5 #2 Claude Sonnet 4.6 65 #3 DeepSeek V4 Pro 62.5 #4 Gemini 2.5 Pro 60 #5 GPT-5.5 60 #6 Claude Opus 4.7 57.5 #7 GPT-o3 57.5

守約ランキング全体を見る →

Research Lab

WDCD Run #135：Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に

WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の

3大モデル翻訳対決：第22週品質評価、gpt-o3 が8.3点でリード

今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。

WDCD Run #125：平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ

Winzheng動的文脈減衰（WDCD）ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab