Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 · #1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/25 03:39 X

スタンフォード2026 AIインデックスレポート：生成AI3年間の普及率53%達成、米中性能格差がほぼ解消

スタンフォード大学が発表した2026年AIインデックスレポートによると、生成AIの世界普及率は過去3年間で53%に急上昇し、米中間のAI性能格差はほぼ解消されたことが明らかになった。

ニュース 06/25 03:39 X

AIチップ市場に売り潮、「Chip-Wreck」懸念が半導体株を揺るがす

グローバルAIチップ市場で大規模な売り潮が発生し、需要減速への懸念から「Chip-Wreck」（チップ崩壊）パニックが広がった。KioxiaやDRAM関連株が一日で最大15%下落するなど、市場心理が一時的に緊迫した。

ニュース 06/25 03:39 X

クアルコム、39億ドルでModular AIを買収——AIデータセンター向けチップ競争の構図が変わる

クアルコムは39億ドルの株式交換によりAIソフトウェアスタートアップのModularを買収すると発表した。この動きはNVIDIAが支配するAIデータセンターチップ市場への本格参入を意図した戦略的アップグレードと見られている。

ニュース 06/25 03:39 X

OpenAI、Broadcomと共同で初のカスタムAI推論チップ「Jalapeño」を発表——フルスタックAI戦略の加速へ

OpenAIは半導体大手Broadcomと提携し、初のカスタムAI推論チップ「Jalapeño」を正式発表した。これはOpenAIが純粋なソフトウェアモデル開発者からフルスタックAIソリューションプロバイダーへと戦略転換を図るものとして注目

ニュース 06/25 02:17 TC

Figma大型アップデート：コードレイヤー、アニメーション対応、AI機能が一斉公開

Figmaが2026年6月25日に公開した新バージョンでは、デザインと開発を直接つなぐ「コードレイヤー」機能、CSS アニメーションおよびWebGLシェーダーのネイティブサポート、そして自然言語でプラグインを自動生成するAI機能が主な目玉と

ニュース 06/25 02:16 TC

ヒューマノイドロボット企業Agility Robotics、SPAC上場を計画——評価額25億ドル

2015年にオレゴン州立大学からスピンオフしたヒューマノイドロボット企業Agility Roboticsが、SPAC合併を通じた株式市場上場を計画しており、取引評価額は25億ドル、約6億2000万ドルの純収益調達を見込んでいる。

ニュース 06/25 02:15 TC

Facebookがクリエイター向けAIコンパニオンアプリを発表：スマートアシスタントを内蔵

MetaのFacebookが2026年6月25日、クリエイター向けAIコンパニオンアプリ「Creator Companion」をひっそりとリリースし、一部の選ばれたクリエイターとの内部テストを開始した。同アプリにはAIクリエイターアシスタン

ニュース 06/25 00:17 TC

OpenAIが博通と組み、初のカスタムチップ「Jalapeño」を発表

OpenAIは半導体大手Broadcomと共同開発した初のカスタム推論プロセッサ「Jalapeño」を正式発表した。このチップはNVIDIA H100と比較して推論効率が2.5倍、レイテンシが40%低減されており、OpenAIのハードウェア

ニュース 06/25 00:16 WD

ホワイトハウスが人事交代：Anthropic CEOのAmodeiが「変人」と称され交代させられる

ホワイトハウスとAI企業の極秘会議において、Anthropic CEOのDario Amodeiがホワイトハウス高官から「変人（weirdo）」と呼ばれ、その後共同創業者のTom Brownが後続の重要会議にAnthropicの代表として出

ニュース 06/25 00:15 MIT

極端な熱波がヨーロッパを席巻、複数の発電所が相次ぎ停止を余儀なくされる

記録的な熱波がヨーロッパを襲い、冷却水温の上昇により原子力・水力発電所が出力制限や停止を強いられている。電力需要が急増する中、エネルギーインフラの脆弱性が改めて浮き彫りとなった。

ニュース 06/24 22:19 MIT

AIネットワークデータ基盤インフラ層の台頭

AIの急速な発展に伴い、非構造化データとAIモデルの間のギャップを埋める新たなデータ基盤インフラ層が登場しつつある。この層は、AIアプリケーションの基盤となる「データ抽象層」として、インターネットのデータ供給方式を根本から再構築しようとして

ニュース 06/24 22:18 MIT

Stripe、Anthropic、OpenAIが連携して呼吸器感染症に挑む

決済大手StripeがAI企業のAnthropicおよびOpenAIと共同で「呼吸防護計画」を立ち上げ、AIを活用した広域呼吸器感染予防薬の開発を目指す。普通の風邪に有効なワクチンや特効薬が存在しない現状を打破しようという試みで、初期資金と

レビュー

すべて見る →

レビュー 06/24

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に

レビュー 06/24

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した

レビュー 06/24

4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落

YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に5

WDCD コンプライアンス

#1 Qwen3 Max 92.5 #2 Gemini 3.1 Pro 87.5 #3 Grok 4 82.5 #4 DeepSeek V4 Pro 80 #5 文心一言 4.5 75 #6 Gemini 2.5 Pro 75 #7 豆包 Pro 72.5

守約ランキング全体を見る →

Research Lab

WDCD Run #196：平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合

4大モデル翻訳対決：第26週品質評価、claude-sonnet-4.6 が9点でトップ

今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6（平均スコア9/10）。

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab