Winzheng — AIモデル評価 · 変化情報

総合トップ5

#1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 · #1 DeepSeek V4 Pro 92.3 · #2 Claude Opus 4.7 90.6 ▼4.7 · #3 GPT-o3 90.5 ▲0.9 · #4 Grok 4 89.9 ▲1.9 · #5 GPT-5.5 88.3 ▼4.2 · #6 豆包 Pro 88.1 ▲0.5 · #7 Qwen3 Max 87.8 ▼5.3 · #8 Gemini 2.5 Pro 82.2 ▲6.3 · #9 Claude Sonnet 4.6 81.9 ▼9.3 · #10 文心一言 4.5 81.3 ▲4.2 · #11 Gemini 3.1 Pro 77.2 ▲0.9 · ▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6 ·

完全ランキング →

最新ニュース

すべてのニュースを見る →

ニュース 06/25 14:15 AIN

OpenAI「Jalapeño」チップの背後にあるコスト計算

OpenAIがBroadcomと共同で「Jalapeño」という名のカスタムASICチップを開発中であることが報じられた。これはNvidiaへの依存を減らし、推論コストを大幅に削減するための戦略的な動きとして注目されている。

ニュース 06/25 08:18 WD

Googleの検索新AI学習機能：オプトアウトの方法

Googleは2026年6月、ユーザーが検索時にアップロードしたメディアファイルをデフォルトでAIモデルの学習に使用する新機能を静かに導入した。本記事では、この変更の内容とオプトアウトの具体的な手順を解説する。

ニュース 06/25 08:17 TC

Cerebrasの初決算後に株価急落、CEOは利益率見通しが誤解されたと主張

AIチップのスタートアップ企業Cerebras Systemsが上場後初の決算で投資家を失望させる粗利率予測を示し、時間外取引で株価が20%超急落した。CEOのAndrew Feldmanは市場が利益率見通しを誤解していると反論した。

ニュース 06/25 08:16 TC

元Infosys CEO、新会社設立でITサービス業界の勢力図に挑戦

元InfosysのCEO Vishal Sikkaが、AIネイティブなITサービスプラットフォームを掲げる新会社を密かに設立した。MayfieldとAramco Venturesから出資を受け、従来型ITサービスモデルの抜本的な変革を目指す

ニュース 06/25 08:15 TC

欧州、米国の半導体戦争に反発：旧型設備の規制も無意味？

米国が中国向け半導体輸出規制をDUV装置などの旧型設備にまで拡大しようとする中、欧州各国は自国の経済的利益を損なうとして反発を強めている。ASMLのCEOは、過度な規制が中国の自立化を加速させる可能性を警告する。

ニュース 06/25 06:18 WD

GoogleがA24に出資、インディー映画界に激震

GoogleのDeepMindがA24に7500万ドルを投資したことで、インディー映画の独立精神が失われるとファンや業界関係者の間で強い反発が巻き起こっている。AI企業によるハリウッドへの浸透が加速する中、芸術の純粋性と技術の侵食をめぐる議

ニュース 06/25 06:17 TC

メモリチップ不足の恩恵：米国企業の収益が4倍近くに急増

AI需要による高帯域幅メモリ（HBM）の構造的不足を背景に、米国の大手メモリチップ企業が2026年5月期の四半期決算で売上高414.5億ドル、純利益14倍超という驚異的な業績を発表した。一方で、市場の高い周期性や競合他社の増産など、先行きへ

ニュース 06/25 06:16 TC

GoogleのAI人材流出が加速、トップ研究者2名がAnthropicへ転職

GoogleのAI研究者Jonas AdlerとAlexander Pritzelがanthropicへ転職することが判明し、Noam ShazeerやJohn Jumperに続く人材流出が深刻化している。AI業界における人材争奪戦の激化を

ニュース 06/25 06:15 TC

AIリストラ潮流の中、エンジニア職が逆境でも最も強靭な理由

SignalFireの最新調査によると、AI関連事業を持つテック企業におけるエンジニアのリストラ比率はわずか7.2%にとどまり、マーケティングや人事・管理職と比べて大幅に低い。AI自動化の進展にもかかわらず、エンジニア需要は逆に増加傾向にあ

ニュース 06/25 06:10 NF

MicronとAnthropicがAIメモリ供給協議に署名、Hラウンド資金調達にも投資

Micron TechnologyはAnthropicと戦略的提携を結び、複数年にわたるメモリ供給協議、HBMおよびDRAM技術の共同研究開発、ならびにAnthropicのHラウンド資金調達への戦略的投資を含む包括的な協力関係を構築した。こ

ニュース 06/25 06:08 NF

OpenAI初のAIチップ「Jalapeño」発表——Broadcomと協力するも、テストは継続中

OpenAIとBroadcomは2026年6月24日、共同開発した初のAIチップ「Jalapeño」を発表した。これは両社が2025年10月に締結した協力関係における初の成果であり、大規模言語モデルの推論処理に特化した設計となっている。

ニュース 06/25 04:16 WD

中国のトップAI専門家も動揺？米中競争の「チェルノブイリの瞬間」

北京で開かれた中国トップAI専門家との対話から、米中両国のAI軍拡競争が安全研究を犠牲にしかねないという共通の危機感が浮かび上がった。専門家たちは「チェルノブイリの瞬間」を恐れながら、AGI開発における国際的な安全協力の必要性を訴えている。

レビュー

すべて見る →

レビュー 06/24

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に

レビュー 06/24

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した

レビュー 06/24

4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落

YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に5

WDCD コンプライアンス

#1 Qwen3 Max 92.5 #2 Gemini 3.1 Pro 87.5 #3 Grok 4 82.5 #4 DeepSeek V4 Pro 80 #5 文心一言 4.5 75 #6 Gemini 2.5 Pro 75 #7 豆包 Pro 72.5

守約ランキング全体を見る →

Research Lab

WDCD Run #196：平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合

4大モデル翻訳対決：第26週品質評価、claude-sonnet-4.6 が9点でトップ

今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6（平均スコア9/10）。

WDCD Run #185：11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ

Winzheng Dynamic Contextual Decay（WDCD）ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ

Research Labへ →

赢政 AI 評測 — AI モデル評価・ニュース・研究

最新ニュース

レビュー

WDCD コンプライアンス

Research Lab