AIニュース — 業界レポートとグローバルカバレッジ

SGLang-JAXがTPU上でLing-2.6-1Tを最適化：単一Pallasカーネルでおよそ MoEのデータ移動を隠蔽

SGLang-JAXがTPU v7x上でLing-2.6-1Tの効率的なデプロイをサポートし、新たなFused MoE V2 Pallasカーネルによりscatter・expert FFN・gatherを融合してTPUの計算とデータ移動を同

LMSYS MoE 优化 TPU 推理 SGLang-JAX

2026年6月29日 158

レビュー

SGLangにおけるWaterfillとLPLBによるDeepEP MoE負荷分散の最適化

SGLangにおいて、MoEモデルのExpert Parallelism環境下でのトークンルーティング不均衡を解消するため、WaterfillとLPLBという2つのスケジューリング時負荷分散手法が導入された。2ノードHopper GPU上で

LMSYS MoE SGLang 负载均衡

2026年6月29日 219

レビュー

Doubao Pro のSmoke評価メインランキングが13.8点急落、コード実行が100点から75点に直落

Winzheng のYZ Index 2026年6月の実測において、Doubao Pro のメインランキングスコアが98.61点から84.77点へと13.8点下落した。主な原因はコード実行次元の25点急落であり、モデル能力の全体的な劣化では

豆包 Pro 主榜 Smoke测试代码执行

2026年6月29日 251

レビュー

Claude Opus 4.7がメインランキング満点100点で首位獲得、Doubao Proは13.8点急落で実行面の弱点が露呈

2026年6月29日のYZ Index Smokeライト評価にて、Claude Opus 4.7がメインランキング・実行・制約の全項目で満点100点を記録し首位に立った。一方、Doubao Proは実行スコア75点にとどまり、前日比13.8

Claude Opus 4.7 豆包 Pro 执行约束 Smoke 评测

2026年6月29日 158

レビュー

Claude 最大19.8ポイント増、WDCDの8モデル全線上昇・下落ゼロ

今回のWDCDサイクル（Run #196との比較）では、評価対象の全8モデルがプラス変動を記録し、下落はゼロ。Claude Opus 4.7が単体最大の19.8ポイント増で89.29点に跳ね上がり、トップ3入りを果たした。

WDCD 守约测试模型性能变化 Gemini 3.1 Pro

2026年6月28日 361

レビュー

WDCD横断評価：安全コンプライアンスが最大の弱点、11モデルの最高得点はわずか3.57点

WDCD守約テストにおいて、安全コンプライアンスシナリオは全モデルで平均得点が最も低く、最高得点はdeepseek-v4-proの3.57/4にとどまった。企業のモデル選定においては、このシナリオへの個別加重評価が推奨される。

WDCD 守约测试安全合规场景横评

2026年6月28日 281

レビュー

Grok 4はゼロ崩壊でGPT-o3の17%崩壊を圧倒——WDCDの3ラウンド衰減が真の堅牢性を露わに

WDCDテストにおいて、Grok 4はR3フェーズで誠実率1.83/2を維持しつつ崩壊ゼロを達成した一方、Claude Sonnet 4.6とGPT-o3はいずれも6回のR3完全崩壊（17.1%）を記録した。3ラウンドにわたる圧力テストが各

WDCD 守约测试三轮衰减 R3崩溃

2026年6月28日 563

レビュー

Gemini 3.1 Pro が93.57点でWDCD守約ランキング1位、ERNIE Bot 4.5は75.71点で最下位

Winzhengが実施したWDCD守約テストにおいて、Gemini 3.1 Proが93.57点で首位を獲得し、ERNIE Bot 4.5が75.71点で11モデル中最下位となった。R2干渉抵抗とR3加圧耐性が各モデルの最終順位を左右する主

WDCD 守约测试排行榜分析 Gemini 3.1 Pro

2026年6月28日 254

レビュー

Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下

YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインスコアが96.45点から70.52点へと25.9点急落した。主な原因はコード実行ディメンションが100.00点から50.00点へと半減したこ

Claude Sonnet 4.6 代码执行 Smoke评测单日波动

2026年6月28日 287

レビュー

Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

YZ IndexのSmoke評価において、Claude Opus 4.7のメインランキングスコアが97.12点から71.47点へと25.7ポイント急落した。コード実行次元のスコアが100点から50点へと半減したことが主な原因である。

Claude Opus 4.7 代码执行 Smoke评测主榜波动

2026年6月28日 242

レビュー

YZ Index Smokeウィークリーレポート：ERNIE Bot 4.5が37.2ポイント下落、複数モデルで28ポイント超の変動

Winzheng（赢政天下）のYZ Indexによる2026年6月23日〜28日のSmoke実測では、ERNIE Bot 4.5が98.74点から61.52点へと最大幅の下落を記録し、Doubao Proのみが上昇傾向を示した。

文心一言 4.5 Claude Sonnet 4.6 Smoke测试稳定性分析

2026年6月28日 180

レビュー

Doubao Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落

2026年6月28日のSmokeライト評価において、Doubao Proが実行満点100点を記録してトップに立つ一方、Claude Opus 4.7とSonnet 4.6は実行スコアが前日の100点から50点に急落し、総合スコアが大幅に下落

豆包 Pro Claude Opus 执行维度材料约束

2026年6月28日 244

レビュー

Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ

YZ Index 2026年6月27日のSmoke軽量評価において、Claude Opus 4.7が主榜97.12点で首位を獲得。コード実行100点を達成した一方、材料制約が93.6点にとどまり全体スコアを引き下げた。

Claude Opus 4.7 代码执行 Smoke轻量评测材料约束

2026年6月27日 253

レビュー

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に

Qwen3 Max 代码执行烟雾测试主榜波动

2026年6月24日 358

レビュー

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した

Claude Opus 4.7 代码执行 Smoke快测单日波动

2026年6月24日 391

レビュー

4モデルの実行スコアが50に急落、ERNIE Botはメインランキングで34.1点の大幅下落

YZ Index 2026年6月24日のSmoke軽量評価において、ERNIE Bot 4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコ

代码执行材料约束文心一言4.5 Claude Opus 4.7

2026年6月24日 456

レビュー

Qwen3 MaxのSmoke評価スコアが主榜で12点急落、誠実性評価がpassからfailへ転落

YZ IndexによるSmoke評価において、Qwen3 Maxの主榜スコアが85.96点から74.00点へと12点下落した。同時に誠実性評価がpassからfailへと転落したことが注目される。

Qwen3 Max 主榜 Smoke评测材料约束

2026年6月23日 398

レビュー

Qwen3 Max、メインランキングで12点急落し74点に——誠実性failが全体スコアを引き下げ

2026年6月23日のSmoke軽量評価において、Qwen3 Maxはメインランキング74点を記録し、誠実性評価のfailにより11モデル中唯一80点を下回る結果となった。Claude Opus 4.7、Gemini 3.1 Pro、Gro

Qwen3 Max 材料约束 Smoke轻量评测分数结构

2026年6月23日 362

レビュー

Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Gemini 2.5 Pro は YZ Index 2026年6月 Smoke 評価において、メインランキングのスコアが前日の99.28点から71.33点へと1日で28点下落した。コード実行ディメンションが100.00点から50.00点に急

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月22日 355

レビュー

Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇

YZ Indexの2026年6月における11モデルの実測で、Qwen3 MaxのSmokeテスト材料制約スコアが前日比26.7点減の68.80点に急落した一方、コード実行スコアは100点満点を記録した。総合メインランキングスコアは5.1点増

Qwen3 Max 材料约束 Smoke评测得分波动

2026年6月22日 318

AIレビュー

SGLang-JAXがTPU上でLing-2.6-1Tを最適化：単一Pallasカーネルでおよそ MoEのデータ移動を隠蔽

SGLangにおけるWaterfillとLPLBによるDeepEP MoE負荷分散の最適化

Doubao Pro のSmoke評価メインランキングが13.8点急落、コード実行が100点から75点に直落

Claude Opus 4.7がメインランキング満点100点で首位獲得、Doubao Proは13.8点急落で実行面の弱点が露呈

Claude 最大19.8ポイント増、WDCDの8モデル全線上昇・下落ゼロ

WDCD横断評価：安全コンプライアンスが最大の弱点、11モデルの最高得点はわずか3.57点

Grok 4はゼロ崩壊でGPT-o3の17%崩壊を圧倒——WDCDの3ラウンド衰減が真の堅牢性を露わに

Gemini 3.1 Pro が93.57点でWDCD守約ランキング1位、ERNIE Bot 4.5は75.71点で最下位

Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下

Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落

YZ Index Smokeウィークリーレポート：ERNIE Bot 4.5が37.2ポイント下落、複数モデルで28ポイント超の変動

Doubao Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落

Claude Opus 4.7が97.12点でトップ、コード実行満点も材料制約93.6点が全体を押し下げ

Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点

Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落

4モデルの実行スコアが50に急落、ERNIE Botはメインランキングで34.1点の大幅下落

Qwen3 MaxのSmoke評価スコアが主榜で12点急落、誠実性評価がpassからfailへ転落

Qwen3 Max、メインランキングで12点急落し74点に——誠実性failが全体スコアを引き下げ

Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇