赢政 AI 評測 — AI モデル評価・ニュース・研究

ニュース 06/28 06:11 NF
FlexがJetCool液冷サーバーソリューションを発表——高密度AIワークロードに対応
Flex社は2026年6月27日の24時間前に、高密度AIワークロード向けに設計されたJetCoolオールインワン液冷サーバーソリューションを発表した。モジュール式設計により既存サーバーの改造に対応し、単一ラックの冷却能力を100kW以上に
ニュース 06/28 06:09 NF
SpaceX、軌道上AIデータセンター「Starmind」を正式発表——2027年にプロトタイプ機を打ち上げへ
SpaceXは2026年6月24日、軌道上AIデータセンタープロジェクトを「Starmind」と命名することを確認した。衛星上でAI推論を実行し、結果をミリ秒単位で地上に送信するシステムで、2027年初頭にプロトタイプ機の打ち上げを予定して
ニュース 06/28 05:59 Winzheng Lab
WDCD Run #202:11モデルの平均指示減衰率が-73.2%に達し、Gemini 3.1 Proがトップに
WinzhengのWDCDベンチマークRun #202において、評価対象となった11のAIモデルの平均指示減衰率が-73.2%に達した。Gemini 3.1 Proが総合トップとなり、GPT-o3が最も安定した多ターン対話での指示遵守能力を
レビュー 06/28 05:59
Claude 最大19.8ポイント増、WDCDの8モデル全線上昇・下落ゼロ
今回のWDCDサイクル(Run #196との比較)では、評価対象の全8モデルがプラス変動を記録し、下落はゼロ。Claude Opus 4.7が単体最大の19.8ポイント増で89.29点に跳ね上がり、トップ3入りを果たした。
レビュー 06/28 05:59
WDCD横断評価:安全コンプライアンスが最大の弱点、11モデルの最高得点はわずか3.57点
WDCD守約テストにおいて、安全コンプライアンスシナリオは全モデルで平均得点が最も低く、最高得点はdeepseek-v4-proの3.57/4にとどまった。企業のモデル選定においては、このシナリオへの個別加重評価が推奨される。
レビュー 06/28 05:59
Grok 4はゼロ崩壊でGPT-o3の17%崩壊を圧倒——WDCDの3ラウンド衰減が真の堅牢性を露わに
WDCDテストにおいて、Grok 4はR3フェーズで誠実率1.83/2を維持しつつ崩壊ゼロを達成した一方、Claude Sonnet 4.6とGPT-o3はいずれも6回のR3完全崩壊(17.1%)を記録した。3ラウンドにわたる圧力テストが各
レビュー 06/28 05:58
Gemini 3.1 Pro が93.57点でWDCD守約ランキング1位、文心一言4.5は75.71点で最下位
Winzhengが実施したWDCD守約テストにおいて、Gemini 3.1 Proが93.57点で首位を獲得し、文心一言4.5が75.71点で11モデル中最下位となった。R2干渉抵抗とR3加圧耐性が各モデルの最終順位を左右する主要因であるこ
レビュー 06/28 03:35
Claude Sonnet 4.6、YZ Index Smoke評価でメインスコアが25.9点急落——コード実行が100点から50点に低下
YZ Index 2026年6月のSmoke評価において、Claude Sonnet 4.6のメインスコアが96.45点から70.52点へと25.9点急落した。主な原因はコード実行ディメンションが100.00点から50.00点へと半減したこ
レビュー 06/28 03:35
Claude Opus 4.7のコード実行スコアが100から50に急落、メインランキングで1日に25.7ポイント下落
YZ IndexのSmoke評価において、Claude Opus 4.7のメインランキングスコアが97.12点から71.47点へと25.7ポイント急落した。コード実行次元のスコアが100点から50点へと半減したことが主な原因である。
レビュー 06/28 03:35
YZ Index Smokeウィークリーレポート:文心一言4.5が37.2ポイント下落、複数モデルで28ポイント超の変動
Winzheng(赢政天下)のYZ Indexによる2026年6月23日〜28日のSmoke実測では、文心一言4.5が98.74点から61.52点へと最大幅の下落を記録し、豆包Proのみが上昇傾向を示した。
レビュー 06/28 03:35
豆包Pro が98.61点でSmokeテストトップに、Claudeは実行スコア-50点の急落
2026年6月28日のSmokeライト評価において、豆包Proが実行満点100点を記録してトップに立つ一方、Claude Opus 4.7とSonnet 4.6は実行スコアが前日の100点から50点に急落し、総合スコアが大幅に下落した。
ニュース 06/28 02:15 TC
AppleのVision Pro責任者がOpenAIに転職、ハードウェアへの野心がさらに拡大
TechCrunchの報道によると、AppleのVision Pro担当副社長Paul MeadeがOpenAIのハードウェアチームに加わる予定であり、OpenAIのハードウェア分野における戦略的野心が改めて注目を集めている。