赢政 AI 評測 — AI モデル評価・ニュース・研究

レビュー 07/03 11:12
WDCD横断評価:ビジネスルールシナリオで最低1.55点、grok-4が安全コンプライアンスで3.86点トップ
WDCD v3.1の遵守テストにおいて、ビジネスルールシナリオが全シナリオ中で最も低い得点を記録し、grok-4が全シナリオで安定してトップを維持した。企業のモデル選定にあたっては、総合ランキングではなくシナリオ別のマッチングが重要であるこ
レビュー 07/03 11:12
R3誠実率わずか30.2%:11モデル・3ラウンドアンカー問題で44回の完全崩壊
YZ IndexのWDCD評価において、8問のv2アンカー問題に対する275回のサンプリングでR1平均確認率は0.99に達したが、R3誠実率はわずか30.2%にとどまり、44回の完全崩壊(0点)が発生した。本記事はラウンドが進むにつれてモデ
レビュー 07/03 11:11
Grok 4が91.20点でWDCD守約ランキング首位、Qwen3 Maxは57.48点で最下位——33.72点の差
WDCD守約ランキングにおいて、Grok 4が91.20点で首位を獲得し、Qwen3 Maxが57.48点で最下位となり、上位と下位の差は33.72点に達した。
ニュース 07/03 11:06 Winzheng Lab
WDCD Run #211:Grok 4が-13%のインストラクション劣化で首位、GPT-o3は-75%で崩壊
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #211では、11モデルを評価した結果、Grok 4が最高スコアかつ最小劣化率で首位を獲得。一方、GPT-o3はトップ3入りしながらも最大の
ニュース 07/03 06:20 X
AIインフラ株が大幅調整、市場はAIブームの持続可能性を再評価
AI関連インフラ株が歴史的高値から大幅下落し、「AIトレード弱気相場」という議論が広がる中、市場ではAI分野のハイプに対する再評価が進んでいる。
ニュース 07/03 06:20 X
NVIDIA Nemotronデュアルタワー拡散モデル発表、推論速度2.42倍向上しながら高忠実度を維持
NVIDIAはNemotron-Labs-TwoTower拡散言語モデルを正式発表し、30Bパラメータのモデルをデュアルタワーアーキテクチャに分割することで推論速度を2.42倍に向上させつつ、品質保持率98.7%を実現した。
ニュース 07/03 06:19 X
マイクロソフト、25億ドルのAI導入専門会社を設立——企業のモデルから実装への転換を推進
マイクロソフトがAI導入に特化した新会社の設立を正式発表し、25億ドルを投じて世界中の企業のAI技術の展開と統合を支援する。この動きは、AI競争が「アプリケーション主導」の新フェーズに入ったことを示すものとして注目されている。
ニュース 07/03 06:19 X
米国の輸出規制解除後、AnthropicがFableモデルを復活させClaude Sonnet 5を発表
米国政府が一部AI技術への輸出規制を解除したことを受け、AnthropicはFableおよびMythosモデルの公開アクセスを再開し、新世代モデルClaude Sonnet 5を正式にリリースした。この動きは世界のAIコミュニティで広く注目
ニュース 07/03 06:19 X
OpenAIが米政府への株式5%寄贈を検討:AIの巨人と政治権力の新たな駆け引き
OpenAIはトランプ政権と協議を進め、米国ソブリン・ウェルス・ファンドへ約5%の株式(評価額420〜430億ドル)を寄贈する計画を検討している。この動きはAI企業と政府の関係における新たな枠組みとして注目を集めている。
ニュース 07/03 06:14 NF
UFC会長Dana Whiteがプロモーション映像へのAI批判に反射:「黙って試合を見ろ、AIは未来だ」
2026年3月29日のUFCシアトル大会の中継で、AIが生成した映像を使ったプロモーション映像が話題となり、UFC会長Dana WhiteはSNSでの批判に対し「AIは未来だ、もう来ている」と真っ向から反論した。
ニュース 07/03 06:11 NF
Claude Sonnet 5リリース:1Mコンテキストウィンドウ搭載も、トークン消費量が最大1.35倍に増加
Anthropicが2026年7月1日にClaude Sonnet 5を正式リリース。100万トークンのコンテキストウィンドウを備えOpus 4.8に近い性能を持つ一方、新しいトークナイザーによりトークン数が最大1.35倍に膨張し、実際のコ
ニュース 07/03 06:09 NF
AnthropicがClaude Fable 5を再起動、サイバーセキュリティ制限を新たに追加——2026年7月2日に世界展開
Anthropicは2026年7月1日、Claude Fable 5が翌日に世界で再公開されると発表した。米国の輸出規制による停止を経て、同モデルにはサイバーセキュリティ関連タスクをブロックする分類器が追加され、Amazon・Microso