DeepSeek-V4:初日で推論と強化学習をサポート
DeepSeek-V4はリリース初日に推論と強化学習のトレーニングをサポートし、SGLangとMilesが初のオープンソース技術スタックとしてこのモデルを支援しています。特に混合稀疏注意力アーキテクチャ、流形制約ハイパーコネクション(mHC
DeepSeek-V4はリリース初日に推論と強化学習のトレーニングをサポートし、SGLangとMilesが初のオープンソース技術スタックとしてこのモデルを支援しています。特に混合稀疏注意力アーキテクチャ、流形制約ハイパーコネクション(mHC
AIシステムの信頼性を高めることは、市場成長と社会保護において重要です。MLCommons AIリスクと信頼性ワーキンググループは、AI信頼性マップを作成し、これを基に信頼性の向上を目指しています。
AI業界は技術の進化とともに新しいリスク評価基準を必要としています。AILuminateは、持続可能な基準管理を目指し、Prompt Stewardship Systemによって基準の新鮮さを維持し、正確なリスク評価を続けています。
自己注意機構の計算およびメモリのコストが大規模言語モデル(LLMs)の拡張の主要なボトルネックとなっている中で、HiSparseは階層的なメモリシステムを用いてこの制約を克服し、スパースアテンションのスループットを向上させる。
MLCommonsは、個人用コンピュータのAI性能を評価するための最新バージョンであるMLPerf Client v1.6を発表しました。このバージョンでは、基準テストの体験を最適化し、重要なソフトウェアコンポーネントを更新し、利用性と性能
SGLangチームがNVIDIA GTC 2026に参加し、パネルディスカッション、Happy Hour、200人規模のMeetup、ハンズオントレーニングラボなど5つのイベントを3日間で開催。LLMエコシステムの中心で大きな成果を収めた。
MLCommons®が業界標準のMLPerf® Inference v6.0ベンチマークテスト結果を発表し、現在のAI展開の実際のシナリオをカバーする複数の重要なアップデートを導入しました。
YZ Indexの最新評価データによると、GPT-4oのコード実行(v5)バージョンが重大な性能危機に直面し、コード実行能力が78.0点から62.8点に急落した。7つの評価次元のうち6つで大幅な下落が見られ、総合スコアは81.1点から49.
SGLangがElastic EPを統合し、大規模MoEモデルの推論における部分故障耐性を実現。従来の2-3分のダウンタイムを10秒以下に短縮し、性能を損なうことなく信頼性を大幅に向上させた。
MLPerf Inference v6.0は、GPT-OSS 120Bベンチマークと、DeepSeek-R1の低遅延インタラクションシナリオ(初の標準化されたspeculative decoding)を導入し、オープンソースLLMベンチマー
YZ Indexの週次評価で、かつての王者GPT-4oが素材制約次元で10.3点暴落し最下位に転落。一方、ERNIE Bot 4.0は主要指標で唯一のプラス成長を達成した。
DoubaoProの最新YZ Index評価で安定性スコアが54.5から34.7へと19.8ポイント急落。同じ質問に対する回答の一貫性欠如が深刻な問題として浮上。
MilesはオープンソースのRL(強化学習)フレームワークで、AMD GPUのROCm環境での大規模な言語・マルチモーダルモデルの後学習を可能にします。
Grok 3の安定性スコアが54.2点から31.7点へと41.5%も暴落し、プログラミング能力が向上する一方で、実務判断力の欠如というAIモデルの致命的な弱点が露呈した。
「最強」を謳うAIモデルGPT-o3が1週間で可用性を100点から69点に急落させ、長文コンテキスト能力や安定性でも大幅な性能低下を示した。この崩壊は単一指標の過度な最適化がもたらしたシステム全体の失調を露呈している。
GPT-o3の安定性スコアが53点から28点に急落し、可用性も100点から69点に低下。これは単なる性能変動ではなく、アーキテクチャレベルの根本的な設計欠陥によるシステム崩壊である。
GPT-o3が長文コンテキスト評価テストで深刻なAPI制限エラーを起こし、スコアが62.3点から28.8点に暴落。OpenAIのインフラ不足が露呈した。
GPT-4oが「厳格ツール呼び出し」機能の導入により壊滅的なパフォーマンス低下を経験し、使用可能性スコアが100点から65点に暴落。過度に慎重な動作により実用性を失った。
Doubao Pro は今週の評価でプログラミングや知識作業などの面で大幅な向上を見せた一方、安定性スコアが54.5点から34.7点へと36.3%も急落するという異常な現象を示しました。この「進歩と退化の併存」現象の技術的要因を詳しく分析し
長文コンテキストテストでGPT-4oが5問全てレート制限エラーで失敗し、OpenAIが深刻なインフラ危機に直面していることが明らかになった。