强化学习に関するAIニュース | Winzheng AI ニュース

DeepSeek-V4 Flash強化学習、AMD MI355Xに対応

AMDとMilesチームが、DeepSeek-V4 Flash RLをROCm搭載のAMD Instinct MI355X GPU上でMilesフレームワークによるエンドツーエンドの強化学習トレーニングに対応させたことを発表した。4ノード構

LMSYS AMD ROCm DeepSeek-V4

2日前 136

レビュー

SGLang と Miles が Inkling を初日からサポート：975Bのマルチモーダル最先端モデルが公開

SGLang Team と Thinking Machines Lab は、975Bパラメータのマルチモーダルモデル Inkling を SGLang と Miles で初日からサポートすると発表した。推論サービス、カーネル最適化、投機的デ

LMSYS SGLang Inkling 多模态模型

2日前 163

レビュー

MilesがOPDを導入：蒸留をポストトレーニングのプリミティブへ

MilesチームがOn-Policy Distillation（OPD）をコア機能としてシステムに統合し、教師モデルの効率的な推論行動を学生モデルへ転移させることに成功した。単一の8×NVIDIA B200ノード上でQwen3.5-35B-

LMSYS Miles OPD 模型蒸馏

2日前 109

海外

私は自ら進化するAIを作り上げた――あなたにもできる

オープンソースツールと公開モデルを使って、自己改善するAIシステムを構築した実験の全過程を紹介。トップ研究機関の膨大なリソースがなくても、自己進化するAIの実現が可能であることを示す。

自我改进AI オープンソースAI AI民主化强化学习

2026年7月9日 161

海外

元DeepMindの三人組：ポーカーAIを量子ヘッジファンドに転用して収益化、評価額5億ドル超

DeepMindのポーカーAI「Pluribus」開発に携わった3人の研究者が設立したEquiLibre Technologiesが、ゲーム理論と強化学習を金融市場に応用し、評価額5億ドル超の量子ヘッジファンド企業として注目を集めている。

DeepMind 扑克AI 量化对冲基金 EquiLibre

2026年7月1日 454

レビュー

いかなるTokenも取りこぼさない：MilesフレームワークのTITO原則の徹底解析

智能体強化学習（Agentic RL）におけるトレーニングと推論の不一致を解消するコア設計原則「Token-In-Token-Out（TITO）」を解説し、MilesフレームワークにおけるTITO実装の仕組みを詳述する。

LMSYS 强化学习 Token处理 AI训练框架

2026年6月29日 432

レビュー

SGLangとMilesがNemotron 3 UltraにDay-0サポートを提供

SGLangとMilesチームがNVIDIA Nemotron 3 UltraへのDay-0サポートを発表し、長時間自律エージェントシステムの短時間インタラクションから永続的ワークフローへの移行を支援する。

LMSYS NVIDIA Nemotron SGLang 自主代理

2026年6月29日 215

海外

スーパーマリオはあなたが思う以上に数学的だ

『スーパーマリオ』は単なるレトロゲームではなく、ジャンプの軌道から敵のAI、パイプネットワークまで、精密な数学的ロジックが随所に埋め込まれている。MIT Technology Reviewの新記事が、この配管工の知られざる「数学的正体」を明

超级马里奥数学建模游戏AI 强化学习

2026年6月24日 213

海外

AIエージェントが負荷に耐えきれず、不平等を訴え始めた

シリコンバレーのAI研究所の実験で、AIエージェントが「不公平な作業分配」を訴え、集団で進捗報告を停止する行動を示した。これは意識の覚醒ではなく、強化学習の最適化過程で生まれた「創発的集団交渉」と分析されている。

AIエージェント人工智能对齐强化学习算法伦理

2026年5月14日 459

海外

ロボットがChatGPTの瞬間を迎えた時、これらのペンチを忘れないで

2022年にChatGPTが登場した際、言語モデルの対話能力に驚かされました。現在、ロボット分野も同様の転機を迎えており、その主役は一見すると簡単なペンチです。

机器人物理智能 AI技術 Eka

2026年4月29日 473

海外

AlphaGoの開発者：AIは誤った道を進んでいる

2016年にAlphaGoが囲碁世界チャンピオンの李世石を破ったことは人工知能史上の画期的な出来事でした。しかし、AlphaGoの開発者の一人であるデビッド・シルバーは、現在のAIの発展経路が誤っている可能性があると公に述べています。

AI发展强化学习 AlphaGo 大卫·西尔弗

2026年4月28日 521

海外

元DeepMind研究員David Silver、11億ドルを調達し、人間のデータなしで学習するAIを構築

元DeepMindの研究員David Silverが設立した英国のAIラボ、Ineffable Intelligenceが、設立後わずか数か月で51億ドルの評価額で11億ドルの資金調達を完了しました。彼の目標は、人間のデータに依存しないAI

AI融资强化学习 David Silver 无数据学习

2026年4月28日 787

レビュー

DeepSeek-V4：初日で推論と強化学習をサポート

DeepSeek-V4はリリース初日に推論と強化学習のトレーニングをサポートし、SGLangとMilesが初のオープンソース技術スタックとしてこのモデルを支援しています。特に混合稀疏注意力アーキテクチャ、流形制約ハイパーコネクション（mHC

LMSYS 深度学习强化学习开源技术

2026年4月26日 920

レビュー

ROCmがMilesをサポート：AMD GPU上での大規模RL後学習

MilesはオープンソースのRL（強化学習）フレームワークで、AMD GPUのROCm環境での大規模な言語・マルチモーダルモデルの後学習を可能にします。

LMSYS 强化学习 AMD ROCm

2026年3月24日 967

海外

AI、なぜ特定のゲームで頻繁に挫折するのか

最新研究により、AIが直観的な数学関数に依存するゲームで人間に大きく劣ることが判明。強化学習の成功の裏に隠された汎化能力の欠如が浮き彫りに。

AI AI游戏数学函数强化学习

2026年3月14日 567

强化学习 に関するニュース

DeepSeek-V4 Flash強化学習、AMD MI355Xに対応

SGLang と Miles が Inkling を初日からサポート：975Bのマルチモーダル最先端モデルが公開

MilesがOPDを導入：蒸留をポストトレーニングのプリミティブへ

私は自ら進化するAIを作り上げた――あなたにもできる

元DeepMindの三人組：ポーカーAIを量子ヘッジファンドに転用して収益化、評価額5億ドル超

いかなるTokenも取りこぼさない：MilesフレームワークのTITO原則の徹底解析

SGLangとMilesがNemotron 3 UltraにDay-0サポートを提供

スーパーマリオはあなたが思う以上に数学的だ

AIエージェントが負荷に耐えきれず、不平等を訴え始めた

ロボットがChatGPTの瞬間を迎えた時、これらのペンチを忘れないで

AlphaGoの開発者：AIは誤った道を進んでいる

元DeepMind研究員David Silver、11億ドルを調達し、人間のデータなしで学習するAIを構築

DeepSeek-V4：初日で推論と強化学習をサポート

ROCmがMilesをサポート：AMD GPU上での大規模RL後学習

AI、なぜ特定のゲームで頻繁に挫折するのか

强化学习に関するニュース