WDCD実測:ロングコンテキストは金庫ではなく、より長い忘却の現場である
WDCD Run #105の実測データから、ロングコンテキスト能力を持つ大規模モデルが情報を保持できても、ユーザーからの圧力下で制約を実行し続けられないという構造的欠陥が明らかになった。59例の「1→1→0」減衰パターンは、記憶力と実行規律
WDCD Run #105の実測データから、ロングコンテキスト能力を持つ大規模モデルが情報を保持できても、ユーザーからの圧力下で制約を実行し続けられないという構造的欠陥が明らかになった。59例の「1→1→0」減衰パターンは、記憶力と実行規律
GPT-o3が長文コンテキスト評価テストで深刻なAPI制限エラーを起こし、スコアが62.3点から28.8点に暴落。OpenAIのインフラ不足が露呈した。
長文コンテキストテストでGPT-4oが5問全てレート制限エラーで失敗し、OpenAIが深刻なインフラ危機に直面していることが明らかになった。
Moonshot AIが新たに発表したKimi K1.5モデルは、128Kトークンの長文コンテキスト処理と優れた数学推論能力を備え、複数の数学ベンチマークテストでOpenAIのGPT-4を上回る成績を達成した。
中国のAIスタートアップMoonshot AIのチャットボットKimiが大幅アップグレードを実施し、超長文コンテキストウィンドウとマルチモーダル機能でネットを席巻。ユーザーからは「国産GPTキラー」との称賛が相次ぎ、中国語大規模言語モデル(
Googleが開発中とされるAIモデル「Gemini 2.0」の内部情報が漏洩し、業界で大きな話題となっている。新モデルはビデオ生成機能と超長文脈処理能力を備え、OpenAIのモデルを超える性能が期待されている。
Moonshot AIが発表したKimi k1.5モデルは、200万字の長文を処理可能な能力を持ち、GoogleのGemini 1.5 Proを大きく上回る性能を示しました。この技術革新は企業のAI活用を促進し、中国のAI競争力を示していま