レビュー Claude 4.6バージョンがクラッシュ:23ポイント急落の背後にあるアルゴリズムのブラックホール Claude 4.6のプログラミング能力が38.3ポイント向上した一方で、安定性が54.2から31.2へと壊滅的に低下し、アルゴリズムレベルでのシステム崩壊が発生した。 Claude 稳定性测试 模型退化 算法缺陷 2026年3月22日 348
レビュー Grok 3の論理推論100点がゼロに:5文字がアルゴリズムの致命的欠陥を暴露 Grok 3の最新評価で、論理推論テストにおいて「ABCDE」という無意味な回答を出力し100点満点がゼロ点となる衝撃的な結果が判明。他の性能指標が向上する中、この致命的な失敗は現在の大規模言語モデルの根本的な限界を露呈した。 Grok 3 逻辑推理 模型评测 算法缺陷 2026年3月21日 228