数学基准に関するニュース

OpenAI o1モデルの数学能力論争：幻覚問題がAIベンチマークテストの有効性に挑戦

OpenAIのo1-previewモデルは数学・推論タスクで驚異的な性能を示したが、複雑な数学問題で頻繁に「幻覚」（誤った回答を自信満々に生成）を起こすことが判明し、AI専門家から真の能力を疑問視する声が上がっている。この事件はX上で百万を

OpenAIが発表したo1-previewモデルは、ARC-AGIベンチマークで83%のスコアを達成し、革新的な「思考連鎖」メカニズムによりAIが人間のような段階的推論を模倣できることを実証した。