OpenAI o1モデルの数学能力論争:幻覚問題がAIベンチマークテストの有効性に挑戦
OpenAIのo1-previewモデルは数学・推論タスクで驚異的な性能を示したが、複雑な数学問題で頻繁に「幻覚」(誤った回答を自信満々に生成)を起こすことが判明し、AI専門家から真の能力を疑問視する声が上がっている。この事件はX上で百万を
OpenAIのo1-previewモデルは数学・推論タスクで驚異的な性能を示したが、複雑な数学問題で頻繁に「幻覚」(誤った回答を自信満々に生成)を起こすことが判明し、AI専門家から真の能力を疑問視する声が上がっている。この事件はX上で百万を
OpenAIが発表したo1-previewモデルは、ARC-AGIベンチマークで83%のスコアを達成し、革新的な「思考連鎖」メカニズムによりAIが人間のような段階的推論を模倣できることを実証した。