数学基准 に関するニュース

オリジナル

OpenAI o1モデルの数学能力論争:幻覚問題がAIベンチマークテストの有効性に挑戦

OpenAIのo1-previewモデルは数学・推論タスクで驚異的な性能を示したが、複雑な数学問題で頻繁に「幻覚」(誤った回答を自信満々に生成)を起こすことが判明し、AI専門家から真の能力を疑問視する声が上がっている。この事件はX上で百万を

OpenAI o1模型 AI推理 数学基准
424