海外 AIベンチマークテストが失効、代替案は何が必要か? 従来のAIベンチマークテストは飽和状態に達し、データ汚染やタスクの孤立性などの問題により、AIの真の能力を評価できなくなっている。システムレベル、マルチモーダル、安全性・アライメントを重視した新たな評価基準への転換が急務である。 AI基准测试 人工智能评估 机器学习 技术基准 2026年3月31日 213