人工知能が興味深い消費者向けチャット体験から、経済における企業サービスを駆動する汎用技術へと移行するにつれ、顕著な信頼性の障壁に直面している。企業は、AIシステムがより大きな価値を発揮する役割に配置する前に、正確で安全かつ信頼できる応答を生成できることを信頼する必要がある。
広範な企業採用に必要な信頼を構築するために、業界は展開者の不確実性を低減するリスク管理基準を採用しなければならない。中小企業を含む企業が、AIエージェントに企業データへのアクセスを許可し、価格交渉を自律的に行わせることに安心感を持つまでは、現在業界が追求している自動化取引を実現することはできない。AIビジョンシステムは、石油パイプラインの損傷検査に使用されるために信頼されるには、どの程度の信頼性——99.9...%の後にいくつの9が必要か——を示す必要があるのか?医師の診断を支援するAI臨床支援ツールの展開にはどのような要件が必要か?1時間の停止で数百万の収益を失う製造ラインでは、展開基準はどうあるべきか?金融、医療、製造などの高リスク・高信頼アプリケーションでAIシステムを展開するには、今日よりもはるかに高い信頼性レベルが要求される。これはまた、この信頼性を確実に測定する必要があることも意味する。
最終的に、信頼性目標と手続き要件は、他のリスク管理が必要な業界と同様に、ISO/IEC 42001などの合意基準によって規定される。AIは確率的技術であるため、これらの目標を支える評価基準は極めて重要であり、信頼性とコンプライアンスを継続的かつ経験的に証明するために使用される。
AIの確率的性質により、他の技術とは根本的に異なる。例えば、土木技師は標準に準拠した橋梁設計に署名し、さまざまな天候下で車両を支えることができることをほぼ完全に確信できる。なぜなら、橋は100台目の車が通過しても変化しないからだ。しかし、LLMは毎回の対話で異なる結果を生成する。この確率的挙動は新技術に強力な適応性を与えるが、信頼できる測定と評価を極めて困難にする。
したがって、AI開発者はシステム設計時に同じ審査を行う必要がある——計画を精査し、目標に適合していることを確認する——同時に、多様な実世界条件下で継続的に測定し、信頼性目標への適合を経験的に証明しなければならない。AIは同じ入力を2回使用しても異なる出力を生成するように設計されているため、リスクが適切に緩和されているかを判断するために、異なる状況下でのモデルの入力と出力を経験的に測定する必要がある。
MLCommonsの役割
ここで我々が果たす役割がある。MLCommonsなどの技術標準組織は、AI分野においてISOなどの従来の標準機構に対する重要な補完的存在である。ISOなどの組織が策定する標準は、ビジネスニーズと社会的関心に基づいて、広範な方向性を設定し、目標と定性的要件を明確にする。ベンチマーク標準組織は、これらの目標を正確で実行可能な指標に変換する。この関係により、ISO標準の目標がモデル開発者と企業ユーザーが実際に適用できる実証データに基づいていることが保証される。
例えば、MLCommonsは42119シリーズ(AIテストと保証標準)などのISO作業に積極的に参加している。業界は国際的なコンセンサスに基づく広範なAI測定ガイドラインを必要としており、その後MLCommons AILuminateなどの具体的なベンチマークを通じて生成AI安全性と製品信頼性を実現する。これらの技術仕様は、AI革新の速度に合わせて迅速に進化し、標準目標と業界実践の間の「生きた」架け橋を提供する必要がある。
標準化評価が進歩を促進
最終的に、標準化された評価が進歩を推進し、公衆の信頼を構築する。新車評価プログラム(NCAP)などの歴史的前例は、厳格な安全性テストが業界全体を変革し、5つ星安全評価車両の市場シェアを取るに足らない水準から大型市場で86%以上に引き上げることができることを示している。AIに同様の技術的厳密さを適用し、AILuminateなどの進化するベンチマークを活用することで、業界はAIがより安全で信頼性の高いものになることを保証し、企業により高価値な市場を開放し、消費者により大きな価値をもたらすことができる。
取り組みへの参加
信頼できるAIの構築にはグローバルな協力が必要である。MLCommonsに参加し、今後10年のAI信頼性を定義する技術標準の形成に共に取り組もう。現在、AILuminateなどのベンチマークに125以上の加盟組織が貢献しており、AIをより安全で信頼性が高く、広く信頼されるものにすることに尽力するすべての組織に席が用意されている。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接