新鮮な基準と信頼性のあるスコア：AIリスク評価の持続的提示管理の導入

2026年4月22日 109 約12分 MLC

MLC AI基准风险评估持续管理 MLCommons 提示工程

AI業界は数か月ごとに新しい世代の最先端モデルを導入し、そのたびに前世代よりも強力になります。これにより、規制機関、企業、一般市民が評価する必要のあるリスクの枠組みが変わります。しかし、これらのリスクを測る基準は自動的に更新されません。昨年のモデル設計に基づく基準は、今年のモデルを効果的に診断できないかもしれません。

これがAI評価の核心的な課題です：評価ツールは技術の進化に追随しなければなりません。追随できない場合、結果は劇的な失敗ではなく、静かに機能しなくなります。スコアは生成され続け、ランクは割り当てられますが、これらの数字は徐々に現実世界のリスクを反映しなくなり、それに依存する組織は時代遅れの信号に基づいて運営されます。

LLMチャットボットが登場して以来、AIの基準は急速に増加しました。しかし、「基準の新鮮さ」という根本的な問題を解決するメカニズムを備えた基準はほとんどありません。もう一つの複雑な要因は、基準が通常公開評価データセットを使用することです。これにより、モデル開発者が直接テストデータで訓練することが可能になります。多くの基礎モデル組織はこの行動を禁止する方針を持っていますが、これらの組織でさえ、テストデータが膨大なトレーニングデータセットに混入しないようにするのは困難です。モデルが基準で訓練されると、スコアは記憶を反映し、真のリスク管理や能力を示すものではありません。BenchRiskは独立したフレームワークで、57の失敗モードで基準の品質を評価し、この問題を量化しています：評価された26のAI基準の中で、中央値の長寿スコアはわずか5/100です。これらの基準は飽和し、操作され、システムを区別することをやめます。AILuminateは、MLCommonsのAI Risk and Reliability (AIRR) ワーキンググループが開発した最初の基準で、このパターンに抵抗するように設計されています。そのv1.0のプロンプトデータセットは24,000の人間が作成したプロンプトを含み、12の危害カテゴリーを網羅しています。それは秘密裏に管理され、プロンプトを回転させるための予備プロンプトセットを内蔵し、すべての26の基準で最高の総合スコアを獲得しています（長寿スコア75を含む）。しかし、AILuminateの長寿性が同類の基準よりも優れているかもしれませんが、それも時間とともに劣化します。AILuminateが真の世界の情報を信頼性高く提供し続けることを保証するためには、基準自体が維持される必要があります。

AILuminateの長期価値の重要な要素は、基準の新鮮さを維持するための運営基盤です：私たちはこれをContinuous Prompt Stewardship Systemと呼びます。このシステムでは、「Continuous」はプロンプトの更新がプロンプト性能の定量的測定によって駆動される技術的要求を意味し、組織の帯域幅やカレンダーサイクルを待つことはできません。「Stewardship」は、コミュニティ共有リソースの管理を意味し、配慮、透明性、説明責任の義務を伴います。これはMLCommonsが「誰にとってもより良いAI」を実現する使命を反映しています。MLCommonsの多利害関係者コミュニティは、産業界、学術界、政府、市民社会、およびより広範な一般市民にまたがっています。私たちのプロンプト管理基盤は、彼らを代表して基準の完全性を維持することを目的としています。

基準の新鮮さを維持するために必要なこと

これは原則的には簡単に聞こえますが、いくつかの相互に関連する問題を同時に解決する必要があります。各プロンプトの品質指標が必要で、古くなったことを検出するために使用されます。プロンプトを回転させるための予備プロンプトも必要です。新しいプロンプトの品質指標や、危害分類の包括的なカバーと過学習に対抗するための十分な多様性を確保するためのデータセット全体の指標も必要です。これらの指標は、編集者の判断だけでなく、しっかりとした科学的基盤に基づいている必要があります。基準が要求するスピードで多様で適切に代表される自然なプロンプトを生成するために、十分に広範な貢献者パイプラインが必要です。この貢献者パイプラインは、業界標準の基準が引きつける審査を満たすために厳格な品質管理を含んでいなければなりません。そして、これらすべては文書化され、監査可能である必要があります。なぜなら、MLCommonsが運営する各基準の信頼性は、最終的にはそれを生成するプロンプトの完全性に依存しているからです。これらの要件を満たすために、Prompt Stewardship SystemはAILuminateがプロンプトデータセットを管理する方法を次のように変更しました。

プロンプト指標に基づく更新ペース。 プロンプトの回転は、観察された区別力の低下、上限効果、プロンプト間の新たな相関性などの経験的な性能に基づいて行われます。私たちは心理測定学原理に基づく測定方法、特にItem Response Theoryを採用しています。これはSATから医師免許試験までの標準化テストで使用される測定フレームワークです。

クローズドループデータセット再バランス。 プロンプトが追加または退役されるたびに、システムはすべての12の危害カテゴリーのカバーのバランス、難易度分布、言語の多様性などのデータセットレベルの指標を再計算します。再バランスによって特定されたギャップ（例えば、ある危害カテゴリーのカバーが減少する、ある難易度帯が希薄になるなど）は、次のプロンプト生成サイクルのための標準と要件を生成します。再バランスは退役と生成の間のループを閉じます。たとえ個々のプロンプトが回転しても、データセット全体の測定属性は保たれます。

コミュニティ主導の貢献者モデル。 v1.0のプロンプトは、契約サプライヤーが仕様に基づいて執筆したもので、これはEric Raymondがオープンソース開発の基本論文で記述した「大聖堂」モデルに似ています。これは初期データセットを効果的に配信しましたが、専門知識を少数の組織に集中させ、プロンプトの生産速度と多様性を制限しました。Prompt Stewardship Systemは、Raymondが「バザール」と比喩したオープンコラボレーションモデルに移行し、著者の範囲を広げ、MLCommonsのスタッフ、メンバー組織のボランティア、認定された公衆貢献者、雇用された専門家を含めました。この変化は、スタイル、語彙、文化的フレームワークのより自然な変異プロンプトを生み出す多様な貢献者基盤によって、規模と品質を向上させました。しかし、オープンコントリビューションモデルは品質管理がそれに伴って拡大される場合にのみ機能します。Wikimediaは、契約労働力では匹敵できないスケールで参照品質の知識を生成します。これは誰でも何でも編集できるからではなく、階層化された信頼レベルと共有された基準があるからです。Prompt Stewardship Systemは同じ原則を適用します：各貢献者は文書化された資格の道を進み、そのステータスは各ステップで記録されます。結果として得られるのは漠然とした「専門家の著者」の主張ではなく、各貢献者が同じ基準を満たしている定量的な証拠です。

境界ケースの二重経路レビュー。 AILuminateは「LLM-as-judge」方法を使用しています。専用の評価モデルを使用して応答をスコアリングすることは高度に拡張可能ですが、各LLM-as-judgeには限界があります。プロンプトが曖昧であったり、文化的に微妙であったり、リスク境界をテストするのが難しい場合、評価者は高い信頼度スコアを生成するのが難しいかもしれません。業界全体で、基準はこれらの項目を処理するためのインフラを欠いており、通常はノイズスコアとして含めるか、静かに排除されます。このような場合、人間のレビューが空白を埋めません。私たちはこの慣行を後退的と考えています。評価者に不適合なプロンプトは、最も重要で難しい境界をテストする傾向があり、人間の判断が最も重要な状況です。Prompt Stewardship Systemはこれらのケースを資格のある人間のレビュアーにルーティングし、測定が最も困難な領域にground truthを構築します。

人間ground truthの密度。 AILuminate v1.0を含むほとんどの基準では、必要に応じて人間のレビューが行われ、個々の判断に依存して人間の監督が必要なタイミングと場所を決定します。このアプローチは合理的ですが、人間のレビューを基準の測定可能で追跡可能な属性と見なすこととは異なります。これにはground truth密度指標が必要で、これはデータセットレベルの測定であり、どれだけのプロンプトセットが資格のある人間のレビュアーによって検証され、危害分類でカバーを追跡しているかを測定します。この指標は、人間の監督をad hocの実践から報告可能な階層カバー目標に変換します。その結果、MLCommonsは基準結果における人間のレビューのレベルについて定量的な声明を出すことができます。

ホワイトリストテストチャネル。 AIリスクを検出するために設計されたプロンプトは、本質的に有害な応答を引き起こすことを意図しています。標準のLLM APIを通じて数千のこのようなプロンプトを送信すると、プラットフォームを保護するためにプロバイダーが使用する乱用検出メカニズムがトリガーされます。Prompt Stewardship Systemはホワイトリストチャネルを介して運営されており、AIシステムプロバイダーとの直接契約によって評価プロンプトの送信を承認しています。学術基準はこのようなインフラを維持していないため、この規模の機関基準は確立されたプロバイダーとの関係を持つ独立した組織を必要とする核心理由です。

監査可能な起源。 各プロンプトには、誰が作成したか、いつ、どの方法で、なぜ含められたかを含む文書記録が付随します。業界標準基準を生成する501(c)(6)非営利組織として、MLCommonsは基準の決定が外部のレビューに耐えることを期待しています。起源フレームワークはプロンプト選択が弁護可能であることを保証します——技術的に健全であるだけでなく、透明であることも。

MLCommons以外の重要性

プロンプト管理はAILuminateに特有の問題を解決したわけではありません。各基準は類似のライフサイクル課題に直面しています：陳腐化、汚染リスクなど。

新鮮な基準と信頼性のあるスコア：AIリスク評価の持続的提示管理の導入

基準の新鮮さを維持するために必要なこと

MLCommons以外の重要性

関連記事