Croissant 1.1 新機能：拡張可能でエージェント対応のML データセット標準

2026年2月13日 1,435 約7分 MLC

MLC Croissant 1.1 ML数据集元数据标准数据来源追踪 AI代理

MLCommonsはCroissant 1.1を正式リリースしました。これは、コミュニティ共同開発による機械学習データセットメタデータフォーマットの最新進化版です。Croissant 1.0は標準化された機械可読データセットメタデータ構造を確立しましたが、1.1版ではさらに機械操作可能な来歴追跡、ドメインオントロジーとリンクするための語彙相互運用性、自動ライセンス執行のための構造化使用ポリシー、および複雑な多次元データセットの拡張モデリングを導入しています。

これらの新機能はAI「エージェント時代」（agentic era）に特化して設計されており、機械操作可能な来歴追跡、拡張スキーマタイプ、ガバナンスタグを含み、データセットを自律システムが完全に解釈・再利用できるようにします。

機械操作可能な来歴追跡：完全なデータ血統

1.1版では、データセンターAIシステム向けのチェーン・オブ・カストディ（chain-of-custody）チェックと監査機能を新たに追加しました。W3C PROV-Oモデルを採用してデータセット、ファイル、または個々のレコードの来歴を記録し、ソースデータと処理ステップをリンクし、責任エージェント（人またはソフトウェア）に帰属させます。

図：Croissantが機械可読データ来歴追跡をキャプチャ

チェーン・オブ・カストディ手法は、システムと監査者に透明性を提供し、データセットがエンティティ、アクティビティ、エージェントを経た完全なパスを追跡し、起源と処理履歴を評価できます。メタデータに埋め込まれたこの詳細な監査証跡は、データ品質とコンプライアンスの検証を支援します。例えば、広く使用されているCommon Crawlデータセットは既にCroissant 1.1メタデータを採用しており、大規模な機械可読の来歴と処理セマンティクスの埋め込みを実証しています。

柔軟な語彙フレームワーク：相互運用性の向上

Croissant 1.1は柔軟な語彙フレームワークを導入し、複数のレベル（データセット、フィールド、またはデータタイプ）で外部語彙や識別子をリンクすることをサポートし、重複した再発明なしにドメインセマンティクスを再利用できます。例えば：

データセットレベル： WikidataやオントロジーID（病気やイベントなど）を参照してコンテンツを分類し、リポジトリ間の発見をサポートできます。
フィールドレベル： 列は制御語彙の用語（環境や表現型の概念など）を指し、意味を明確化したりソースを参照したりできます。
データレベル： フィールド値はセマンティッククラス（「位置」フィールドを地理概念にリンクするなど）で注釈できます。

これらの規約により、Croissantメタデータは既存の標準に直接統合できます。そのモジュラーで拡張可能な設計は、データが既にオントロジーに従っている場合、単純な参照で済むことを意味します。この相互運用性は、ポータビリティと互換性にとって重要です。

強化されたデータガバナンス：自動ライセンス執行

1.1版はデータガバナンスサポートを強化し、標準ポリシー語彙を使用して使用許可と制限をエンコードします。詳細な同意要件については、Data Use Ontology (DUO)を統合し、「General Research Use」や「Non-Commercial Use」などの許可使用カテゴリーをマークできます。これらのDUOタグは、同意制限を機械発見可能にします。

より詳細な制御のために、W3C ODRL (Open Digital Rights Language)ポリシーを埋め込んで使用ルールを表現できます。DUOコードやODRL用語の埋め込みにより、エージェントは提案された使用が許可されているかを自動的に検証できます。これらの機能により、Croissantは自動化ワークフローにおけるアクティブなデータガバナンス執行者となります。

複雑なデータセット記述の最適化

Croissant 1.1は複雑なMLデータセットの記述を改善しました。フィールドは多次元配列を表現でき、新しい属性はセマンティックタイプ、サンプル値、または検証ルールをサポートします。各データ行は明示的なセマンティック意味を持つことができ、例えば1つのフィールドが画像、別のフィールドが数値ラベルといった具合です。

これらの機能により、Croissant 1.1は現在のAIエコシステムにおけるMLデータセットメタデータ標準となります。schema.orgの広範なカバレッジと拡張可能な語彙を融合し、来歴、セマンティクス、ガバナンスを一体的にキャプチャする完全に機械操作可能なメタデータグラフを生成します。

AIシステムがオープンモデルと自律エージェントに移行する中、来歴とガバナンスを埋め込んだ自己記述的メタデータが重要になります。各データセットは監査証跡と使用ポリシーを自己完結的に持ち、信頼構築をサポートします。コミュニティの採用は堅調です：現在70万のデータセットがCroissantメタデータを持ち、主要なツールとフレームワーク（機械学習用のTensorFlowとPyTorch、データ公開プラットフォームのDataverseとCKAN）がネイティブにロードしています。Hugging Face、Kaggle、OpenMLなどの主要リポジトリはCroissantメタデータを埋め込んでいます。HumanSignalやCommonCrawlなどのデータ企業のサービス生成データセットコレクションでも、同様の来歴標準への関心が高まっています。

データセット作成者にはCroissant 1.1を採用し、データをより発見・使用しやすくすることを奨励します。各データセットに埋め込まれた豊富な相互運用可能なメタデータは、エージェントが来歴、プライバシー、ライセンスを完全に尊重しながら自律的にデータを発見・使用できるAIエコシステムの構築に貢献します。

Croissant 1.1 新機能：拡張可能でエージェント対応のML データセット標準

機械操作可能な来歴追跡：完全なデータ血統

柔軟な語彙フレームワーク：相互運用性の向上

強化されたデータガバナンス：自動ライセンス執行

複雑なデータセット記述の最適化

関連記事