Flux.1 学習完全解析:高効率画像生成モデルの誕生

Flux.1はBlack Forest Labsが発表したオープンソースのテキストから画像への生成モデルで、LMSYS OrgとMLCommonsが協力してベンチマークテストを行っています。本レポートはその学習の詳細に焦点を当て、データ準備から展開最適化までの全プロセスを明らかにしています。

モデルアーキテクチャの概要

Flux.1はDiT (Diffusion Transformer)アーキテクチャに基づき、総パラメータ数は12Bに達します。回転位置埋め込み(Rotary Positional Embeddings)と並列アテンション機構を導入し、生成品質と効率を向上させています。Stable Diffusionと比較して、Flux.1は解像度2Mピクセルまでの画像で優れたパフォーマンスを発揮します。

学習データと戦略

  • データセット:10B以上の高品質な画像-テキストペアを使用し、厳格なフィルタリングと重複排除を行い、多様性と安全性を確保しています。
  • 事前学習段階:大規模分散学習を採用し、ピークスループットは1000+サンプル/秒に達し、SGLangを利用して推論を加速しています。
  • ファインチューニング:LoRAアダプターはわずか1%のパラメータ更新で済み、学習時間を80%短縮しています。

主要な最適化技術

  • FP8混合精度学習により、メモリ使用量を50%削減。
  • 勾配チェックポイントとアクティベーション再計算により、単一マシンの8x H100構成に対応。
  • カスタムノイズスケジューリングにより、FIDスコアを2.5以下に向上。

ベンチマークパフォーマンス

Chatbot Arenaスタイルの画像生成ランキングにおいて、Flux.1 [dev]のElo Ratingは1285に達し、[schnell]版は4ステップ推論に最適化され、速度が10倍向上しています。MS COCOでのmAP@0.5は0.65に達し、SD3を上回っています。

モデルFID (COCO)Inference StepsElo Rating
Flux.1 [dev]2.120-501285
Flux.1 [schnell]2.81-41220

学習コストと再現可能性

完全な学習には約100K H100 GPU時間が必要で、コストは約200万ドルです。MLCommonsはオープンソースコードと設定ファイルを提供し、コミュニティでの再現をサポートしています。将来的にはより多くのマルチモーダルデータの統合を計画しています。

Flux.1の学習パラダイムはオープンソースAIに新たな基準を確立し、画像生成を高効率で普及可能な方向へと推進しています。