Flux.1はBlack Forest Labsが発表したオープンソースのテキストから画像への生成モデルで、LMSYS OrgとMLCommonsが協力してベンチマークテストを行っています。本レポートはその学習の詳細に焦点を当て、データ準備から展開最適化までの全プロセスを明らかにしています。
モデルアーキテクチャの概要
Flux.1はDiT (Diffusion Transformer)アーキテクチャに基づき、総パラメータ数は12Bに達します。回転位置埋め込み(Rotary Positional Embeddings)と並列アテンション機構を導入し、生成品質と効率を向上させています。Stable Diffusionと比較して、Flux.1は解像度2Mピクセルまでの画像で優れたパフォーマンスを発揮します。
学習データと戦略
- データセット:10B以上の高品質な画像-テキストペアを使用し、厳格なフィルタリングと重複排除を行い、多様性と安全性を確保しています。
- 事前学習段階:大規模分散学習を採用し、ピークスループットは1000+サンプル/秒に達し、SGLangを利用して推論を加速しています。
- ファインチューニング:LoRAアダプターはわずか1%のパラメータ更新で済み、学習時間を80%短縮しています。
主要な最適化技術
- FP8混合精度学習により、メモリ使用量を50%削減。
- 勾配チェックポイントとアクティベーション再計算により、単一マシンの8x H100構成に対応。
- カスタムノイズスケジューリングにより、FIDスコアを2.5以下に向上。
ベンチマークパフォーマンス
Chatbot Arenaスタイルの画像生成ランキングにおいて、Flux.1 [dev]のElo Ratingは1285に達し、[schnell]版は4ステップ推論に最適化され、速度が10倍向上しています。MS COCOでのmAP@0.5は0.65に達し、SD3を上回っています。
| モデル | FID (COCO) | Inference Steps | Elo Rating |
|---|---|---|---|
| Flux.1 [dev] | 2.1 | 20-50 | 1285 |
| Flux.1 [schnell] | 2.8 | 1-4 | 1220 |
学習コストと再現可能性
完全な学習には約100K H100 GPU時間が必要で、コストは約200万ドルです。MLCommonsはオープンソースコードと設定ファイルを提供し、コミュニティでの再現をサポートしています。将来的にはより多くのマルチモーダルデータの統合を計画しています。
Flux.1の学習パラダイムはオープンソースAIに新たな基準を確立し、画像生成を高効率で普及可能な方向へと推進しています。
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接