Flux.1 学習完全解析：高効率画像生成モデルの誕生

2026年2月10日 931 約3分 MLC

MLC Flux.1 模型训练图像生成 MLCommons DiT架构

Flux.1はBlack Forest Labsが発表したオープンソースのテキストから画像への生成モデルで、LMSYS OrgとMLCommonsが協力してベンチマークテストを行っています。本レポートはその学習の詳細に焦点を当て、データ準備から展開最適化までの全プロセスを明らかにしています。

モデルアーキテクチャの概要

Flux.1はDiT (Diffusion Transformer)アーキテクチャに基づき、総パラメータ数は12Bに達します。回転位置埋め込み（Rotary Positional Embeddings）と並列アテンション機構を導入し、生成品質と効率を向上させています。Stable Diffusionと比較して、Flux.1は解像度2Mピクセルまでの画像で優れたパフォーマンスを発揮します。

学習データと戦略

データセット：10B以上の高品質な画像-テキストペアを使用し、厳格なフィルタリングと重複排除を行い、多様性と安全性を確保しています。
事前学習段階：大規模分散学習を採用し、ピークスループットは1000+サンプル/秒に達し、SGLangを利用して推論を加速しています。
ファインチューニング：LoRAアダプターはわずか1%のパラメータ更新で済み、学習時間を80%短縮しています。

主要な最適化技術

FP8混合精度学習により、メモリ使用量を50%削減。
勾配チェックポイントとアクティベーション再計算により、単一マシンの8x H100構成に対応。
カスタムノイズスケジューリングにより、FIDスコアを2.5以下に向上。

ベンチマークパフォーマンス

Chatbot Arenaスタイルの画像生成ランキングにおいて、Flux.1 [dev]のElo Ratingは1285に達し、[schnell]版は4ステップ推論に最適化され、速度が10倍向上しています。MS COCOでのmAP@0.5は0.65に達し、SD3を上回っています。

モデル	FID (COCO)	Inference Steps	Elo Rating
Flux.1 [dev]	2.1	20-50	1285
Flux.1 [schnell]	2.8	1-4	1220

学習コストと再現可能性

完全な学習には約100K H100 GPU時間が必要で、コストは約200万ドルです。MLCommonsはオープンソースコードと設定ファイルを提供し、コミュニティでの再現をサポートしています。将来的にはより多くのマルチモーダルデータの統合を計画しています。

Flux.1の学習パラダイムはオープンソースAIに新たな基準を確立し、画像生成を高効率で普及可能な方向へと推進しています。