HiSparse:階層化メモリシステムによるスパースアテンションの加速
自己注意機構の計算およびメモリのコストが大規模言語モデル(LLMs)の拡張の主要なボトルネックとなっている中で、HiSparseは階層的なメモリシステムを用いてこの制約を克服し、スパースアテンションのスループットを向上させる。
自己注意機構の計算およびメモリのコストが大規模言語モデル(LLMs)の拡張の主要なボトルネックとなっている中で、HiSparseは階層的なメモリシステムを用いてこの制約を克服し、スパースアテンションのスループットを向上させる。
SGLangがDeepSeek-V3.2のDay 0サポートを実現し、Lightning Indexerによる細粒度疎注意メカニズム(DSA)により、長コンテキストシナリオでの訓練・推論効率が大幅に向上しました。