OpenAIとBroadcomがJalapeñoチップを発表――推論コスト50%削減を目標とするも、トレーニングはNVIDIAに依存継続

2026年6月27日 22 約5分 News Factory

AI芯片 OpenAI Broadcom 推理优化 NVIDIA依赖

OpenAIとBroadcomは、大規模言語モデルの推論に特化して最適化された初のカスタムASICチップ「Jalapeño」を共同発表した。同チップはOpenAI自身のAIアシスタントを活用し、わずか9か月で設計からテープアウトまでを完了。1回の応答コストを約50%削減し、NVIDIAへの依存を低減することを目標としている。2026年末の展開開始、2027〜2028年の量産を計画している。

チップの設計・製造プロセス

JalapeñoはカスタムASICアーキテクチャを採用し、Transformerモデルのアテンション機構とフィードフォワードネットワークに対してハードウェアレベルの最適化を施している。行列乗算演算ユニットと専用メモリコントローラーを統合することで、データ転送の遅延を低減する。OpenAIは設計段階において社内AIツールを活用してRTLコードの一部を自動生成し、従来9〜12か月を要していた検証サイクルを9か月に短縮した。

テープアウト工程はBroadcomが担当し、消費電力と性能のバランスをとるために先進プロセスノードを採用している。テストデータによると、単一チップは典型的な推論負荷において、汎用GPUと比較して1ワットあたりの性能が約1.8倍向上している。

推論効率向上の仕組み

大規模言語モデルの推論の核心は、行列演算の反復実行にある。Jalapeñoはハードウェアレベルで一般的な演算子（マルチヘッドアテンションにおけるQKV投影など）を固定化することで、ソフトウェア層のスケジューリングオーバーヘッドを排除している。またモデル量化技術と組み合わせ、浮動小数点演算を8ビット整数演算に置き換えることで、消費電力をさらに低減している。

1回の応答コスト50%削減という目標は、社内ベンチマークテストに基づいている。同一モデルにおけるJalapeño上でのトークンあたりの遅延は12ミリ秒から6ミリ秒に短縮され、電気代とサーバー減価償却を加味した上で目標値を達成している。

NVIDIAエコシステムとの差異

トレーニング段階は引き続きNVIDIAのGPUクラスターに完全依存している。Jalapeñoは推論パスのみをカバーしており、逆伝播に必要な勾配計算を実行することができない。これはOpenAIがデュアルトラックのハードウェア体制を維持する必要があることを意味する。すなわち、トレーニングにはH100/H200クラスターを使用し、推論は段階的に自社開発ASICへ移行していく形となる。

2026年末には初回ロットのJalapeñoサーバーがOpenAI自社データセンターに展開され、初期規模は数千チップに抑えられる。2027年からBroadcomが量産を開始し、2028年には出荷数が10万チップを超える見込みである。

業界サプライチェーンへの影響

カスタムASICが推論市場に参入することで、NVIDIAの推論分野におけるシェアは現在の約85%から70%程度に段階的に低下する可能性がある。Broadcomはこれにより安定した受注を獲得し、AIアクセラレーターの受託製造分野における地位を強固なものとする。

他のクラウドサービス事業者もすでに類似ソリューションの評価を開始している。AmazonとGoogleはすでにInferentiaとTPUをそれぞれ投入している。

今後の展開ロードマップ

2026年Q4：社内小規模検証クラスターの稼働開始
2027年：外部向けAPIのトラフィックの一部をJalapeñoへ切り替え
2028年：新モデルの推論はデフォルトでASICを使用、GPUは高精度トレーニングタスクのみに限定

コスト削減はAPI価格に直接反映される。OpenAIは2027年にGPTシリーズの推論価格を30%引き下げ、ユーザー規模の拡大を図る計画だ。

技術的リスクと制限

ASICは機能が固定されるため、モデルアーキテクチャのアップグレードには再テープアウトが必要となる。現在の設計は既存のTransformerに特化しており、将来まったく新しいアテンション機構のバリアントが登場した場合、ハードウェアの互換性がボトルネックとなる恐れがある。OpenAIは10〜15%のGPU容量をホットスタンバイとして確保すると述べている。

消費電力の壁は長期的な課題として残る。単一チップのピーク消費電力は300ワット以内に抑えられているものの、大規模クラスターでは液冷システムの再設計が依然として必要となる。