
デュアルリンク設計:AIサーバークラスターの生命線
1000枚のGPUクラスタにおけるシングルリンクアーキテクチャの致命的な欠陥 -
トレーニング中断コスト: 単一の Spine スイッチ障害により、企業に 1 時間あたり莫大な損失が発生します。
レイテンシに敏感な課題: AllReduce操作では勾配同期のレイテンシが必要
信頼性のボトルネック: 従来のツリートポロジーには、7つの潜在的な単一障害点リンクが存在する
血と涙から学んだ教訓:AI企業の実例
2024年第3四半期に、あるメーカーがデュアルリンクの導入に失敗し、次のような結果になりました。
スイッチポートの障害により72分間のトレーニング中断が発生
間接損失:モデルの納品遅延による契約上の違約金
デュアルリンク設計は、この問題点に対する中核的な解決策です。
2. デュアルリンクリーフスパインアーキテクチャのパノラマ分析
物理トポロジ図(光モジュールの展開を含む)
主要コンポーネントの説明:
スパインスイッチ:完全に相互接続されたバックボーン、800G OSFP光モジュールとECMPをサポートする必要があります
リーフスイッチ: 各スイッチは、単一点障害を回避するために、デュアル光モジュールを介して2つのスパインに接続されます。
サーバー接続: 200G アクティブ光ケーブル (AOC) を使用して Leaf に直接接続します。
III. デュアルリンクコア技術の原理
1. 同質リンク適応と異質リンク適応
デュアルリンクでは、「同種リンク」(InfiniBand HDR の両方など、同じタイプの 2 つのリンク)または「異種リンク」(低遅延通信用の InfiniBand 1 つと大容量データ転送用の Ethernet 1 つなど)を使用できます。
2. 動的リンクリソース割り当て
シームレスな切り替えメカニズム:「アクティブ/スタンバイ モード」または「負荷分散 + 動的調整」を使用します。
アクティブ/スタンバイ モード: 通常の状態では、プライマリ リンクがメイン トラフィックを伝送し、スタンバイ リンクはハートビート パケットのみを送信します。障害が発生した場合、スタンバイ リンクはマイクロ秒単位ですべてのトラフィックを引き継ぎ、データが失われないようにします。
負荷分散モード: 2 つのリンクが同時に動作し、障害発生後に残りのリンクが自動的にすべてのトラフィックを引き継ぎます (輻輳を回避するために、プロトコル層でトラフィックの再配分をサポートする必要があります)。
FIBERTOP光モジュールソース工場直送 | 72時間以内に出荷 | スマートコンピューティングセンターソリューション | カスタマイズ可能