間違いだらけのネットワーク作り(1341)2024/11/30
テラビットが求められるAIネットワーク(1341)

月曜日から木曜日まで愛媛の実家でリモートワークして昨日、帰京しました。 フルタイムで仕事をしているわけではないので、いろいろと用事を済ませました。 水曜日に老人ホームに入っている母を一時帰宅させて、ご近所の人たちが集まって10人でお茶をしたのが最大のイベントでした。

テラビットが求められるAIネットワーク

テラビットはギガビットの1000倍。 そんな速度が企業ネットワークで必要とされることはないが、AIの世界では違うようだ。
GPUの次は「DPU」、AIスパコンに欠かせない新チップの開発競争が激化

この記事の中に次のような記述がある。

"LLMのトレーニングを行うGPUサーバーには、大容量かつ高速な外部ストレージを、なるべく高速なネットワークによって接続する必要がある。
 ルシノビッチ氏によれば、同社のAIスパコンを利用する「会社名が『O』で始まるAI会社」から求められた、GPUサーバーと外部ストレージを接続するネットワーク帯域は1.6テラビット/秒(Tbps)なのだという。Oで始まるAI会社とは、もちろん米OpenAI(オープンAI)のことだ。"

 GPU間のデータ連携、GPUとストレージ間のデータ転送をいかに高速にするかでLLMの性能が左右される。DPUはGPUとストレージ間を高速に接続するのが目的だ。
これまでの企業ネットワークとはまったく違う領域に次元の異なるネットワークが作られている。 この記事の最後はこう締めくくられている。
"これまでハイパースケーラーと呼ばれるクラウド事業者やSNS事業者は、GPUに対抗するAIチップの自社開発でしのぎを削ってきた。その競争領域は、AIスパコンを支えるネットワーク領域にも広がっている。"

*ここに書いてあることで質問、ご意見などありましたらメールでお知らせください。 

 tuguhiro@mti.biglobe.ne.jp



ホームページへ