月曜日から木曜日まで愛媛の実家でリモートワークして昨日、帰京しました。 フルタイムで仕事をしているわけではないので、いろいろと用事を済ませました。 水曜日に老人ホームに入っている母を一時帰宅させて、ご近所の人たちが集まって10人でお茶をしたのが最大のイベントでした。
テラビットが求められるAIネットワーク
テラビットはギガビットの1000倍。 そんな速度が企業ネットワークで必要とされることはないが、AIの世界では違うようだ。
GPUの次は「DPU」、AIスパコンに欠かせない新チップの開発競争が激化
この記事の中に次のような記述がある。
"LLMのトレーニングを行うGPUサーバーには、大容量かつ高速な外部ストレージを、なるべく高速なネットワークによって接続する必要がある。
ルシノビッチ氏によれば、同社のAIスパコンを利用する「会社名が『O』で始まるAI会社」から求められた、GPUサーバーと外部ストレージを接続するネットワーク帯域は1.6テラビット/秒(Tbps)なのだという。Oで始まるAI会社とは、もちろん米OpenAI(オープンAI)のことだ。"
GPU間のデータ連携、GPUとストレージ間のデータ転送をいかに高速にするかでLLMの性能が左右される。DPUはGPUとストレージ間を高速に接続するのが目的だ。
これまでの企業ネットワークとはまったく違う領域に次元の異なるネットワークが作られている。 この記事の最後はこう締めくくられている。
"これまでハイパースケーラーと呼ばれるクラウド事業者やSNS事業者は、GPUに対抗するAIチップの自社開発でしのぎを削ってきた。その競争領域は、AIスパコンを支えるネットワーク領域にも広がっている。"
*ここに書いてあることで質問、ご意見などありましたらメールでお知らせください。