Intel Xeon 6 6900PとGaudi 3が正式発表
インテルは2024年9月25日にXeon 6プロセッサのP-Core版の最大TDP500W製品とAIアクセラレーターGaudi 3を正式発表しました。
今回は技術系発表会という事で、技術本部の3名とゲストスピーカー2名が登壇。冒頭、本部長の町田氏が「2024年は35兆円規模の世界企業のAI支出と予測されているが、これが2028年には90兆円規模と国家予算並みに膨れ上がると予測されている」と市場の大きさをアピール(注:24年度の日本の国家予算は112兆円)。
その上でAIインフラを構築するためには数々の課題が存在しており、インテルはTCOの優位性や優れた電力効率、企業のユースケースを広げるオープンエコシステムを重点戦略分野にしていると説明しました。
そこで今回正式に発表するのが、Gaudi 3 AIアクセラレーターとXeon 6プロセッサー(P-Core)です。すでにXeon 6プロセッサーは発表済ですが、これは従来のパワフルなプロセッサであるP-Coreではなく、ECやマイクロサービスで多くのコアが必要とされる処理向けのE-Core版です。
従来のXeonプロセッサの正統進化版となるP-Core版が登場したことで、エンタープライズやHPC向けのサーバーの新CPUが登場したと言えるでしょう。P-Core版は最大128コアに対応し、より高速なMRDIMMもサーバー向けでは初採用となる製品となります。
一方、Gaudi 3はコスパに優れているだけでなく、拡張性もあり、vLLMやRAGにも対応していると紹介して、小林氏にバトンタッチ。
一般企業向けの作業に向くPCIe版も!
Gaudi 3の詳細に関しては小林氏が紹介。大規模なLLMに注目が集まっていますが、すべての企業がLLMをイチから作ることはなく、(業務利用で必要な)特定タスク領域に特化した比較的小さなモデルや再学習を効率的に運用する事が重要であると指摘。
Gaudi 3は、従来から提供されているメザニンカードとそれを8枚束ねたベースボードに加え、PCIe形状のカードも投入しました。同一チップを使用しているためにピーク性能は変わらないものの、ピークパワーは600Wに抑えられており、10.5インチの長さで通常のフルハイトケースに収まるのが特徴となっています。サーバー内に4枚のカードをトップボードで結合することで協調動作できるだけでなく、通常のGaudi 3同様、イーサネット経由で外部のカードとの協調動作も可能です。
通常のベースボードのGaudi 3はスパインスイッチ、リーフスイッチを使用することで最大8,192台の運用が可能ですが、専用の製品が必要となります。汎用サーバー1台で4枚のPCIeボードを利用し、必要ならばさらにサーバーを追加するというのは、多くの企業でAIアクセラレーターカードを保有・利用するにあたってちょうど良い構成なのかもしれません。
コスパに関しては従来同様、ライバルH100に対してLLama-3-8Bの計算において1.09倍のスループットとドル当たりのスループットが1.8倍、LLama-2-70Bの場合はそれぞれ1.19倍、2倍とお財布にやさしいことをアピールしていました。
パフォーマンスに優れているポイントとして、開発環境もアピール。Gaudi 3では巨大な行列を分割せずに演算できる256×256の行列乗算エンジン「MME」とベクトル演算プロセッサー「TPC」がありますが、この2つを効率的に動作させるためグラフコンパイラがキャッシュサイズに見合う程度に演算を分割(スライス)。これによってデータのやり取りをキャッシュサイズ内に収め、より高速に並列作業を可能にしていると、ソフトウェア最適化の説明をしました。
Gaudi 3製品は日本の場合Dell、HPに加え、Gaudiの最初の世代から製品を提供しているSuperMicroから行われます。会場にはSuperMicroのGaudi 3サーバーも展示。すぐにGaudiを使ってみたいという人にTiberデベロッパークラウドを紹介。
現在はGaudi 2までしか利用できせんが、Gaudiでも手元のソフトが利用できるかどうかの検証が可能ですし、今年Q4からGaudi 3も提供されるとの事。日本の顧客に対してはインテルデータセントリックCoEを東京オフィスに設置しており、現在はGaudi 2の8枚構成が利用可能だといいます。
Gaudi 3に対する利用例やエンドースメントもあり、会場にはエフサステクノロジーの坂井氏と日本アイ・ビー・エムの佐藤氏をゲストに迎えていました。エフサスの坂井氏は「用途に応じたサーバーの提供からAI基盤の構築、運用の支援までを行うトータルプロバイダーとしてGaudiの提供を行う」とコメント。
日本アイ・ビー・エムの佐藤氏は、「Gaudi 3を世界で最初に広く採用するグローバルクラウドプロバイダーの中で、東京リージョンは今年10周年を迎えるとコメント。今後のAI活用にはよりコスパの優れているもの、ビジネスニーズにフィットしたモデルを使いたいというニーズがあり、Gaudi 3はその解決策の1つになる」とコメントしていました。
P-CoreのXeon 6は未出荷のAMD EPYC Turinよりも高速?!
引き続き渡邊氏がXeon 6 6900Pについての説明を行いました。企業向けのサーバー用プロセッサであるXeonシリーズは高い性能を持っていた一方、ライバルに対してコア数が少ないという問題を抱えていました。
これに対してのインテルの回答は「従来通り、高性能なコア(Pコア)に加えて性能は低くなるが、コア数が増やせる高効率コア(Eコア)の2本立て」となります。すでにXeon 6700Eシリーズで後者の製品が登場していましたが、今回は高性能コアバージョンの上位製品となるXeon 6 6900Pシリーズを発表しました。今回発表されたXeon 6 6900Pは72~128コアを搭載します。
Xeon 6はP / Eコア共に同一プラットフォームなので、ニーズに応じた2系統の製品を出荷することができます。
さらにXeon 6 6700シリーズとXeon 6 6900シリーズでは最大TDPが異なり、用途に応じた製品が提供しやすくなるというのもメリットとなります。Xeon 6 6900Pは最大TDP 500W/ソケットを想定しており、最大64基のRedwood Coveコアを搭載。最大503MBのL3キャッシュと第四世代Xeonから採用している新命令AMX(Advanced Matrix eXtensions)によって効率よくAI/ディープラーニング関連の演算が行えます。
足回りに関しても6つのUPI2.0、最大96レーンのPCIe 5.0/CXL 2.0をサポート。メモリも最大6400MT/sのDDR5または最大8800MT/sのMRDIMMを12チャネル対応。MRDIMMはサーバー用プロセッサでは初利用となりますが、高いバンド幅でシステムの性能を引き上げます。
結果としてAI推論では最大5.5倍、HPC演算で最大2.1倍の性能をライバル製品に対して出せると紹介していました。今回は出荷していないライバル製品に関しても言及しているのがポイントでして、ライバルが発表している速度はソフトウェア最適化を行っていないので、それを行うと当社の方が速いとアピール。
前提が正しいかどうか微妙な気がしますが、インテルのソフトウェア最適化に関しては定評あるところです。また、HPCワークロードもメモリ性能に敏感なワークロードはMRDIMMを使うと高速になるともアピールしていました。
Xeon 6は6700Eに加えて6900Pが発表され、来年Q1までにXeon 6 6700P/6500P/6300PというPコア製品の下位製品群とXeon 6 6900EというEコアの上位製品が登場する予定となっています。
今回の発表会は先日のIntel Connection Tokyo 2024を踏まえてのものだったので、そこで大々的にGaudi 3のアピールと展示も行われていたことを思うと「正式発表とは?」という感もありましたが、Gaudi 3に対するさらなるエンドースメントや日本での採用事例、そしてXeon 6 6900Pシリーズの詳細なSKUも提示されていたのでその点で実りあるものだったと思います。