Intel Xeon 6 6900PとGaudi 3が正式発表

インテルは2024年9月25日にXeon 6プロセッサのP-Core版の最大TDP500W製品とAIアクセラレーターGaudi 3を正式発表しました。

  • 当日展示されていたGaudi 3とそれを搭載するSupermicroのサーバー

  • Gaudi 3のメザニンカード。システム構成上は8192枚までスケールアップ可能

  • パットゲルシンガー氏のサイン入り筐体

  • なぜかXeon 6の展示無し。という事で、9月3/4日に開催されたIntel Connection Tokyo 2024の展示会場での写真。正式発表前なので詳細なSKU名は書かれていません

今回は技術系発表会という事で、技術本部の3名とゲストスピーカー2名が登壇。冒頭、本部長の町田氏が「2024年は35兆円規模の世界企業のAI支出と予測されているが、これが2028年には90兆円規模と国家予算並みに膨れ上がると予測されている」と市場の大きさをアピール(注:24年度の日本の国家予算は112兆円)。

  • インテル株式会社 執行役員 技術本部本部長の町田奈穂氏

  • 企業のAI関連支出なのでAI予算という観点ではこれに国家・学術機関も加わると思いますが、今アツイのはAIだという事でインテルもAIシフト

その上でAIインフラを構築するためには数々の課題が存在しており、インテルはTCOの優位性や優れた電力効率、企業のユースケースを広げるオープンエコシステムを重点戦略分野にしていると説明しました。

  • インテルの重点施策

そこで今回正式に発表するのが、Gaudi 3 AIアクセラレーターとXeon 6プロセッサー(P-Core)です。すでにXeon 6プロセッサーは発表済ですが、これは従来のパワフルなプロセッサであるP-Coreではなく、ECやマイクロサービスで多くのコアが必要とされる処理向けのE-Core版です。

従来のXeonプロセッサの正統進化版となるP-Core版が登場したことで、エンタープライズやHPC向けのサーバーの新CPUが登場したと言えるでしょう。P-Core版は最大128コアに対応し、より高速なMRDIMMもサーバー向けでは初採用となる製品となります。

  • データセンター向けのCPUとしてXeon 6もP/E-Core共に揃い、AIアクセラレーターも新型を投入

  • ということでGaudi 3が正式発表。これまでに何度も説明があったので「ようやく正式発表?」という気もします

  • P-CoreのXeon 6もお披露目となりましたが、残念ながら会場に製品無しでした

一方、Gaudi 3はコスパに優れているだけでなく、拡張性もあり、vLLMやRAGにも対応していると紹介して、小林氏にバトンタッチ。

一般企業向けの作業に向くPCIe版も!

Gaudi 3の詳細に関しては小林氏が紹介。大規模なLLMに注目が集まっていますが、すべての企業がLLMをイチから作ることはなく、(業務利用で必要な)特定タスク領域に特化した比較的小さなモデルや再学習を効率的に運用する事が重要であると指摘。

  • インテル株式会社 技術本部 技術部長の渡邉恭助氏

  • Gaudiが多く狙うのは幅広い企業で使うため、LLMを一から作るのではなく、ファインチューニングや特定領域に特化したもの

Gaudi 3は、従来から提供されているメザニンカードとそれを8枚束ねたベースボードに加え、PCIe形状のカードも投入しました。同一チップを使用しているためにピーク性能は変わらないものの、ピークパワーは600Wに抑えられており、10.5インチの長さで通常のフルハイトケースに収まるのが特徴となっています。サーバー内に4枚のカードをトップボードで結合することで協調動作できるだけでなく、通常のGaudi 3同様、イーサネット経由で外部のカードとの協調動作も可能です。

通常のベースボードのGaudi 3はスパインスイッチ、リーフスイッチを使用することで最大8,192台の運用が可能ですが、専用の製品が必要となります。汎用サーバー1台で4枚のPCIeボードを利用し、必要ならばさらにサーバーを追加するというのは、多くの企業でAIアクセラレーターカードを保有・利用するにあたってちょうど良い構成なのかもしれません。

  • Gaudi 3は2までと異なり、PCIe版が投入されるのは大規模以外の利用を想定しているためでしょう

  • PCIe版もチップは同じでピーク性能も同じですが、最大電力が若干下げられています

  • トップボードを介して筐体内最大4台のPCIeカードが協調動作。必要なら外部ネットワークを使用してさらに増やすことが可能なアーキテクチャです

コスパに関しては従来同様、ライバルH100に対してLLama-3-8Bの計算において1.09倍のスループットとドル当たりのスループットが1.8倍、LLama-2-70Bの場合はそれぞれ1.19倍、2倍とお財布にやさしいことをアピールしていました。

パフォーマンスに優れているポイントとして、開発環境もアピール。Gaudi 3では巨大な行列を分割せずに演算できる256×256の行列乗算エンジン「MME」とベクトル演算プロセッサー「TPC」がありますが、この2つを効率的に動作させるためグラフコンパイラがキャッシュサイズに見合う程度に演算を分割(スライス)。これによってデータのやり取りをキャッシュサイズ内に収め、より高速に並列作業を可能にしていると、ソフトウェア最適化の説明をしました。

  • インテルのソフトウェア最適化技術で、MME/TPCの高度な並列化を実現。やり取りのデータサイズをキャッシュ内にすることで外部メモリとやり取りを減らします

  • Hugging Faceで提供されている多くのモデルが簡単にGaudi 3で実行可能

Gaudi 3製品は日本の場合Dell、HPに加え、Gaudiの最初の世代から製品を提供しているSuperMicroから行われます。会場にはSuperMicroのGaudi 3サーバーも展示。すぐにGaudiを使ってみたいという人にTiberデベロッパークラウドを紹介。

現在はGaudi 2までしか利用できせんが、Gaudiでも手元のソフトが利用できるかどうかの検証が可能ですし、今年Q4からGaudi 3も提供されるとの事。日本の顧客に対してはインテルデータセントリックCoEを東京オフィスに設置しており、現在はGaudi 2の8枚構成が利用可能だといいます。

  • PoCなどで試す場合はTiberデベロッパークラウドで利用可能で、Gaudi 3は来年提供予定

  • インテル東京オフィスにも評価環境を用意

Gaudi 3に対する利用例やエンドースメントもあり、会場にはエフサステクノロジーの坂井氏と日本アイ・ビー・エムの佐藤氏をゲストに迎えていました。エフサスの坂井氏は「用途に応じたサーバーの提供からAI基盤の構築、運用の支援までを行うトータルプロバイダーとしてGaudiの提供を行う」とコメント。

  • エフサステクノロジーズ株式会社 取締役常務の坂井賢一氏

  • インテルとのかかわりは1980年代のFMV時代から。サーバー製品では2000年以降と長い付き合いとなっています

日本アイ・ビー・エムの佐藤氏は、「Gaudi 3を世界で最初に広く採用するグローバルクラウドプロバイダーの中で、東京リージョンは今年10周年を迎えるとコメント。今後のAI活用にはよりコスパの優れているもの、ビジネスニーズにフィットしたモデルを使いたいというニーズがあり、Gaudi 3はその解決策の1つになる」とコメントしていました。

  • 日本アイ・ビー・エム株式会社 理事 テクノロジー事業本部 クラウド・プラットフォーム事業部長の佐藤隆子氏

  • 世界にデータセンターを持つクラウドプロバイダーとして初のGaudi 3採用。東京リージョンでも利用できるのかが気になります

  • Gaudi利用企業も増えてきました

P-CoreのXeon 6は未出荷のAMD EPYC Turinよりも高速?!

引き続き渡邊氏がXeon 6 6900Pについての説明を行いました。企業向けのサーバー用プロセッサであるXeonシリーズは高い性能を持っていた一方、ライバルに対してコア数が少ないという問題を抱えていました。

  • インテル株式会社 技術本部 シニア・アプリケーション・エンジニアの小林弘樹氏

これに対してのインテルの回答は「従来通り、高性能なコア(Pコア)に加えて性能は低くなるが、コア数が増やせる高効率コア(Eコア)の2本立て」となります。すでにXeon 6700Eシリーズで後者の製品が登場していましたが、今回は高性能コアバージョンの上位製品となるXeon 6 6900Pシリーズを発表しました。今回発表されたXeon 6 6900Pは72~128コアを搭載します。

Xeon 6はP / Eコア共に同一プラットフォームなので、ニーズに応じた2系統の製品を出荷することができます。

さらにXeon 6 6700シリーズとXeon 6 6900シリーズでは最大TDPが異なり、用途に応じた製品が提供しやすくなるというのもメリットとなります。Xeon 6 6900Pは最大TDP 500W/ソケットを想定しており、最大64基のRedwood Coveコアを搭載。最大503MBのL3キャッシュと第四世代Xeonから採用している新命令AMX(Advanced Matrix eXtensions)によって効率よくAI/ディープラーニング関連の演算が行えます。

足回りに関しても6つのUPI2.0、最大96レーンのPCIe 5.0/CXL 2.0をサポート。メモリも最大6400MT/sのDDR5または最大8800MT/sのMRDIMMを12チャネル対応。MRDIMMはサーバー用プロセッサでは初利用となりますが、高いバンド幅でシステムの性能を引き上げます。

  • Xeon 6 6900Pの特徴。Pコアでも最大128コアでメモリ、I/Oも強化されています

結果としてAI推論では最大5.5倍、HPC演算で最大2.1倍の性能をライバル製品に対して出せると紹介していました。今回は出荷していないライバル製品に関しても言及しているのがポイントでして、ライバルが発表している速度はソフトウェア最適化を行っていないので、それを行うと当社の方が速いとアピール。

前提が正しいかどうか微妙な気がしますが、インテルのソフトウェア最適化に関しては定評あるところです。また、HPCワークロードもメモリ性能に敏感なワークロードはMRDIMMを使うと高速になるともアピールしていました。

  • 現在出荷中の競合製品と比較してAI性能では最大5.5倍高速。第五世代XeonSPと比較しても当然高速です

  • ライバルの次世代製品も「当社のCPU最適化を行っていない」と最適化後の結果を提示。インテルのソフトウェア最適化技術はかなりのレベルです

  • サーバー上での計算資源という意味ではHPCの数値も重要ですが、MRDIMMによってメモリセンシティブなワークロードでの性能向上も目立ちます

  • 電力性能もアップ……ただし、消費電力もアップしているのが痛しかゆし。500W/ソケット製品の1U製品はおそらく水冷のみになりそうです

Xeon 6は6700Eに加えて6900Pが発表され、来年Q1までにXeon 6 6700P/6500P/6300PというPコア製品の下位製品群とXeon 6 6900EというEコアの上位製品が登場する予定となっています。

  • Xeon 6もP/Eコア製品が出そろい、来年Q1までにラインナップを拡大する予定となっています

今回の発表会は先日のIntel Connection Tokyo 2024を踏まえてのものだったので、そこで大々的にGaudi 3のアピールと展示も行われていたことを思うと「正式発表とは?」という感もありましたが、Gaudi 3に対するさらなるエンドースメントや日本での採用事例、そしてXeon 6 6900Pシリーズの詳細なSKUも提示されていたのでその点で実りあるものだったと思います。