Xe-LP/HP より大きな命令キャッシュを持つ Xe-HPG

Intel oneAPI の深層学習ライブラリ、oneAPI Deep Neural Network Library (oneDNN) に X^e-HP/HPG をサポートするコミットが取り込まれた。
そこには X^e-HP/HPG のアーキテクチャの一部を示す記述が含まれている。
X^e-HPG については Intel Architecture Day 2021 で詳細が語られたが、まだ正式リリースがまだということもありそれは一部で、語られていない部分はまだまだある。X^e-HPG アーキテクチャ を採用する最初の GPU/SoC DG2/Alchemist は 2021Q1 でのリリースが予定されている。
Intel Architecture Day 2021 個人的まとめ　―― 用語が整理された Xe GPU | Coelacanth’s Dream

src: gpu: backport xe_hp+ gpu support · oneapi-src/oneDNN@e6d288e

X^e-HPG-Core の L1命令キャッシュサイズ

X^e アーキテクチャ では複数の EU (Vector Engine, Matrix Engine) やロード/ストアユニットをまとめた X^e-Core ごとに L1命令キャッシュを持つ。
X^e-Core は、以前は Sub-Slice(s) と呼ばれており、Intel GPU 向けのオープンソースソフトウェア、ドライバーではそのまま Sub-Slice(s) を使っている。
Tiger/Rocket/Alder Lake 、DG1 が採用する X^e-LP アーキテクチャ では L1命令キャッシュのサイズは 48 KiB となっていた。
今回追加されたコードによれば、X^e-HP は同じ 48 KiB、そして X^e-HPG はその倍のサイズとなる 96 KiB を L1命令キャッシュに持つとしている。

L1命令キャッシュサイズは Sub-Slice あたりの EU数等に変化はあったものの、Gen9 アーキテクチャ から 48 KiB で通してきたためアーキテクチャの変更でも注目される点と言える。

 static size_t icache_size(ngen::HW arch) {
     switch (arch) {
         case gpu_gen9: return 48 * 1024;
         case gpu_xe_lp: return 48 * 1024;
         case gpu_xe_hp: return 48 * 1024;
         case gpu_xe_hpg: return 96 * 1024;
         default: return 0;
     }
 }

引用元:oneDNN/gen_convolution.cpp at c7e18067cc5353f5ccbd63129dd7eb64fa4275c4 · oneapi-src/oneDNN

自分は GPUアーキテクトでも無いため確かなことは言えないが、X^e-HPG で L1命令キャッシュを倍にした意図を個人的に考えていく。

まず、上記コードの各アーキテクチャにおける L1命令キャッシュサイズは、実行するカーネルのサイズと比較し、カーネルが L1命令キャッシュより大きかった場合にメッセージを出力する部分に使われている。
その点で考えると深層学習、推論処理においてより巨大なカーネルを実行する際の性能改善のため、L1命令キャッシュサイズを倍増させたとも考えられるが、ゲーミング向けの X^e-HPG で増やし、コンピューティング向けである X^e-HP は 48 KiB で据え置きというのは少し違和感を覚える。一応 X^e-HP の表記キャッシュサイズは今後変更される可能性もあるが。
ただ開発時期や製造プロセスが影響している可能性もある。

L1命令キャッシュの倍増がグラフィクス、ゲーミング性能にどう影響を与えるかを考えれば、Intel は Architecture Day 2021 でアップスケーリング技術 X^e SS (Super Sampling) を発表しており、画質向上のため複雑な処理を行う上で有効だと思われる。
それ以外にも、多数のシェーダーを処理するゲームにおいても効果的なのかもしれない。

X^e-HP と X^e-HPG の共通点

以前、X^e-HP では EU (Vector Engine) あたりのスレッド数が 1つ増えて 8スレッドとなり、また 4スレッドと設定することでスレッドあたりのレジスタファイルを 256エントリに増やす Large GRFモードをサポートすることが intel/intel-graphics-compiler への新たなコミットで明かされた。
Intel Xe-HP EU に追加されるパイプラインと増加するスレッド/レジスタファイル | Coelacanth’s Dream 今回 X^e-HPG も Large GRFモードをサポートすることが明かされた。

     // Assume 7 threads by default
     int32_t threads_per_eu[2] = {7, 7};
     switch (gpu_arch_) {
         case gpu::compute::gpu_arch_t::gen9:
         case gpu::compute::gpu_arch_t::xe_lp:
             threads_per_eu[0] = 7;
             threads_per_eu[1] = 7;
             break;
         case gpu::compute::gpu_arch_t::xe_hp:
         case gpu::compute::gpu_arch_t::xe_hpg:
             threads_per_eu[0] = 8; // 128 regs/thread
             threads_per_eu[1] = 4; // 256 regs/thread
             break;

引用元:oneDNN/device_info.cpp at e6d288ef1943f93a782a644e3aac8b2a500c9299 · oneapi-src/oneDNN

ここは X^e-HP/HPG で共通する部分となる。
だが X^e-HPG は 64-bit 精度のデータ型にはエミュレートで対応し¹、X^e-HP は FP64/Int64 を処理する専用パイプラインを持つとしている。
そのため EU部において一部共通するが、パイプライン構成についてはそれぞれのターゲットに向けて最適化された別物となる。

X^e GPU	X^e-LP	X^e-HPG	X^e-HP	X^e-HPC
Vector Engine	256-bit?	256-bit	?	512-bit
VE per SS (Sub-Slice)	16	16	?	8
L1I$ per SS	48 KB	96 KB	48 KB	?
Matrix Engine	N/A	1024-bit	?	4096-bit
Load/Store (SLM)	128B?	?	?	512B
L1D$/SLM per SS	128 KB	?	?	512 KB
Native FP64	N/A	N/A	Y	Y

参考リンク

oneDNN/emulation.hpp at c7e18067cc5353f5ccbd63129dd7eb64fa4275c4 · oneapi-src/oneDNN ↩︎