Ryzen 4000 U/H-Series (Renoir) 考察

製品

4800UのBase Clockが1.8 GHzと他よりも低くなっているが、CPUが8-Core/16-Thread、GPUも4000 U/H-seriesでは最高性能でありながらTDP15Wなため仕方ない。
むしろPicassoの4C/8T、Base 2.3 GHzからコア数を倍にしても0.5 GHzの低下に抑えているあたりTSMC 7nm FinFetの恩恵を窺える。

4300Uは最も低いモデルとなり、Base ClockこそH-seriesに迫るほどだが、代わりに4C/4Tであり、L3キャッシュが4MBとのことからCCXを1つ丸々無効化しているはずだ。
近いBase ClockはPicasso 3000 seriesでは2C/4Tでないとないため、4300Uも7nmの恩恵を十分に受けているとも考えられる。
SMTを有効にした4C/8Tモデルがないのは、Picasso 3000 seriesの上位製品と競合しないようにするためかもしれない。（4000 seriesが出てもしばらくはPicassoを採用した新規製品が投入されるはず）

Ryzen 4000 U/H	4800U	4800H	4700U	4600U	4600H	4500U	4300U
CPU Core / Thread	8/16		8/8	6/12		6/6	4/4
CPU Base Clock (GHz)	1.8	2.9	2.0	?	3.0	2.3	2.7
CPU Boost Clock (GHz)	4.2		4.1	4.0		4.0	3.7
Total CPU L2$	4MB			3MB			2MB
Total CPU L3$	8MB						4MB
GPU Core	8	7		6			5
GPU Clock (MHz)	1750	1600		1500			1400
Default TDP	15W	45W	15W	15W	45W	15W	15W
cTDP	10 - 25W	35 - 54W	10 - 25W	10 - 25W	35 - 54W	10 - 25W	10 - 25W

構造

プロセス

他のAMD 7nm製品と同様にTSMC 7nm FinFetで製造されている。
AMDは、Cinebench R20の結果においてRyzen 7 4800UはRyzen 7 3700Uの2倍の電力効率を実現したとし、
内70%は7nmプロセスによるものと語る。

CPU

アーキテクチャはZen2ではあるが、特徴の１つであった大容量L3キャッシュはなくなり、コアあたり1MBとRaven/Picassoと同じ容量となった。
ただこれは、そもそもZen2 CCDでL3キャッシュをZen/+から倍に増やしたのは、チップレットデザインによるダイ間アクセスのレイテンシを隠蔽するためとAMDは語っており、1チップに収めたRenoirで大容量L3キャッシュは不要どころかコスト、消費電力的に邪魔になると判断したのだろう。

AMD Ryzen Threadripper 3970X review - The Threadripper Processor Series - Guru3D

Why the double L3 cache? Well, AMD needed to address the latencies for accessing working memory to cope with the chiplet design, whereby the memory controller is physically located in a different chip, ergo a doubled L3 cache.

GPU

最大8CUになり、それ以外のROPやL2キャッシュ等は不明。
アーキテクチャは引き続きVega（GFX9）となるが、細かいことを言うとGPU IDはRaven/Picassoのgfx902ではなく、Raven2と同じgfx909であり、gfx909ではgfx902にあったバグが修正されている。
クロックはPicassoの最大1400MHzから最大1800MHzまで上昇した。
性能に関しては後述。

I/O

メモリコントローラーがLPDDR4x-4266に対応、PCIeはGen3に留まること以外は不明。

完全に推測だが、RavenからI/Oに関しては増やしてないのではないかと思う。
微細化によってCPU/GPU部が小さくなっても、I/Oのアナログ部はほとんど前プロセスと同じとなる。
そのためI/Oを増やすとダイサイズをも増加させてしまい、かといって減らすと製品として見劣りしてしまう。
そういうことで増やしてないと考えた。

PCIeがGen3となったのは、やはりGen4の発熱、消費電力はモバイル向けには受け入れられづらく、またモバイル向けに使えるGen4対応機器がまだNVMe SSDくらいしかないからだろう。
モバイル向けに広帯域が求められるチップ/デバイスを接続することはあまりないし、あると分かっているならUSB (10Gbps)やIcelakeのTB3コントローラーのようにSoCの機能として内蔵してしまった方が消費電力が削減できる。

マルチメディア

それまでのVCN 1.0からNavi1xと同じVCN 2.0に置き換わり、
HEVC、VP9 4K90/8K24デコード、HEVC 4K60エンコードに対応する。
VP9デコードはVCN 1.0で対応していたが、最大解像度は4Kまでだった。
ディスプレイ部はDCN 2.1となり、Linux Kernelのドライバーを見ると最大出力数4、3x DSCとなっている。

その他

Infinity Fabricのクロックがメモリクロックに同期しないようにしたらしく、これによってアイドル時の消費電力が削減された。
関係あるかは分からないが、cTDPの下限が10Wと、Raven/Picassoの12Wより下げることが可能となっている。

性能

TDP15WでGPUが最高性能となるPicasso(Winston) Ryzen 7 3780Uと、Renoir Ryzen 7 4800Uを比較した表が以下。

Zen APU	3780U	4800U
CPU Core/Thread	4/8	8/16
CPU Base Clock (GHz)	2.3	1.8
CPU Boost Clock (GHz)	4.0	4.2

GPU CUs	11	8
GPU SPs	704	512
GPU TMUs	44	32
GPU ROPs	8	8 ?
GPU Clock (MHz)	1400	1750

Memory Type	DDR4	LPDDR4x
Memory Speed (MT/s)	3200	4266
Memory Bandwidth (GB/s)	51.2	68.3

FP16 (FLOPS)	3.94	3.58
FP32 (FLOPS)	1.97	1.79

Surface専用の3780Uではなく、3700Uとの比較だとメモリ帯域の差はさらに広まり（38.4 GB/s vs 68.3 GB/s）、FP32ピーク性能は4800Uと一致する。（10CU 1400MHz）

RenoirでGPUクロックが300-400MHz向上したが、CUを減らした分をギリギリ補えなるくらいで、フルスペックでの比較だとコンピュート性能は下がってしまっている。
が、統合GPUにおける最大のボトルネックはメモリ帯域であり、そこを伸ばすのが性能向上における効率が最も良い。
仮にカラー圧縮で帯域削減、L1キャッシュ増設をしたRDNAアーキテクチャをAPUに取り入れてボトルネックの軽減に役立てても、それは効率の悪い部類に入り、L1キャッシュといったSRAMはダイサイズを増加させ、コスト、消費電力をも増やす要因となるため、やはり効率が悪い。

（追記 2020/01/08T18:23）

とか書いたけどAMDのSenior Techical Marketing ManagerであるRobert Hallock氏によるとスケジュールの都合によるものらしい。

そしてRenoirは第二世代のRyzen Mobile、PicassoのCUより59%高速とのこと。
クロック向上とLPDDR4x-4266によるものだろうか。
https://twitter.com/Thracks/status/1215137876922396672

（追記終了）

vs Icelake (Gen11 GT2)

AMDは、Ryzen 7 4800U と Core i7 1065G7 の性能比較において、4800Uの方がシングルスレッド性能では4%、マルチスレッド性能では90%、グラフィック性能では18%上だと発表している。¹
Core i7 1065G7 を搭載したDell XPS 7390を用いており、メモリはLPDDR4x-3733だろう。
2つのTDP設定は不明。どちらもデフォルトで15W、cTDPで最大25Wであるから、そのどっちかではあるはずだ。

The new AMD Ryzen 7 4800U offers:
Up to 4% greater single-thread performance and up to 90% faster multithreaded performance than the competition⁸
Up to 18% faster graphics performance than the competition⁹

スペックでは、RenoirのクロックがGen11 GT2の x1.59でありながらグラフィック性能が x1.18に留まっている。
メモリ帯域は x1.14であり、概ねこれに沿っていると見られる。
やはりメモリ帯域が統合GPUの実行性能で支配的にあるのだろう。

vs Tigerlake (Gen12LP) ?

TigerlakeのGPU部、Gen12LPではEU/Shading UnitsがGen11 GT2から x1.5され、メモリもLPDDR5-6400を使用すればLPDDR4-3733から x1.71の帯域が手に入る。
Intel自身、CES2020のプレスカンファレンス後のニュースリリースにて、
CPU、AIアクセラレーター、X^eグラフィクスアーキテクチャーの最適化によってTigerlakeは二桁台の性能向上を実現すると発表している。²

With optimizations spanning the CPU,
AI accelerators and discrete-level integrated graphics based on the new Intel Xe graphics architecture,
Tiger Lake will deliver double-digit performance gains¹,
massive AI performance improvements,
a huge leap in graphics performance and 4x the throughput of USB 3 with the new integrated Thunderbolt 4.
Built on Intel’s 10nm+ process, the first Tiger Lake systems are expected to ship this year.

3つまとめてな上、二桁台と曖昧で怪しさ満点というか、まだ詳細隠しておきたい意図が見られるが、
マルチスレッド性能は無理としても、シングルスレッド性能とグラフィック性能ではRenoirを追い越せるのではないかと思う。
シングルスレッド性能はIcelakeとRenoirであまり差がないことから、クロック特性さえ改善されCPUクロックが0.3GHzほど向上すればいい、グラフィック性能はLPDDR5-6400だとLPDDR4X-4266の x1.5のメモリ帯域があることからそう考えた。

Icelake が Picasso を抜かし、 Renoir が Icelake を抜かし、Tigerlake が Renoirを抜かすCPU/iGPUのデッドヒート。

ただもっと怪しい部分があり、TigerlakeはIntelの10nm+ プロセスで製造されるとのことだが、その10nm+というのはIcelakeに使われているのと同じということだ。

Ice Lake Processor Family - Intel

The Ice Lake processor family is the next generation Intel® Core™ processor family. These processors utilize Intel’s industry-leading 10 nm+ process technology.

Tigerlakeの中身（特にCPU）がどうなってるのか、靄がかかり始める。
誤字である可能性が高いが、そもそもどれが10nmで、どれが10nm+なのかはっきり統一していないことにそもそもの問題がある気がする。

2020年中に製品が出るとのことだがどうなるか。
まあ気長に待つ他ない。

以前X^e、DG1の推測に使用した表に一部修正を加えたもの。

Integral GPU	Intel Gen11 GT2	Intel Gen12LP	AMD Picasso (3700U)	AMD Renoir (4800U)
GPU Clock	1.1 GHz	1.1 GHz~?	1.4 GHz	1.75 GHz
Shading Units	512	768	640	512
TMUs	32	24 ??	40	32
ROPs	16	16 ?	8	8 ?
GPU $	3MB	3MB?	1MB	1MB?

Memory Type	LPDDR4/x	LPDDR4x /LPDDR5	DDR4	LPDDR4/x
Memory Speed	3733 MT/s	~6400 MT/s?	2400 MT/s	4266 MT/s
Memory Bandwidth	59.7 GB/s	102.4 GB/s	38.4 GB/s	68.3 GB/s

Peak Texture Fill-Rate (GT/s)	35.2	26.4~?	56.0	56.0
Peak Pixel Fill-Rate (GP/s)	17.6	17.6~?	11.2	14.0
FP16 (TFLOPS)	2.2	3.4~?	3.58	3.58
FP32 (TFLOPS)	1.1	1.7~?	1.79	1.79

RV Family	Raven	Raven2	Picasso	Renoir	Dali
CMOS CPU	14nm		12nm	7nm	12nm?
CPU	Zen(+)		Zen+	Zen2	Zen+?
Max CPU Core/Thread	4/8	2/4	4/8	8/16	2/4 ?
L3$ CPU	4MB			8MB	4MB?

CMOS GPU	14nm		12nm	7nm	12nm?
GPU	Vega (GFX9)
GPU Clock	1300 MHz	1200 MHz	1400 MHz	1800 MHz
Shader Engine	1			1 ?	1 ?
Max CUs	11	3	11	8 ?	3 ?
Max TMUs	44	12	44	32 ?	12 ?
Max ROPs	8	4	8	8 ?	4 ?
L2$ GPU	1 MB	0.5 MB	1 MB	1 MB?	0.5 MB?
	Raven	Raven2	Picasso	Renoir	Dali
Memory Type	DDR4			LP/DDR4/X	DDR4 ?
Support Memory Speed	2933 MHz	2400 MHz	2933 MHz	4266 MHz	2933 MHz?
VCN ver	1.0			2.0	1.0?
DCN ver	1.0			2.1	1.0
DeviceID	15DD	15D8 /15DD	15D8	1636	15D8 /15D9?
GPU ID	gfx902	gfx909	gfx902	gfx909	gfx909
Die Size	209.78 mm²	154.68 mm²??	209.78 mm²	~160mm²?

Renoir関連