Ryzen 4000 U/H-Series (Renoir) 考察

製品

4800UのBase Clockが1.8 GHzと他よりも低くなっているが、CPUが8-Core/16-Thread、GPUも4000 U/H-seriesでは最高性能でありながらTDP15Wなため仕方ない。
むしろPicassoの4C/8T、Base 2.3 GHzからコア数を倍にしても0.5 GHzの低下に抑えているあたりTSMC 7nm FinFetの恩恵を窺える。

4300Uは最も低いモデルとなり、Base ClockこそH-seriesに迫るほどだが、代わりに4C/4Tであり、L3キャッシュが4MBとのことからCCXを1つ丸々無効化しているはずだ。
近いBase ClockはPicasso 3000 seriesでは2C/4Tでないとないため、4300Uも7nmの恩恵を十分に受けているとも考えられる。
SMTを有効にした4C/8Tモデルがないのは、Picasso 3000 seriesの上位製品と競合しないようにするためかもしれない。(4000 seriesが出てもしばらくはPicassoを採用した新規製品が投入されるはず)

Ryzen 4000 U/H 4800U 4800H 4700U 4600U 4600H 4500U 4300U
CPU Core / Thread 8/16 8/8 6/12 6/6 4/4
CPU Base Clock (GHz) 1.8 2.9 2.0 ? 3.0 2.3 2.7
CPU Boost Clock (GHz) 4.2 4.1 4.0 4.0 3.7
Total CPU L2$ 4MB 3MB 2MB
Total CPU L3$ 8MB 4MB
GPU Core 8 7 6 5
GPU Clock (MHz) 1750 1600 1500 1400
Default TDP 15W 45W 15W 15W 45W 15W 15W
cTDP 10 - 25W 35 - 54W 10 - 25W 10 - 25W 35 - 54W 10 - 25W 10 - 25W

構造

いつものダイアグラム

プロセス

他のAMD 7nm製品と同様にTSMC 7nm FinFetで製造されている。
AMDは、Cinebench R20の結果においてRyzen 7 4800UはRyzen 7 3700Uの2倍の電力効率を実現したとし、
内70%は7nmプロセスによるものと語る。

CPU

アーキテクチャはZen2ではあるが、特徴の1つであった大容量L3キャッシュはなくなり、コアあたり1MBとRaven/Picassoと同じ容量となった。
ただこれは、そもそもZen2 CCDでL3キャッシュをZen/+から倍に増やしたのは、チップレットデザインによるダイ間アクセスのレイテンシを隠蔽するためとAMDは語っており、1チップに収めたRenoirで大容量L3キャッシュは不要どころかコスト、消費電力的に邪魔になると判断したのだろう。

AMD Ryzen Threadripper 3970X review – The Threadripper Processor Series – Guru3D

Why the double L3 cache? Well, AMD needed to address the latencies for accessing working memory to cope with the chiplet design, whereby the memory controller is physically located in a different chip, ergo a doubled L3 cache.

GPU

最大8CUになり、それ以外のROPやL2キャッシュ等は不明。
アーキテクチャは引き続きVega(GFX9)となるが、細かいことを言うとGPU IDはRaven/Picassoのgfx902ではなく、Raven2と同じgfx909であり、gfx909ではgfx902にあったバグが修正されている。
クロックはPicassoの最大1400MHzから最大1800MHzまで上昇した。
性能に関しては後述。

I/O

メモリコントローラーがLPDDR4x-4266に対応、PCIeはGen3に留まること以外は不明。

完全に推測だが、RavenからI/Oに関しては増やしてないのではないかと思う。
微細化によってCPU/GPU部が小さくなっても、I/Oのアナログ部はほとんど前プロセスと同じとなる。
そのためI/Oを増やすとダイサイズをも増加させてしまい、かといって減らすと製品として見劣りしてしまう。
そういうことで増やしてないと考えた。

PCIeがGen3となったのは、やはりGen4の発熱、消費電力はモバイル向けには受け入れられづらく、またモバイル向けに使えるGen4対応機器がまだNVMe SSDくらいしかないからだろう。
モバイル向けに広帯域が求められるチップ/デバイスを接続することはあまりないし、あると分かっているならUSB (10Gbps)やIcelakeのTB3コントローラーのようにSoCの機能として内蔵してしまった方が消費電力が削減できる。

マルチメディア

それまでのVCN 1.0からNavi1xと同じVCN 2.0に置き換わり、
HEVC、VP9 4K90/8K24デコード、HEVC 4K60エンコードに対応する。
VP9デコードはVCN 1.0で対応していたが、最大解像度は4Kまでだった。
ディスプレイ部はDCN 2.1となり、Linux Kernelのドライバーを見ると最大出力数4、3x DSCとなっている。

その他

Infinity Fabricのクロックがメモリクロックに同期しないようにしたらしく、これによってアイドル時の消費電力が削減された。
関係あるかは分からないが、cTDPの下限が10Wと、Raven/Picassoの12Wより下げることが可能となっている。

性能

TDP15WでGPUが最高性能となるPicasso(Winston) Ryzen 7 3780Uと、Renoir Ryzen 7 4800Uを比較した表が以下。

Zen APU 3780U 4800U
CPU Core/Thread 4/8 8/16
CPU Base Clock (GHz) 2.3 1.8
CPU Boost Clock (GHz) 4.0 4.2
GPU CUs 11 8
GPU SPs 704 512
GPU TMUs 44 32
GPU ROPs 8 8 ?
GPU Clock (MHz) 1400 1750
Memory Type DDR4 LPDDR4x
Memory Speed (MT/s) 3200 4266
Memory Bandwidth (GB/s) 51.2 68.3
FP16 (FLOPS) 3.94 3.58
FP32 (FLOPS) 1.97 1.79

Surface専用の3780Uではなく、3700Uとの比較だとメモリ帯域の差はさらに広まり(38.4 GB/s vs 68.3 GB/s)、FP32ピーク性能は4800Uと一致する。(10CU 1400MHz)

RenoirでGPUクロックが300-400MHz向上したが、CUを減らした分をギリギリ補えなるくらいで、フルスペックでの比較だとコンピュート性能は下がってしまっている。
が、統合GPUにおける最大のボトルネックはメモリ帯域であり、そこを伸ばすのが性能向上における効率が最も良い。
仮にカラー圧縮で帯域削減、L1キャッシュ増設をしたRDNAアーキテクチャをAPUに取り入れてボトルネックの軽減に役立てても、それは効率の悪い部類に入り、L1キャッシュといったSRAMはダイサイズを増加させ、コスト、消費電力をも増やす要因となるため、やはり効率が悪い。

(追記 2020-01-08T18:23)

とか書いたけどAMDのSenior Techical Marketing ManagerであるRobert Hallock氏によるとスケジュールの都合によるものらしい。

そしてRenoirは第二世代のRyzen Mobile、PicassoのCUより59%高速とのこと。
クロック向上とLPDDR4x-4266によるものだろうか。
https://twitter.com/Thracks/status/1215137876922396672

(追記終了)

vs Icelake (Gen11 GT2)

AMDは、Ryzen 7 4800U と Core i7 1065G7 の性能比較において、4800Uの方がシングルスレッド性能では4%、マルチスレッド性能では90%、グラフィック性能では18%上だと発表している。1
Core i7 1065G7 を搭載したDell XPS 7390を用いており、メモリはLPDDR4x-3733だろう。
2つのTDP設定は不明。どちらもデフォルトで15W、cTDPで最大25Wであるから、そのどっちかではあるはずだ。

The new AMD Ryzen 7 4800U offers:
Up to 4% greater single-thread performance and up to 90% faster multithreaded performance than the competition8
Up to 18% faster graphics performance than the competition9

スペックでは、RenoirのクロックがGen11 GT2の x1.59でありながらグラフィック性能が x1.18に留まっている。
メモリ帯域は x1.14であり、概ねこれに沿っていると見られる。
やはりメモリ帯域が統合GPUの 実行性能で支配的にあるのだろう。

vs Tigerlake (Gen12LP) ?

TigerlakeのGPU部、Gen12LPではEU/Shading UnitsがGen11 GT2から x1.5され、メモリもLPDDR5-6400を使用すればLPDDR4-3733から x1.71の帯域が手に入る。
Intel自身、CES2020のプレスカンファレンス後のニュースリリースにて、
CPU、AIアクセラレーター、Xeグラフィクスアーキテクチャーの最適化によってTigerlakeは二桁台の性能向上を実現すると発表している。2

With optimizations spanning the CPU,
AI accelerators and discrete-level integrated graphics based on the new Intel Xe graphics architecture,
Tiger Lake will deliver double-digit performance gains1,
massive AI performance improvements,
a huge leap in graphics performance and 4x the throughput of USB 3 with the new integrated Thunderbolt 4.
Built on Intel’s 10nm+ process, the first Tiger Lake systems are expected to ship this year.

3つまとめてな上、二桁台と曖昧で怪しさ満点というか、まだ詳細隠しておきたい意図が見られるが、
マルチスレッド性能は無理としても、シングルスレッド性能とグラフィック性能ではRenoirを追い越せるのではないかと思う。
シングルスレッド性能はIcelakeとRenoirであまり差がないことから、クロック特性さえ改善されCPUクロックが0.3GHzほど向上すればいい、グラフィック性能はLPDDR5-6400だとLPDDR4X-4266の x1.5のメモリ帯域があることからそう考えた。

IcelakePicasso を抜かし、 RenoirIcelake を抜かし、TigerlakeRenoirを抜かすCPU/iGPUのデッドヒート。

ただもっと怪しい部分があり、TigerlakeはIntelの10nm+ プロセスで製造されるとのことだが、その10nm+というのはIcelakeに使われているのと同じということだ。

Ice Lake Processor Family – Intel

The Ice Lake processor family is the next generation Intel® Core™ processor family. These processors utilize Intel’s industry-leading 10 nm+ process technology.

Tigerlakeの中身(特にCPU)がどうなってるのか、靄がかかり始める。
誤字である可能性が高いが、そもそもどれが10nmで、どれが10nm+なのかはっきり統一していないことにそもそもの問題がある気がする。

2020年中に製品が出るとのことだがどうなるか。
まあ気長に待つ他ない。

以前Xe、DG1の推測に使用した表に一部修正を加えたもの。

Integral GPU Intel Gen11 GT2 Intel Gen12LP AMD Picasso (3700U) AMD Renoir (4800U)
GPU Clock 1.1 GHz 1.1 GHz~? 1.4 GHz 1.75 GHz
Shading Units 512 768 640 512
TMUs 32 24 ?? 40 32
ROPs 16 16 ? 8 8 ?
GPU $ 3MB 3MB? 1MB 1MB?
Memory Type LPDDR4/x LPDDR4x /LPDDR5 DDR4 LPDDR4/x
Memory Speed 3733 MT/s ~6400 MT/s? 2400 MT/s 4266 MT/s
Memory Bandwidth 59.7 GB/s 102.4 GB/s 38.4 GB/s 68.3 GB/s
Peak Texture Fill-Rate (GT/s) 35.2 26.4~? 56.0 56.0
Peak Pixel Fill-Rate (GP/s) 17.6 17.6~? 11.2 14.0
FP16 (TFLOPS) 2.2 3.4~? 3.58 3.58
FP32 (TFLOPS) 1.1 1.7~? 1.79 1.79


RV Family Raven Raven2 Picasso Renoir Dali
CMOS CPU 14nm 12nm 7nm 12nm?
CPU Zen(+) Zen+ Zen2 Zen+?
Max CPU Core/Thread 4/8 2/4 4/8 8/16 2/4 ?
L3$ CPU 4MB 8MB 4MB?
CMOS GPU 14nm 12nm 7nm 12nm?
GPU Vega (GFX9)
GPU Clock 1300 MHz 1200 MHz 1400 MHz 1800 MHz
Shader Engine 1 1 ? 1 ?
Max CUs 11 3 11 8 ? 3 ?
Max TMUs 44 12 44 32 ? 12 ?
Max ROPs 8 4 8 8 ? 4 ?
L2$ GPU 1 MB 0.5 MB 1 MB 1 MB? 0.5 MB?
Raven Raven2 Picasso Renoir Dali
Memory Type DDR4 LP/DDR4/X DDR4 ?
Support Memory Speed 2933 MHz 2400 MHz 2933 MHz 4266 MHz 2933 MHz?
VCN ver 1.0 2.0 1.0?
DCN ver 1.0 2.1 1.0
DeviceID 15DD 15D8 /15DD 15D8 1636 15D8 /15D9?
GPU ID gfx902 gfx909 gfx902 gfx909 gfx909
Die Size 209.78 mm2 154.68 mm2?? 209.78 mm2 ~160mm2?

Renoir関連

Update:
 2020/07/20 11:51 JST