熱鬧的數據中心晶片市場

來源：內容由半導體行業觀察（ID：icbank）編譯自the next platform，謝謝。

十多年來，伺服器市場的步伐是由每年推出的英特爾至強處理器決定的。可以肯定的是，英特爾並不總是像大數據中心運營商那樣以可預測且或多或少的年度節奏推出像發條一樣的新晶片。尤其是在英特爾 10 納米晶片製造工藝碰到障礙之後，導致 Xeon 路線圖出現各種裂痕，最終讓其他人有機會在數據中心計算領域站穩腳跟在 CPU 上。

展望 2022 年，數據中心計算領域比十年前要豐富得多。這不僅是因為 AMD 重新回到了遊戲中，創造了具有競爭力的 CPU 和 GPU，並且如果一切順利，它將在第一季度末收購 FPGA 製造商 Xilinx。（這筆 350 億美元的交易於 2020 年 10 月宣布，預計將於 2021 年底關閉，但由於反壟斷監管機構仍在審查細節而被推遲。）現在，對於那些已經在數據中心工作了數十年的人來說，我們所看到的多樣性與現在完全不同。

我們知道，在遙遠的過去，系統製造商擁有他們的整個硬體和軟體堆棧，並開發從 CPU 到作業系統、資料庫和文件系統的所有東西。早在 1980 年代後期，數據中心中大約有兩打不同的商業上可行的 CPU 和可能在它們之上的三打作業系統。有一段時間，看起來我們可能最終會在數據中心出現英特爾至強的單一文化，但出於種種原因——即客戶喜歡選擇和競爭對手追逐利潤以分一杯羹——這顯然沒有發生。這肯定會使數據中心計算變得更加有趣。

系統內部計算的日益易購性以及在充滿此類系統的玻璃房中競爭工作的供應商和架構的多樣性也是如此。

今年，儘管比預期晚了一點，英特爾還是推出「Ponte Vecchio」X e HPC GPU，這是其首款針對大計算的數據中心 GPU，並替代了其於2015 年首次推出的多核「Knights」系列加速器。AMD 已在 Instinct MI200 系列加速器中推出了其「Aldebaran」GPU 引擎，這絕對是 Nvidia 的「Ampere」GA100 GPU 和使用它們的 A100 加速器的可靠替代品，而且這些加速器的使用時間有點長，已經於 2020 年 5 月推出。（別擔心，Nvidia 很快就會解決這個問題）。為了讓事情變得有趣，Nvidia 正在開發自己的「Grace」Arm 伺服器 CPU，雖然我們要到 2023 年才能看到它進入市場。所以這就是我們要說的關於 Grace 的全部內容，因為我們展望2022 年。關鍵是，三大數據中心計算供應商——英特爾、AMD 和英偉達——將在一年多的時間裡同時在該領域擁有 CPU 和 GPU，而英特爾和 AMD 將擁有數據中心 CPU、GPU 和今年在現場的FPGA。

Nvidia 不相信 FPGA 作為計算引擎，所以不要下意識地認為 Nvidia 會在去年 7 月的 SPAC 首次公開募股被取消後收購 FPGA 製造商 Achronix，或者收購另一家重要的 FPGA 製造商 Lattice Semiconductor . 這不會發生。

但今年在數據中心計算領域將會發生很多事情，以下只是重點。讓我們從 CPU 開始：

英特爾「Sapphire Rapids」至強 SP：備受期待的 10 納米至強伺服器晶片，基於小晶片架構的晶片. Sapphire Rapids 與其前代「Ice Lake」和「Cooper Lake」不同，它將包含一個完整的產品線，從一到八個無縫連接的socket。（Ice Lake 被限制為 1 個和 2 個socket，Copper Lake 被限制為 4 個和 8 個socket ，因為崩潰的路線圖使它們重疊。如果謠言正確，Sapphire Rapids 每個socket 將有多達 56 個內核，最大功率為 350 瓦. Sapphire Rapids 將支持 DDR5 內存和 PCI-Express 5.0 外設，包括對 CXL 互連協議的支持，據說支持高達 64 GB 的 HBM2e 內存和每插槽 1 TB/秒的帶寬，用於那些 HPC 和 AI 工作負載需要它。據傳該晶片支持多達 80 條 PCI-Express 5.0 通道，因此它不會像之前的 Xeon SP（如「Skylake」和「Cascade Lake」）那樣缺乏 I/O 帶寬。

AMD 「Genoa」和「Bergamo」 Epyc 7004：雖然英特爾正在為 Sapphire Rapids 轉向第二代 10 納米工藝，但 AMD 今年將憑藉其基於 Zen 4 和 Zen 4c 內核的「Genoa」和「 Bergamo」 Epyc 7004 CPU橫空出世，早在 11 月推出時，關於這些晶片的數據很少。但據介紹，他們同時還推出了具有堆疊 L3 高速緩存的「Milan-X」Epyc 7003 晶片。Genoa Epyc 7004 將於 2022 年問世，每當 AMD 認為英特爾可以推出 Sapphire Rapids 時，它就會同步推出新品，該晶片擁有 96 個內核並支持 DDR5 內存和 PCI-Express 5.0 外圍設備。看起來 AMD 想在 2022 年推出 Epyc 7004 的 128 核 Bergamo 變體，但只承諾將在 2023 年推出。我們認為，根據產量和需求，AMD 可能會嘗試在其上市之前交付 Bergamo今年正式向一些超大規模用戶推出。我們會看到的。

Ampere Computing 「Siryn」，可能沒有Altra：該公司在 2021 年一直在增加其 80 核「Quicksilver」Altra 和 128 核「Mystique」Altra Max 處理器的銷售，這兩種處理器均基於 Arm Holdings Neoverse N1 內核，並且均採用台積電的 7 納米工藝。今年推出了基於自研內核的 Sirin CPU，我們一直將其稱為 A1，Ampere Computing 多年來一直在開發該內核，並轉向 5 納米 TSMC 製造。有趣的是，看看 A1 內核是否會變得更廣泛，就像Amazon Web Services 使用其 Graviton3 處理器（基於 Arm Holdings Neoverse V1 內核）所做的那樣，或者 Ampere Computing 是否會使用更簡約的設計並提升核心數。正如我們在去年 5 月所寫的那樣，我們認為 Sirin 晶片將配備 192 個 A1 內核，這些內核將被精簡為超大規模和雲構建者所需的基本要素，我們進一步認為 Sirin 的推動者，到 2023 年，他們將擁有多達 256 個基於調整後的 A1 內核或全新的 A2 內核的內核。Sirin 晶片幾乎肯定會支持 DDR5 內存和 PCI-Express 5.0 外設，而且很可能還會支持用於加速器的 CXL 互連協議。我們從來沒有期望 Ampere Computing 會在其內核中添加同步多線程 (SMT)，就像一些失敗的 Arm 伺服器晶片供應商所做的那樣，而 AWS 的 Graviton 產品線也沒有這樣做。

IBM 「Cirrus」 Power10：藍色巨人聲稱其 Power10 晶片沒有代號，所以去年我們將其命名為「Cirrus」，因為我們對不給我們同義詞的供應商沒有耐心。我們於 2020 年 8 月詳細介紹的 16 核 Cirrus 晶片於 2021 年 9 月在「Denali」16 插槽 Power E1080 伺服器中首次亮相. Power E1080 有一個 Power10 晶片，每個內核使用 SMT 有 8 個線程，每個晶片中激活 16 個內核中的 15 個，IBM 還可以讓兩個 Power10 晶片共享一個socket。但隨著今年推出的低端 Power10 晶片，IBM 有能力將內核減少一半，以提供兩倍的內核和一半的線程——低端「Nimbus」Power9 晶片也提供了這種能力。無論如何，IBM 將能夠使用雙晶片模塊 (DCM) 在單個插槽中擁有多達 30 個有源 SMT8 內核和多達 60 個有源 SMT4 內核，並且每個內核中都有本機矩陣和矢量單元，以加速 HPC 和 AI 工作負載開機。

Power10 內核有八個支持 FP64、FP32、FP16 和 Bfloat16 運算的 256 位向量數學引擎和四個支持 INT4 的 512 位矩陣數學引擎，INT8 和 INT16 操作；這些單元可以在 FP64、FP32 和 INT32 模式下累積操作。IBM 有一個非常緊密耦合的四路、基於 DCM 的 Power E1050 系統（我們還不知道它的代號），它具有非常高的性能和非常大的主內存，以及Power10 架構中內置的「memory inception」內存區域網絡功能允許機器使用來自伺服器的現有NUMA 連結共享彼此的內存，就好像它是本地的一樣。

IBM「Telum」z16：IBM System z 大型機的下一代處理器 z16，我們在 2021 年 8 月討論過，它在架構上很有趣，但除了現有的 IBM 之外，它可能不是任何人的下一個平台大型機的選擇。Telum 晶片的有趣之處在於它只有八個內核，但它們以 5 GHz 的基本時鐘速度運行。z16 內核僅支持 SMT2 並具有非常寬和深的管道，並且它還具有內核之外的 AI 加速功能，但可以使用本機功能進行訪問，從而可以相對輕鬆地將推理添加到現有大型機應用程式中，而無需任何類型的卸載.

如果傳聞中的微軟/Marvell 的合作夥伴關係產生了另一款自研的 Arm 伺服器晶片，那就太好了，如果 AWS 在 2022 年底推出一款更強大的 Graviton4 晶片，讓每個人都保持警覺，那就更好了。當然，我們會喜歡 Nvidia 的 Grace Arm CPU，它將在 2022 年問世，它將具有快速和原生的 NVLink 埠以連貫地連接到 Nvidia GPU，並且每個插槽的內存帶寬超過 500 GB/秒。

現在，讓我們談談 2022 年即將推出的 GPU 引擎。

Nvidia 「Hopper」或 A100 NEXT：Nvidia GPU 的代號存在很多混淆，但我們認為 Nvidia 將在路線圖上稱為 A100 Next 的 GA100 GPU 和代號為「Hopper」的 GH100 和 GH100 的GPU將在今年三月的技術會議上宣布。我們對 GH100 知之甚少，但我們預計它將採用台積電的 5 納米工藝進行蝕刻，我們還預計 Nvidia 將創建其第一個小晶片設計並將兩個 GPU 小晶片放入一個封裝中，就像 AMD 剛剛推出的那樣使用 Instinct MI200 系列加速器中使用的「Aldebaran」GPU 完成。AMD 在 Aldebaran GPU 中提供 47.9 teraflops 的雙精度 FP64 性能，而英特爾預計將在今年推出的「Ponte Vecchio」GPU 中提供超過 45 teraflops 的 FP64 性能，

AMD 「Aldebaran」 Instinct MI200 縮減版：AMD 為 Instinct MI200 設備在 DCM 中使用了兩個小晶片，將 GPU 容量翻了一番，所以為什麼不創建一個尺寸更小、熱設計點更低、功耗更低的 GPU 加速器只需將一個小晶片放入封裝中，每單位性能的價格就會便宜得多。沒有人在談論這個，但這是一種可能性。它可以很好地取代現有的 Nvidia A100。

英特爾「Ponte Vecchio」X e HPC：英特爾最終會將數據中心 GPU 加速器投入該領域，但在傳聞 600 瓦至 650 瓦的情況下，英特爾將要承擔的性能將是相對較高的熱和成本，如果這些數字是正確的。早在 2021 年 8 月，我們就對第一代 X eHPC GPU 進行了分析，這是一個擁有 47 個不同小晶片的野獸，這些小晶片與英特爾的 2D EMIB 小晶片互連和 Foveros 3D 晶片堆疊互連。由於矢量引擎的時鐘頻率為 1.37 GHz，Ponte Vecchio GPU 複合體在 FP64 或 FP32 精度下提供 45 teraflops，其矩陣引擎在 TF32 上提供 360 teraflops，在 BF16 上提供 720 teraflops，在 INT8 上提供 1,440 teraflops。這可能是一個熱門的 GPU，但它是一個性能怪獸。這比 AMD 通過 Aldebaran 提供的矩陣性能要高得多——BF16 時為 1.9X，FP32 和 INT8 時為 3.8X。

最後，這將我們帶到了 FPGA。這裡沒有太多的亮點，坦率地說，我們不確定賽靈思在什麼時候推出具有小晶片架構的「珠穆朗瑪峰」Versal FPGA 計算複合體，以及英特爾在何時推出其 Agilex FPGA 計算複合體，它使用小晶片架構和 EMIB 互連，以及它的後續設備（可能也稱為 Agilex），它們將使用 EMIB 和 Foveros 的組合，就像 Ponte Vecchio GPU 複合體一樣。我們需要在這裡做更多的挖掘工作。

至於人工智慧訓練和推理引擎，這也可能是未來數據中心計算的重要組成部分，那就是另一個故事了。這裡有很多噪音，還有一些牽引力和行動，但這些都遠不及數據中心的主流。

★ 點擊文末【閱讀原文】，可查看本文原文連結！

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點讚同或支持，如果有任何異議，歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第2916內容，歡迎關注。

晶圓｜集成電路｜設備｜汽車晶片｜存儲｜台積電｜AI｜封裝

原文連結！