大模型驅動內(nèi)存互聯(lián)進化,HBM近存計算顯著提升性能。
GACS9月14日~15日,2023全球AI芯片峰會(GACS 2023)在深圳南山圓滿舉行。在首日AI芯片架構創(chuàng)新專場上,奎芯科技聯(lián)合創(chuàng)始人兼副總裁王曉陽分享了題為《驅動云/邊緣側算力建設的高性能互聯(lián)接口方案》的主題演講。王曉陽介紹了在目前AIGC推動算力需求快速增長的大環(huán)境下,基于HBM的算力芯片所面臨的瓶頸和挑戰(zhàn),包括與SoC緊耦合帶來的尺寸限制、面積占用、工藝限制、熱敏感,以及先進封裝導致的封裝成本高、良率下降、生產(chǎn)周期加長等問題。此外,在大型語言模型(LLM)的推理階段也存在一定的內(nèi)存瓶頸,降本增效問題亟待解決。為了解決這些問題,奎芯科技提出了自研的高性能互聯(lián)接口及解決方案,把HBM和SoC的芯片進行解耦,實現(xiàn)了SoC可利用面積增加44%,整體系統(tǒng)內(nèi)存帶寬和容量增加1/3,最大封裝面積增大1倍以上等顯著進步。針對內(nèi)存瓶頸提出HBM近存計算方案,單晶圓最高可提升50%算力。以下為王曉陽的演講實錄:各位嘉賓,下午好!今天非常榮幸參加AI芯片峰會,我們希望能夠給大家介紹一下奎芯公司在算力建設方面的思考,以及我們對于高性能互聯(lián)接口方案的介紹??究萍贾饕峁㊣P產(chǎn)品、Chiplet產(chǎn)品,以及一些集成服務,我們的IP產(chǎn)品主要有接口IP、技術庫IP、模擬IP,此外還提供Chiplet產(chǎn)品和解決方案。我們現(xiàn)在在國內(nèi)有5個辦公點、4個研發(fā)中心,研發(fā)團隊規(guī)模超過150人。
首先簡單介紹一下AI的發(fā)展趨勢。最近幾年,AI模型的發(fā)展非常迅速,差不多以每年10倍的速度增長。ChatGPT-3的1750億參數(shù)已經(jīng)成為過去式了,未來可能迎來萬億參數(shù)的時代。我們所需要的AI系統(tǒng)的算力也越來越大,基本上每幾個月要翻一倍。當前,我認為我們更需要思考在全新LLM(大語言模型)游戲規(guī)則下,理論算力的提升是否還像以前那么重要,未來的瓶頸究竟在哪里,我們該如何提高效率、降低成本,來達到可持續(xù)性的發(fā)展。最近幾年,體系結構討論最多的問題之一就是兩堵墻:內(nèi)存墻和I/O墻。多年來,隨著工藝的進步、計算架構的革新方法,理論算力的增長速度非常驚人,但內(nèi)存帶寬、互聯(lián)帶寬的增長卻相對緩慢,造成了巨大的落差。最近,業(yè)界也在嘗試很多方法解決這樣的問題,包括增加緩存、堆疊緩存,盡量提高單節(jié)點的算力,用更高速的互聯(lián)接口與更高效的互聯(lián)協(xié)議來做芯片互聯(lián)等。
正因如此,在如今新的LLM的游戲規(guī)則下,內(nèi)存的容量、帶寬以及互聯(lián)帶寬已經(jīng)逐漸成為核心競爭力,算力的重要性相對下降了一些。我們可以看到,最新的英偉達芯片非常重點地強調(diào)了HBM帶寬、LPDDR的容量、NVLink的速度等;包括AMD的MI300系列,對算力指標都沒有那么強調(diào),這個在過去是不太可能的事情。我記得在去年的芯片發(fā)布會上,對算力指標還是非常重視。目前主流的大算力AI芯片仍以HBM為主,雖然HBM可能比較貴,但如果用成本除以帶寬來講,單位帶寬成本還是最低的。目前HBM的使用有比較多的限制,主要因為HBM的顆粒必須跟SoC對齊和封裝在一起,是緊耦合的狀態(tài),而緊耦合會導致一些問題。首先,HBM的尺寸是固定的,SoC的尺寸必須符合HBM尺寸的量級,所以SoC的芯片尺寸是有限制的。同時,因為緊緊貼合的原因,同一顆大芯片,放的HBM的顆數(shù)有限。HBM顆粒必須和計算部分進行綁定,所以熱傳導影響非常大,而DRAM顆粒對熱很敏感,超過85度以上就需要重新加速,所以對效率會造成很大的影響,對SoC的頻率也有限制。此外,在SoC設計方面也不夠靈活,因為HBM可以左右兩邊擺,上下兩邊擺,但以這樣的方式去放的話,可能要采購不同的HBM的HOST IP。當然,工藝也是一個問題,SoC的設計選擇不同工藝的時候,更多考慮的是在這個工藝下的HBM的IP是否可以獲取,這是一個設計公司普遍面臨的問題。同時,因為HBM HOST IP的面積比較大,所以SoC的面積占用比較多,沒有空間放下更多的計算。
主流的HBM的應用還是以先進封裝為主,包括CoWoS和硅橋的形式。對于這種形式,首先它的Interposer(中介層)尺寸受限,目前最大可能是3-4個reticle(掩膜);其次,2.5D封裝成本比較高,粗略估算可能比普通的基板貴4倍左右,最近臺積電的CoWoS也在漲價;另外,因為是Micro-bump連接,所以它測試的覆蓋范圍是受限的,良率會降低,尤其是封裝超過6個HBM和2個ASIC以后,它的良率降低會很明顯;最后還有國產(chǎn)工藝的問題,國產(chǎn)2.5D先進封裝目前還不是非常成熟。種種因素加起來,目前使用HBM、用2.5D來封裝還是存在很多限制或者成本的問題。
奎芯科技正在基于我們自己的D2D(UCIe)接口和HBM接口,打造一個新的方案M2LINK,它的核心訴求是把HBM和SoC的芯片進行解耦。該方案的基本做法是把HBM的接口協(xié)議轉化成UCIe協(xié)議,然后在這個標準模塊上用RDL Interposer來封裝,把它做成一個標準模組,然后通過普通的基板和SoC進行封裝。這樣整個距離可以拉到大概2.5公分左右,也不需要和主SoC耦合和綁定。
這樣做的好處有很多,比如主芯片的整體成本會降低,因為節(jié)省了很多面積;其次,封裝的成本降低,并且散熱會更容易,主芯片的頻率可以再增加;芯片系統(tǒng)的內(nèi)存容量和帶寬會增加,因為單位邊長可以塞下更多的HBM;性能得到提升,因為主Die頻率可以提高;另外,芯片規(guī)模可以變大,因為不受Interposer三個reticle的限制;此外在國內(nèi),整個封裝的供應鏈可以利用得更好,避免了2.5D的問題。
我們可以看到這個俯視圖,左邊這顆芯片的單邊長假設是30多毫米,可以兩邊各放三個HBM;如果用我們的方案,兩邊可以各放4個,也就是共8個HBM。這樣做的話,同等大小的SoC可利用面積增加44%,整體系統(tǒng)內(nèi)存帶寬和容量可以增加1/3,最大封裝面積可以增大1倍以上。在這個基礎上,我們對于未來的CPU+AI或者GPGPU集成的方案也有一些規(guī)劃。對于芯片設計客戶來說,除了剛才提到的M2LINK、HBM標準模組以外,奎芯還可以提供兼容UCIe的D2D接口、LPDDR5X的內(nèi)存接口、PCle的接口,以及可以做成一個標準的I/O Die,來解耦計算、存儲與I/O,加速客戶芯片設計的速度,降低設計復雜度,從而降低整體成本。
要做到以上事情,首先必須得有高質量的接口IP做保障。我們自研的LPDDR5X已經(jīng)成功流片,4X已經(jīng)硅驗證。我們的速度支持業(yè)界最高的8.5G,目前支持像臺積電6納米和中芯國際12納米的工藝。我們LPDDR的每一個PHY都有獨立的MCU支持firmware based training,也可結合HW training提供更好的兼容性。同時,我們也支持多頻點設定和自適應動態(tài)監(jiān)控與調(diào)整,支持多種低功耗的模式選擇,且全系列包含內(nèi)嵌的BIST電路方便測試。我們的D2D的接口也已經(jīng)研發(fā)完成,支持UCIe 1.1標準,同時會做兩個版本,一個是標準封裝,一個是2.5D的先進封裝。單片的速率最高可以達到32G,最低功耗小于0.5pJ/bit,我們做到了非常低的端到端延遲,同時我們會提供適配層,支持客戶的自定義協(xié)議層。
奎芯可以提供全套的HBM 3 HOST IP解決方案,包含HBM的PHY、I/O、Controller,以及一些針對性能優(yōu)化的可選的IP。HBM3的IP已經(jīng)在客戶端落地,最高速度支持6.4Gbps,可以支持多頻點的選擇,內(nèi)嵌的MCU可以支持firmware based training,內(nèi)嵌完整的DFT/測試電路,并且這個IP也具有極低的功耗和面積。
基于奎芯對整個封裝供應鏈的整合能力,我們HBM3的國產(chǎn)化落地案例也已經(jīng)和客戶正在緊密開發(fā)中。目前和客戶一起打造的是一款標準的帶有HPM3的2.5D的全國產(chǎn)封裝的大芯片,我們自己提供了HBM3的IP,提供interposer的設計、2.5D的封裝設計,以及完整的解決方案。這個芯片面積達到1000平方毫米以上。
對于Chiplet,大家可能最初認為主要先落地于云端或者大芯片上。其實在端側,也有Chiplet落地的案例和需求。目前,我們在為客戶打造一款具有極低功耗的邊緣計算或者端側計算的產(chǎn)品,這是一個I/O Die。對于這種場景,客戶希望計算部分用最先進的制程來做。但針對5納米和4納米昂貴的成本,客戶希望能夠解耦內(nèi)存接口,放到相對成熟的工藝上實現(xiàn),并且為工藝演進提供靈活性。我們結合客戶的需求,打造了一個包含LPDDR5 HOST的完整I/O Die,實現(xiàn)了內(nèi)存接口的解耦,降低客戶成本,為客戶未來的產(chǎn)品升級增加了靈活性。
再映射一下之前講的AI的趨勢。LLM是最火的話題,但我們未來更多的是思考LLM在訓練完成之后,做微調(diào)、推理的時候如何降低成本的問題,或者提高計算利用率。最近有很多公司在做分析和研究,我們看到,在推理過程中,大部分計算可能都是GEMV,即矩陣向量乘的計算。這種計算的特點是計算密度非常低,需要更高效地用內(nèi)存的讀寫來解決問題。一些大公司現(xiàn)在開始嘗試存內(nèi)計算,包括一些國內(nèi)公司。
我們認為,當前階段用近存計算相對容易,并且短期內(nèi)通用性更強。我們可以在M2LINK的基礎上整合NPU的計算,更充分高效地利用HBM帶寬,提高單位算力內(nèi)存容量和帶寬,降低規(guī)模,從而降低成本。由于計算芯片力度的變小,良率會得到提升,所以單wafer(晶圓)可以獲得的總體算力會提升。當然,還可以根據(jù)模型的需求,來靈活地組合算力。
這個方案本質就是可以將一個大的GPGPU或AI芯片拆成小粒度,每一個小粒度的GPU或者NPU,把它和HBM顆粒綁定,中間的主SoC可以做成一個CPU,這主要是負責任務的調(diào)度或者做一些計算。這樣的話可以充分地利用好每一個HBM的帶寬,極大地降低HBM模組和主芯片之間的帶寬。我們這么做的話,它的UCIe的互聯(lián)帶寬要求可以降到原來的1/5左右,這樣可以變相地堆疊更多的HBM模組,提高效率。舉一個例子,GPT-3模型大概有400G的存儲容量需求,用H100/A100的80GB HBM來存的話,可能需要5個以上的H100/A100才能放得下。如果把大的H100/A100拆成8個小的,每個HBM仍然16GB的話,A100算力的一個NPU差不多可以匹配8個HBM,相當于128G,一個完整的模型只需要三顆芯片就可以放得下,整體降低了系統(tǒng)的開銷成本。
另外一個層面,H100可以在一個wafer上切出大概60顆左右,算上一些報廢率,可能在50顆左右。此外,一顆芯片算力不可能用完,可能達到80%左右。我們可以計算一下,一個wafer如果用一顆SoC來做的話,大概可以做到40顆完整的H100的算力。如果把粒度拆小,100平方毫米是一顆NPU的話,一個wafer 12寸上大概是600顆左右,去掉壞的剩余500多顆。整體上,一個wafer算力可以提升50%左右,這也是變相節(jié)約成本的方式。當然,NPU和HBM深度綁定之后,整體系統(tǒng)上的內(nèi)存帶寬和容量也得到大大的提升。
奎芯科技希望建立一個開放生態(tài)一站式的Chiplet的服務平臺,我們提供接口IP、Chiplet裸Die、系統(tǒng)設計、先進封裝設計等服務,整合供應鏈資源,為客戶提供完整的一站式解決方案。以上是我的分享,謝謝大家!
以上是王曉陽演講內(nèi)容的完整整理。
18030183032