芯片如何破局?分離內存和邏輯,將內存放在邏輯上
如果您希望可以時常見面,歡迎標星收藏哦~
來源:內容由半導體行業觀察(ID:icbank)編譯自semiengineering,謝謝。
芯片行業正在向 3D-IC 方向快速發展,但事實證明,一個更簡單的步驟可以提供相當於整個節點進步的增益——提取分佈式存儲器並將其放置在邏輯之上(extracting distributed memories and placing them on top of logic)。
邏輯上的存儲器顯著縮短了邏輯與直接關聯的存儲器之間的距離。根據一項研究計劃,這可以將性能提高 22%,並將功耗降低 36%。但需要解決一些問題才能使其成爲一個簡單的解決方案。
邏輯上的記憶有兩種版本,它們已經變得相當普遍,並作爲商業世界中的概念證明。HBM將 DRAM 堆疊在一個小型邏輯芯片上,該邏輯芯片通過中介層連接到主系統。第二個應用程序將大型 L3 緩存直接放置在處理器頂部。雖然這使內存更接近處理器,但它沒有利用兩個芯片之間巨大的互連潛力。
真正的機會是當大量分佈式存儲器從主邏輯芯片中移出並直接放置在與其相關的邏輯之上時。這是真正的 3D 集成,但它並不具有與跨多個堆疊芯片分配邏輯相關的所有複雜性。
“從技術上講,HBM 是邏輯上的內存”,西門子 EDA的 Tessent 部門經理 Joe Reynick 說道。“你有基礎芯片,然後是其上的 DRAM 堆棧。但採用 SoC,從該 SoC 中移除存儲器,並使用由純存儲器組成的第二個芯片,這是一個很大的進步。我們正在通過銅柱、TSV 或任何從一個芯片到另一個芯片的技術進行連接,這帶來了一系列新的問題和優勢。”
Fraunhofer IIS 自適應系統工程部高效電子部門負責人 Andy Heinig對此表示同意。“HBM 中的邏輯並不是真正的計算邏輯。它僅用於協調來自處理器並進入內存塊的信號,反之亦然。目前邏輯上緩存的做法更多的是邏輯上實內存的方向。然而,在邏輯緩存的情況下,與並行方法相比,沒有那麼多架構變化。邏輯上的真實內存將在未來實現顯着的性能提升,但前提是開發出新的架構。”
長期以來,處理能力一直受到內存帶寬的限制,而且這種趨勢並沒有改善。“在某些時候,處理將受到總線帶寬的限制,”西門子 EDA 定製 IC 驗證部門的首席產品經理 Pradeep Thiagarajan 說道。“當數據速率更高時,這會受到更大的限制。您在接口上構建更復雜的調製方案來發送和接收它,並且必須保持這些各種互連的信號完整性 - 特別是當它上升到內存堆棧時。”
許多人認爲,芯片中 50% 的面積被內存佔用。Ansys產品營銷總監 Marc Swinnen 表示:“研究還表明,如果 x,y 平面上的互連長度超過 100 微米,那麼進入 z 平面會更便宜。” “任何接近 100 微米的值,保持在同一水平上都會更便宜。通過上升到 z 平面,你可以獲得更短、更快的電氣連接。”
許多正在開發的新架構都是由處理器陣列組成,每個處理器都有關聯的內存。Untether AI 硬件副總裁 Renxin Xia 表示:“我們需要處理能力接近內存。” “如果你被限制在二維平面上,那麼只有幾種方法可以接近記憶。合乎邏輯的下一步是開始從三維角度看待問題。然後,您可以垂直集成或緊密集成到更多內存。”
但總有一些問題需要克服。Synopsys產品管理高級總監 Kenneth Larsen 表示:“已經有許多研究試圖將 DRAM 置於邏輯之上。” “但是 DRAM 對溫度非常敏感,需要調整刷新率。雖然軟件中有多種方法可以解決這個問題,但很難不對性能產生影響。您需要考慮一些新的身體因素。這就是爲什麼我希望我們能夠開始將討論從組裝(將事物粘在一起)轉移開來,也許更多地討論集成(事物可以一起開發)。”
良率是一個複雜的故事。
“對於裝配,你有更多的連接,”西門子的 Reynick 說。“如果您要獲取 100,000 個內存實例並將它們映射到小芯片,那麼您就擁有了需要建立的所有數據、地址和控制連接。這可能會對產量產生影響。您可能需要考慮冗餘連接。但另一方面是由於工藝複雜性降低而導致產量提高。如果你看一下成品率方程,就會發現有面積、缺陷密度,還有一個稱爲工藝複雜性的參數。工藝複雜性基本上是您使用的金屬層的數量。如果您從設計中刪除存儲器,那麼整體過程的複雜性就會降低。這對內存芯片和邏輯芯片的良率都有改善作用。”
不確定性成爲一個更大的問題,特別是如果使用多個工藝或節點來製造每個芯片。“我們可以在芯片中植入一個 p 型環形振盪器和一個 n 型環形振盪器,”西門子的 Thiagarajan 說道。“在進行表徵時,您可以看到每個設備的相對速度。在我們對其進行切割後,就完成了已知良好的芯片測試。然後,使用 OTP(一次性可編程)或電子熔絲,您可以識別每個特定部件,以確定它是否是慢-快、快-慢、典型-典型部件。客戶可能會說,“我只想要慢速或快速的零件。”你必須小心,要有足夠寬的窗口來容納各種零件。”
將 SRAM 與邏輯分離的壓力越來越大,因爲它不再具有擴展性。“Vdd 的另一個限制是 SRAM Vmin,它爲嵌入式 SRAM 的給定錯誤率設置了儘可能低的電源電壓,”Atomera 首席技術官 Robert Mears 說道。“由於嵌入式 SRAM 通常是電壓降低時最先失效的模塊,因此 Vmin 通常設置最小電源電壓。工藝技術可以降低變異性,提高 PMOS 可靠性,並增加驅動電流,從而將 Vmin 降低 100mV。”
不過,可能會面臨一些新的熱密度挑戰。
Synopsys TCAD 產品組研究員 Victor Moroz 表示:“3nm finFET 技術的電路活動係數約爲 1%。” “同時開關的晶體管數量不能超過 1%,因爲它會過熱並熔化。但如果你的芯片有一半是 SRAM,那麼 SRAM 就非常懶惰了。其活性因子遠小於1%。從整體角度來看,它幾乎爲零。如果移除 SRAM,您可能必須重新考慮邏輯中的活動因素。”
垂直髮展還有其他好處。“通過垂直髮展,跨越不同的芯片,我們可以使用不同的內存技術,”Untether 的 Xia 說。“我們可以利用 DRAM 等更密集的內存技術。我們不像邏輯芯片那樣受限於 SRAM。這可以讓我們的記憶密度提高一個數量級。”
Ansys 產品經理 Takeo Tomine 也指出熱量是 ReRAM 的一個問題。
“通常,對於低於 7nm 的先進技術節點,器件尺寸會縮小,而電源電壓 (Vdd) 保持恆定,從而導致更高的功率密度和更大的金屬密度,從而產生更多熱量。自熱效應是影響ReRAM可靠性和準確性的關鍵因素。當熱量被困在晶體管器件中時,自熱變得最嚴重。對於 ReRAM,溫度變化會降低 R on /R off比率,這對許多應用(包括 AI 處理)的準確性和可靠性不利。必須進行仔細的熱管理,特別是在不同設備之間功耗不均勻的設計中。然後,必須對產生的熱量向附近層和設備的擴散進行建模,以捕獲隨時間變化的全芯片熱圖。”
熱成爲所有此類存儲層的主要問題。
“通常,處理器位於底部,內存芯片位於其上方,”西門子 EDA 內 Simcenter 產品組合的電子與半導體行業總監 John Parry 說道。“但是內存芯片的溫度限制比邏輯芯片低。通常,邏輯芯片的溫度約爲 120°C 或 125°C。這在一定程度上取決於製造工藝和所使用的技術,但高帶寬內存的溫度限制爲 80°C。通常,您會通過內存芯片向上吸收熱量。將內存置於處理器上方的問題在於,處理器必須通過本身受熱的物體將熱量傳導出去。”
有些人考慮過翻轉所有內容,使處理器位於頂部,內存位於底部。“您不僅需要處理芯片中的邏輯,還需要 I/O,”Reynick 說道。“I/O 必須與外部世界建立連接。基板上還有一種散熱器,它通過 PCB 的球連接到該散熱器,因此邏輯存儲器更受歡迎,因爲如果您想在底部放置 I/O 或存儲器,您可能需要進行饋通(feed-throughs)。”
當你還考慮到電力時,它會變得更加昂貴。“TSV 價格昂貴、體積龐大,而且存在固有的良率問題,”Ansys 的 Swinnen 說道。“邏輯芯片可以與存儲器對話,但邏輯芯片仍然需要以某種方式到達基板。信號和電源必須通過存儲器到達芯片。如果您的芯片使用 100 瓦,那麼通過內存傳輸的功率就很大。必須考慮諸如此類的平淡問題。在 z 方向上,每平方毫米有數千個微凸塊,但它們非常小,互連密度比芯片本身低得多。z 方向每英寸的電線數量與 x 和 y 方向的電線數量不同。”
測試也成爲一個更大的問題。“你必須創建新的測試臺,其中包含來自多種工藝技術的電路部分,”Thiagarajan 說。“您必須考慮連接性,包括根據 S 參數提取通道或線路,然後將其連接到接收設計,這可能採用不同的工藝技術。您將擁有多個 PDK,其中包括各自工藝技術的變化,然後您可以一起對其進行模擬。您還需要在典型模擬器工具之上進行協同變化感知設計的能力。你必須在硅前考慮一個更大的子系統,以便在硬件出來後爲測試做好準備。”
Reynick 指出,互連測試成爲一個新問題。
“我們如何測試互連並驗證它是否正常工作?我們仍然可以使用已知良好的芯片測試和晶圓探針來測試芯片本身。如果您使用的是 PHY,那麼您需要進行環回測試,以便您可以一直到達焊盤並返回並驗證測試是否正常工作。即使它是單向信號,我們仍然建議將它們設置爲雙向信號,以便您可以進行返回焊盤並返回芯片的內部循環。
我們仍然可以進行 SCAN。我們可能仍然需要犧牲焊盤。您的測試信號以及電源和接地採樣需要傳送到可探測的焊盤,因爲沒有可靠的探針卡可以滿足 3D 微凸塊間距的要求。您需要探針卡的標準間距,以便您可以進行測試。內存芯片上也需要一些測試邏輯。當你進行內存 BiST 時,我們在每個內存周圍都有包裝器。這些包裝器需要位於內存芯片上,以便我們實際上可以對這些內存進行內存 BiST 測試。”
結論
將存儲器和邏輯分離到兩個相互堆疊的芯片上具有很大的前景,同時也帶來了一些相當大的挑戰。但這些挑戰並不像邏輯上的邏輯所遇到的挑戰那麼極端。這可能使其成爲完整 3D-IC 的良好學習練習,並提供相當於完整節點進步的功能。
通過這樣做學到的東西將延續到未來,因爲將內存技術與邏輯分離將提供密度更高的解決方案,而重新架構處理系統將更好地利用內存帶寬。“如果僅將現有架構適應 3D 方法,就會導致成本增加,而性能卻幾乎沒有改善,”Fraunhofer 的 Heinig 說道。“然而,尋找真正的新架構需要一些時間,還需要在大學進行一些研究。還需要研究和開發有效探索不同選擇的新工具。”
https://semiengineering.com/memory-on-logic-the-good-and-bad/
點這裡加關注,鎖定更多原創內容
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。
今天是《半導體行業觀察》爲您分享的第3733期內容,歡迎關注。
『半導體第一垂直媒體』
實時 專業 原創 深度
公衆號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦