微觀世界的“體檢”難題
在一枚比指甲蓋還小的芯片中,集成了數(shù)十億甚至上百億個(gè)晶體管,例如 NVIDIA 的 H100 GPU 包含 800 億個(gè)晶體管。要如何確定每一個(gè)晶體管都在正常工作?這是一個(gè)超乎想象的復(fù)雜工程。如果讓人類拿著顯微鏡一個(gè)接一個(gè)地檢查,測(cè)試一顆芯片可能需要數(shù)百年。然而在現(xiàn)代工廠中,這必須在幾秒鐘內(nèi)完成。這就是可測(cè)性設(shè)計(jì)(DFT, Design for Testability)的用武之地。
一聊起年輕時(shí)研發(fā)過(guò)ATE,很多人就會(huì)問(wèn)我半導(dǎo)體測(cè)試究竟是如何進(jìn)行的?索性回憶回憶寫(xiě)點(diǎn)東西。本文將帶你走完一顆芯片從晶圓廠誕生到被認(rèn)證為“良品”的全過(guò)程,揭示這一支撐整個(gè)數(shù)字世界的幕后技術(shù)。
1. 測(cè)試的本質(zhì)其實(shí)就是輸入與輸出的游戲
測(cè)試的核心邏輯非常簡(jiǎn)單:施加一個(gè)特定的輸入,驗(yàn)證是否出現(xiàn)了預(yù)期的輸出。但在現(xiàn)代半導(dǎo)體中,這個(gè)問(wèn)題變得極其棘手。因?yàn)樾酒獠靠晒┻B接的引腳(Pin)通常只有幾百到幾千個(gè),而內(nèi)部卻有數(shù)十億個(gè)晶體管。我們無(wú)法直接從外部“看到”內(nèi)部每一個(gè)晶體管的狀態(tài)。
打個(gè)比方:這就像醫(yī)生給人看病。當(dāng)身體不舒服時(shí),你怎么知道是胃、腸還是膽囊出了問(wèn)題?醫(yī)生不能直接把肚子剖開(kāi)看,而是通過(guò)內(nèi)窺鏡深入體內(nèi),或者注射顯影劑觀察反應(yīng)。
芯片測(cè)試也是如此。我們?cè)谠O(shè)計(jì)芯片時(shí),就必須預(yù)埋特殊的電路結(jié)構(gòu),讓內(nèi)部狀態(tài)變得“可見(jiàn)”且“可控”。這就是 DFT 的起點(diǎn)。
2. DFT給植入芯片的“聽(tīng)診器”
DFT(Design for Test)意為“為測(cè)試而設(shè)計(jì)”。如果不預(yù)先設(shè)計(jì)這些電路,芯片造出來(lái)后就是個(gè)“黑盒”,根本無(wú)法測(cè)試。
掃描鏈架構(gòu) (Scan Architecture):芯片的窗口
這是 DFT 最基礎(chǔ)的技術(shù)。工程師將芯片內(nèi)部的觸發(fā)器(Flip-flops)連接成一條長(zhǎng)長(zhǎng)的“掃描鏈”(Scan Chain)。
- Shift-in(移入): 像串糖葫蘆一樣,把想要的數(shù)據(jù)(0或1)通過(guò)少量的引腳由外部推入芯片內(nèi)部每一個(gè)節(jié)點(diǎn)。
- Capture(捕獲): 讓芯片運(yùn)行一個(gè)時(shí)鐘周期,捕捉運(yùn)算結(jié)果。
- Shift-out(移出): 將結(jié)果像傳送帶一樣送出芯片,與預(yù)期值進(jìn)行比對(duì)。
通過(guò)這種方式,原本深埋在芯片內(nèi)部、無(wú)法觸及的邏輯門(mén),就變得可以通過(guò)外部引腳進(jìn)行控制和觀測(cè)了。
ATPG:自動(dòng)“找茬”生成器
有了掃描鏈,我們需要決定輸入什么數(shù)據(jù)才能發(fā)現(xiàn)故障。這就需要 ATPG (Automatic Test Pattern Generation) 工具。它基于“故障模型(Fault Model)”自動(dòng)生成測(cè)試向量。常見(jiàn)的故障模型:
- Stuck-at Fault(固定型故障): 某根信號(hào)線像被膠水粘住了一樣,永遠(yuǎn)保持在 0 或 1,無(wú)法翻轉(zhuǎn)。
- Transition Fault(跳變故障): 信號(hào)雖然能變,但變慢了(例如從 0 變到 1 的時(shí)間太長(zhǎng),導(dǎo)致時(shí)序違例)。
掃描壓縮 (Scan Compression)
為了降低成本,現(xiàn)代芯片采用了掃描壓縮技術(shù)。核心思想是用極少的外部測(cè)試引腳,驅(qū)動(dòng)內(nèi)部成百上千條掃描鏈并行工作。這能將測(cè)試時(shí)間壓縮數(shù)十倍,直接決定了芯片的生產(chǎn)成本。
3. ATE半導(dǎo)體測(cè)試最昂貴的“判官”
任何關(guān)于芯片測(cè)試的討論都離不開(kāi) ATE (Automatic Test Equipment,自動(dòng)測(cè)試設(shè)備)。這些由 Teradyne(泰瑞達(dá)) 和 Advantest(愛(ài)德萬(wàn)) 等巨頭制造的機(jī)器,單臺(tái)造價(jià)從數(shù)十萬(wàn)到數(shù)百萬(wàn)美元不等。ATE 在做什么?表面上看,ATE 只是負(fù)責(zé)供電、給信號(hào)、讀結(jié)果。但實(shí)際上它是一臺(tái)超高精度的物理儀器:
- 電平控制: 精確控制輸入電壓(例如 0.7V 代表 0,1.2V 代表 1)。
- 時(shí)序控制: 以納秒甚至皮秒級(jí)的精度,定義何時(shí)讀取輸出(Strobe Timing)。
- 參數(shù)測(cè)量: 測(cè)量微安級(jí)的漏電流(Leakage)或納安級(jí)的待機(jī)功耗。
并行測(cè)試 (Multi-site Testing)
在工廠里,時(shí)間就是金錢(qián)。哪怕每顆芯片減少 1 秒的測(cè)試時(shí)間,對(duì)于產(chǎn)量上億的芯片來(lái)說(shuō)也是巨額的利潤(rùn)。因此,工程師的主要目標(biāo)之一就是縮短測(cè)試時(shí)間。最有效的手段是“同測(cè)”——用一臺(tái) ATE 同時(shí)測(cè)試 4、8、16 甚至 32 顆芯片。這雖然讓測(cè)試程序極其復(fù)雜,但能顯著攤薄昂貴的機(jī)臺(tái)成本。
4. 測(cè)試的三大關(guān)卡
芯片測(cè)試并非一次性完成,而是分階段進(jìn)行的“闖關(guān)游戲”。
第一關(guān):晶圓測(cè)試 (Wafer Sort / CP Test)
時(shí)間點(diǎn): 晶圓剛出廠,還沒(méi)被切割。目的: “排雷”。 盡早剔除壞品。因?yàn)楹罄m(xù)的封裝(Packaging)成本很高,把壞的芯片封裝起來(lái)是純粹的浪費(fèi)。在這個(gè)階段,探針卡扎在晶圓上進(jìn)行測(cè)試。CP 測(cè)試通常無(wú)法做到全速或高溫測(cè)試,它更像是一個(gè)初篩,把明顯的壞品打上標(biāo)記(Ink out),不讓它們進(jìn)入下一環(huán)節(jié)。
第二關(guān):封裝測(cè)試 (Final Test / FT)
時(shí)間點(diǎn): 芯片切割并封裝完成后。目的: “終審”。這是最關(guān)鍵的一步。芯片被放入插座(Socket)中,環(huán)境更加穩(wěn)定。
- 全功能驗(yàn)證: 測(cè)試所有邏輯功能。
- 三溫測(cè)試: 在常溫、高溫(如 125°C)和低溫(如 -40°C)下分別測(cè)試,確保芯片在極端環(huán)境下不崩潰。
- 老化測(cè)試 (Burn-in): 這是一個(gè)將芯片置于高溫高壓下長(zhǎng)時(shí)間運(yùn)行的過(guò)程,目的是通過(guò)加速老化,把那些有潛在缺陷、壽命短的“夭折”芯片(Infant Mortality)提前篩選出來(lái),保證出廠產(chǎn)品的可靠性。
第三關(guān):系統(tǒng)級(jí)測(cè)試 (System Level Test / SLT)
時(shí)間點(diǎn): FT 之后,出貨之前。目的: “實(shí)戰(zhàn)演習(xí)”。隨著制程越來(lái)越先進(jìn)(如 5nm, 3nm),芯片內(nèi)部變得極其復(fù)雜,有些缺陷只有在跑真實(shí)操作系統(tǒng)或應(yīng)用時(shí)才會(huì)暴露。SLT 就是把芯片插在一個(gè)類似手機(jī)或電腦主板的測(cè)試板上,真的去啟動(dòng) Android/Windows,跑 3DMark 或特定的業(yè)務(wù)負(fù)載。這是為了攔截那些“ATE 測(cè)不出來(lái),但用戶一用就死機(jī)”的隱蔽缺陷。
5. 生產(chǎn)線上的生存法則
在量產(chǎn)中,測(cè)試流程遵循兩條鐵律:
- SOF (Stop on Failure): 一旦發(fā)現(xiàn)任何錯(cuò)誤,立即停止測(cè)試該芯片。對(duì)于量產(chǎn)來(lái)說(shuō),壞了就是壞了,多測(cè)一秒都是浪費(fèi)。
- 由簡(jiǎn)入繁: 先測(cè)最便宜、最容易失敗的項(xiàng)目(如短路測(cè)試),后測(cè)復(fù)雜昂貴的項(xiàng)目。
典型測(cè)試流程:
- Continuity (連通性): 檢查引腳是否短路或斷路。
- DC Parametric (直流參數(shù)): 測(cè)漏電流、功耗。
- Scan Test (掃描測(cè)試): 用 ATPG 抓邏輯缺陷。
- MBIST (內(nèi)存自測(cè)): 芯片自己測(cè)試內(nèi)部的 SRAM/Cache。
- 補(bǔ)充: 如果發(fā)現(xiàn)內(nèi)存有壞點(diǎn),許多芯片可以通過(guò) Repair (修復(fù)) 機(jī)制,啟用備用的冗余電路來(lái)替代壞點(diǎn),把“壞”芯片修成“好”芯片。
- Trim (修調(diào)): (補(bǔ)充) 對(duì)于模擬電路,通過(guò)燒斷內(nèi)部熔絲(Fuse)來(lái)校準(zhǔn)電壓或頻率。
- Functional (功能測(cè)試): 模擬實(shí)際工作模式。
6. Binning區(qū)分芯片的三六九等
并不是所有通過(guò)測(cè)試的芯片都是一樣的。這就涉及到了 Binning(分級(jí))。
物理分級(jí) (HBIN)
決定了機(jī)械臂把芯片放到哪個(gè)盤(pán)子里。
- Bin 1: 完美良品(特等品)。
- Bin 2: 普通良品。
- Bin 99: 廢品(扔進(jìn)垃圾桶)。
性能分級(jí) (Performance Binning),這是商業(yè)價(jià)值的來(lái)源。
- Speed Binning (速度分級(jí)): 同樣的設(shè)計(jì),有的芯片能跑 3.0GHz,有的只能跑 2.5GHz。前者標(biāo)成 Intel i9 賣高價(jià),后者標(biāo)成 i7 或 i5。這通常是由于制造工藝的微小隨機(jī)差異造成的。
- Functional Binning (功能分級(jí)): 著名的“皮衣刀法”。比如 NVIDIA 的 GPU,如果 100 個(gè)核心里壞了 2 個(gè),廠商不會(huì)扔掉它,而是通過(guò)熔絲把壞的 2 個(gè)核心屏蔽掉,作為次旗艦(如 4080)出售;如果壞了 10 個(gè),就做成 4070。
- Leakage Binning (漏電分級(jí)): 低漏電的芯片發(fā)熱小、省電,常被用于移動(dòng)設(shè)備或標(biāo)為“低功耗版”溢價(jià)出售。
7. 良率 (Yield)決定生死的數(shù)字
良率 = (良品數(shù)量 / 總芯片數(shù)量) × 100%在半導(dǎo)體行業(yè),良率就是一切。對(duì)于月產(chǎn)數(shù)萬(wàn)片晶圓的工廠,98% 和 99% 的良率差異,可能意味著每年數(shù)億美元的利潤(rùn)差距。
D0 (Defect Density) 與芯片面積
良率通常遵循泊松分布模型:其中 D_0 是缺陷密度,A 是芯片面積。這個(gè)公式告訴我們一個(gè)殘酷的事實(shí):芯片做得越大,良率就越難控制。 這就是為什么現(xiàn)在的 AI 芯片(面積巨大)賣得那么貴,以及為什么行業(yè)要轉(zhuǎn)向 Chiplet(小芯片)技術(shù)——把大芯片切碎了做,能顯著提高良率。
零缺陷的博弈
測(cè)試工程師面臨永恒的困境:
- Test Escape (漏測(cè)): 把壞芯片當(dāng)好芯片賣出去了 -> 導(dǎo)致客戶退貨,品牌受損。
- Overkill (誤殺): 把好芯片當(dāng)壞芯片扔掉了 -> 直接損失真金白銀。
優(yōu)秀的測(cè)試策略,就是在這兩者之間尋找最佳的平衡點(diǎn)。
補(bǔ)充知識(shí)JTAG 標(biāo)準(zhǔn)在 DFT 領(lǐng)域,你常會(huì)聽(tīng)到 JTAG (IEEE 1149.1)。這是一個(gè)行業(yè)標(biāo)準(zhǔn)接口,最初就是為了解決電路板級(jí)測(cè)試難題而發(fā)明的。它定義了 TAP 控制器和邊界掃描技術(shù),是實(shí)現(xiàn)上述 DFT 功能的物理基礎(chǔ)之一。
Load Board 與 Probe CardATE 是通用設(shè)備,如何連接特定的芯片?
- Probe Card (探針卡): 用于晶圓測(cè)試,上面有成千上萬(wàn)根比頭發(fā)還細(xì)的探針,直接扎在晶圓的焊盤(pán)上。
- Load Board (負(fù)載板/DIB): 用于封裝后測(cè)試,是一個(gè)巨大的電路板,上面裝有特制的插座(Socket)來(lái)放置芯片。這些硬件接口的設(shè)計(jì)質(zhì)量直接影響測(cè)試的穩(wěn)定性。
KGD (Known Good Die)在 Chiplet 和 2.5D/3D 封裝(如臺(tái)積電 CoWoS)流行的今天,CP 測(cè)試的重要性被拔高了。因?yàn)橐粋€(gè)封裝里可能封裝了 4 顆 HBM 顯存和 1 顆 GPU 核心,只要其中一顆 Die 是壞的,整個(gè)昂貴的封裝就報(bào)廢了。因此,廠商需要 KGD——在晶圓階段就必須 100% 確信這顆 Die 是好的。
半導(dǎo)體測(cè)試不僅僅是“找壞人”,它是芯片制造中定義質(zhì)量、決定成本、劃分等級(jí)的關(guān)鍵環(huán)節(jié)。當(dāng)你下一次看到新聞中提到某款芯片“良率突破”或“頻率提升”,請(qǐng)記住,這背后不僅是制造工藝的進(jìn)步,更是無(wú)數(shù)測(cè)試工程師通過(guò)海量數(shù)據(jù)分析、精密電路設(shè)計(jì)和嚴(yán)苛篩選策略所構(gòu)建的質(zhì)量長(zhǎng)城。是他們決定了一顆沙子提煉出的硅片,究竟是以幾百美元的價(jià)格驅(qū)動(dòng)超級(jí)計(jì)算機(jī),還是作為廢料被丟棄。
聲明:
本號(hào)對(duì)所有原創(chuàng)、轉(zhuǎn)載文章的陳述與觀點(diǎn)均保持中立,推送文章僅供讀者學(xué)習(xí)和交流。文章、圖片等版權(quán)歸原作者享有,如有侵權(quán),聯(lián)系刪除。
-
芯片
+關(guān)注
關(guān)注
463文章
54010瀏覽量
466124 -
晶體管
+關(guān)注
關(guān)注
78文章
10396瀏覽量
147769 -
芯片測(cè)試
+關(guān)注
關(guān)注
6文章
172瀏覽量
21152
發(fā)布評(píng)論請(qǐng)先 登錄
晶體管性能的檢測(cè)
RF功率晶體管耐用性的三個(gè)電氣參數(shù)驗(yàn)證
晶體管晶圓芯片
什么是晶體管 晶體管的分類及主要參數(shù)
晶體管對(duì)于CPU有什么影響
一個(gè)芯片集成多少晶體管
芯片上如何集成晶體管 晶體管的結(jié)構(gòu)特點(diǎn)有哪些
晶體管和芯片的關(guān)系
芯片內(nèi)部晶體管的工作原理
揭秘芯片測(cè)試:如何驗(yàn)證數(shù)十億個(gè)晶體管
評(píng)論