看老女人下面视频,桃色无码视频不卡

（文章來源：機器之心Pro）

2016 年底，谷歌 TPU 團隊的十位核心開發(fā)者中的八位悄悄離職，創(chuàng)辦了一家名為 Groq 的機器學(xué)習(xí)系統(tǒng)公司。在此后的三年里，這家公司一直很低調(diào)。但最近，他們帶著一款名為 TSP 的芯片架構(gòu)出現(xiàn)在公眾視野里。

TSP 的全稱是 Tensor Streaming Processor，專為機器學(xué)習(xí)等 AI 相關(guān)需求打造。該架構(gòu)在單塊芯片上可以實現(xiàn)每秒 1000 萬億（10 的 15 次方）次運算，是全球首個實現(xiàn)該級別性能的架構(gòu)，其浮點運算性能可達(dá)每秒 250 萬億次（TFLOPS）。在摩爾定律走向消亡的背景下，這一架構(gòu)的問世標(biāo)志著芯片之爭從晶體管轉(zhuǎn)向架構(gòu)。

250 TFLOPS 浮點運算性能是什么概念？目前的世界第一超級計算機 Summit，其峰值算力為 200,794.9 TFLOPS，它的背后是 28,000 塊英偉達(dá) Volta GPU。如果 TSP 達(dá)到了類似的效率，僅需 803 塊就可以實現(xiàn)同樣的性能。Groq 在一份白皮書中介紹了這項全新的架構(gòu)設(shè)計。此外，他們還將在于美國丹佛舉辦的第 23 屆國際超算高峰論壇上展示這一成果。

我們?yōu)檫@一行業(yè)和我們的客戶感到興奮，Groq 的聯(lián)合創(chuàng)始人和 CEO Jonathan Ross 表示。頂級 GPU 公司都在宣稱他們有望在未來幾年向用戶交付一款每秒百萬億次運算性能的產(chǎn)品，但 Groq 現(xiàn)在就做到了，而且建立了一個新的性能標(biāo)準(zhǔn)。就低延遲和推理速度而言，Groq 的架構(gòu)比其他任何用于推理的架構(gòu)都要快許多倍。我們與用戶的互動證明了這一點。

Groq 的 TSP 架構(gòu)是專為計算機視覺、機器學(xué)習(xí)和其他 AI 相關(guān)工作負(fù)載的性能要求設(shè)計的。對于一大批需要深度學(xué)習(xí)推理運算的應(yīng)用來說，Groq 的解決方案是非常理想的選擇，Groq 的首席架構(gòu)師 Dennis Abts 表示，但除此之外，Groq 的架構(gòu)還能用于廣泛的工作負(fù)載。它的性能和簡潔性使其成為所有高性能即數(shù)據(jù)和計算密集型工作復(fù)雜的理想平臺。

Groq 的這款架構(gòu)受到軟件優(yōu)先（software first）理念的啟發(fā)。它在 Groq 開發(fā)的 TSP 中實現(xiàn)，為實現(xiàn)計算靈活性和大規(guī)模并行計算提供了一種新的范式，但沒有傳統(tǒng) GPU 和 CPU 架構(gòu)的限制和溝通開銷。在 Groq 的架構(gòu)中，Groq 編譯器負(fù)責(zé)編碼所有內(nèi)容：數(shù)據(jù)流入芯片，并在正確的時間和正確的地點插入，以確保計算實時進行，沒有停頓。執(zhí)行規(guī)劃由軟件負(fù)責(zé)，這樣就可以釋放出原本要用于動態(tài)指令執(zhí)行的寶貴硬件資源。

在傳統(tǒng)的體系架構(gòu)中，將數(shù)據(jù)從 DRAM 移動到處理器需要大量的算力和時間，而且相同工作負(fù)載上的處理性能也是可變的。在典型的工作流中，開發(fā)人員通過反復(fù)運行工作負(fù)載或程序來對其進行配置和測試，以驗證和度量其平均處理性能。由于處理器接收和發(fā)送數(shù)據(jù)的方式不同，這種處理可能會得到略有差別的結(jié)果，而開發(fā)人員的工作就是手動調(diào)整程序以達(dá)到預(yù)定的可靠性級別。

但有了 Groq 的硬件和軟件，編譯器就可以準(zhǔn)確地知道芯片的工作方式以及執(zhí)行每個計算所需的時間。編譯器在正確的時間將數(shù)據(jù)和指令移動到正確的位置，這樣就不會有延遲。到達(dá)硬件的指令流是完全編排好的，使得處理速度更快，而且可預(yù)測。

為了滿足深度學(xué)習(xí)等計算密集型任務(wù)的需求，芯片的設(shè)計似乎正在變得越來越復(fù)雜。但 Groq 認(rèn)為，這種趨勢從根本上就是錯誤的。他們在白皮書中指出，當(dāng)前處理器架構(gòu)的復(fù)雜性已經(jīng)成為阻礙開發(fā)者生產(chǎn)和 AI 應(yīng)用部署的主要障礙。當(dāng)前處理器的復(fù)雜性降低了開發(fā)者工作效率，再加上摩爾定律逐漸變慢，實現(xiàn)更高的計算性能變得越來越困難。

Groq 的芯片設(shè)計降低了傳統(tǒng)硬件開發(fā)的復(fù)雜度，因此開發(fā)者可以更加專注于算法（或解決其他問題），而不是為了硬件調(diào)整自己的解決方案。有了這種更加簡單的硬件設(shè)計，開發(fā)者無需進行剖析研究（profiling），因此可以節(jié)省資源，更容易大規(guī)模部署 AI 應(yīng)用。與基于 CPU、GPU 和 FPGA 的傳統(tǒng)復(fù)雜架構(gòu)相比，Groq 的芯片還簡化了認(rèn)證和部署，使客戶能夠簡單而快速地實現(xiàn)可擴展、單瓦高性能的系統(tǒng)。

Groq 的張量流架構(gòu)可以在任何需要的地方提供算力。與當(dāng)前領(lǐng)先的 GPU、CPU 相比，Groq 處理器的每個晶體管可以實現(xiàn) 3-6 倍的性能提升。這一改進意味著交付性能的提升、延遲的下降以及成本的降低。結(jié)果是，Groq 的架構(gòu)使用起來更加簡單，而且性能高于傳統(tǒng)計算平臺。

（責(zé)任編輯：fqj）

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
463

文章
54063

瀏覽量
466865
谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6254

瀏覽量
111554

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

谷歌全新AI架構(gòu)，單芯片每秒1000萬億次運算

評論

搜索歷史

谷歌全新AI架構(gòu)，單芯片每秒1000萬億次運算

評論

谷歌全新AI架構(gòu)，單芯片每秒1000萬億次運算