淺析流行的LLM推理堆棧和設(shè)置

作者 |?Timothée Lacroix

選擇正確的 LLM 推理?xiàng)Ｒ馕吨x擇適合你的任務(wù)的正確模型，并配以適當(dāng)?shù)耐评泶a在適當(dāng)?shù)?a href="http://www.brongaenegriffin.com/v/tag/1751/" target="_blank">硬件上運(yùn)行。本文介紹了流行的 LLM 推理堆棧和設(shè)置，詳細(xì)說明其推理的成本構(gòu)成；并討論當(dāng)前的開源模型以及如何充分利用它們，同時(shí)還涉及當(dāng)前開源服務(wù)棧中仍然缺失的功能，以及未來模型將解鎖的新功能。

本文源自 Mistral AI 首席技術(shù)官 Timothée Lacroix 的演講。他于 2015 年在 Facebook AI Research 擔(dān)任工程師，于 2016 年至 2019 年間與école des Ponts 合作完成了關(guān)于推薦系統(tǒng)的張量分解的論文。2023 年他成為 Mistral AI 的聯(lián)合創(chuàng)始人。Mistral AI 于近期發(fā)布了業(yè)內(nèi)首個(gè)開源 MoE 大模型 Mixtral-8x7B。

本次演講的很多內(nèi)容都基于我在網(wǎng)上找到的信息或通過對(duì)第一個(gè) LLaMA 版本模型進(jìn)行實(shí)驗(yàn)時(shí)的發(fā)現(xiàn)。我認(rèn)為，現(xiàn)在的 Mistral 更關(guān)注推理成本，而非訓(xùn)練成本。因此，我將分享推理成本的構(gòu)成、吞吐、時(shí)延及其影響因素。

很多人想要部署語言大模型，我將分享如何使用開源工具部署自己的語言大模型。當(dāng)然，你也可以使用一些出色的公共 API，但我對(duì)開源工具更感興趣，所以接下來我將深入討論部署一個(gè) 70 億參數(shù)模型的重要細(xì)節(jié)。我將分享的許多內(nèi)容也同樣適用于更大規(guī)模的模型，但那需要更多 GPU。

影響推理的指標(biāo)

我們將首先討論有哪些重要指標(biāo)，以及這些指標(biāo)的影響因素，包括硬件和軟件層面。接下來，我將介紹一些能夠改善性能的技巧，據(jù)我所知，其中一些技巧還未獲得廣泛實(shí)現(xiàn)。我嘗試在各種不同的硬件上運(yùn)行了一系列模型，并嘗試獲得性能曲線，我認(rèn)為實(shí)例非常重要，所以我將通過這些數(shù)據(jù)得出結(jié)論。

首先，我們?cè)撽P(guān)注哪些指標(biāo)？第一是吞吐量，以每秒查詢數(shù)（Query/second）表示，我們希望在批處理作業(yè)中將這一指標(biāo)最大化，或者希望允許更多用戶使用我們的服務(wù)。第二是時(shí)延，以每詞元每秒（seconds/token）表示，即輸出下一個(gè)詞元所需的時(shí)間，這決定了你的應(yīng)用程序的速度和靈敏度。在 ChatGPT 中，這一速度相當(dāng)快。對(duì)于較小的模型，可以更輕松地實(shí)現(xiàn)快速響應(yīng)，因此我們希望將這個(gè)值最小化以提升用戶體驗(yàn)。較為優(yōu)秀的閾值是每分鐘輸出 250 個(gè)單詞，我認(rèn)為這是人類的平均閱讀速度，只要你的時(shí)延低于這個(gè)值，用戶就不會(huì)感到無聊。第三是成本，毫無疑問，這一數(shù)值越低越好。

影響推理指標(biāo)的因素

現(xiàn)在我將深入探討這些指標(biāo)的影響因素。我只會(huì)談?wù)撟曰貧w解碼，即基于一批批詞元通過神經(jīng)網(wǎng)絡(luò)確定下一批詞元，這部分不包括處理查詢的第一部分。提示處理有時(shí)被稱為預(yù)填充（prefill）部分，我們會(huì)一次性將大量詞元輸入到神經(jīng)網(wǎng)絡(luò)中，這部分處理通常已經(jīng)經(jīng)過充分優(yōu)化，挑戰(zhàn)性相對(duì)較低。

考慮到這一點(diǎn)，我們對(duì)大小為 P 的模型的推理感興趣?？梢约僭O(shè) P 是 7B，為執(zhí)行一步推理，大約需要 2xPxBatch_size 的 FLOPs（浮點(diǎn)運(yùn)算數(shù)）。在進(jìn)行這些浮點(diǎn)運(yùn)算時(shí)，我們需要將整個(gè)模型加載到實(shí)際運(yùn)行計(jì)算的 GPU，并且需要一次性加載整個(gè)模型，即大致上需要的內(nèi)存搬運(yùn)（memory movement）量等于模型的參數(shù)數(shù)量。

這兩個(gè)數(shù)量有趣的地方在于，第一個(gè)數(shù)量受硬件浮點(diǎn)運(yùn)算能力的限制，即 GPU 可以實(shí)現(xiàn)的浮點(diǎn)運(yùn)算次數(shù)，并且與批大小呈線性關(guān)系，在上述圖表上呈增長趨勢。除非批大小特別大，內(nèi)存移動(dòng)量并不隨批大小而變化。但正如我所說，這種情況已經(jīng)得到了相當(dāng)程度的優(yōu)化，所以我們并不太關(guān)心內(nèi)存移動(dòng)量。我們還有一個(gè)常量，即模型大小除以內(nèi)存帶寬，這是一次性加載整個(gè)模型所需的最短時(shí)間，每次都需要重新執(zhí)行這個(gè)操作。

還有一個(gè)與批次大小有關(guān)的數(shù)量，它們?cè)谝粋€(gè)有趣的點(diǎn)上相交。這個(gè)點(diǎn)不取決于硬件之外的任何因素。舉例來說，在 A10G 和 A100 上，硬件可以實(shí)現(xiàn)的總浮點(diǎn)運(yùn)算次數(shù)的兩倍除以內(nèi)存帶寬為 400。

B*這個(gè)批大小非常有趣，因?yàn)榈陀谶@一批大小，基本上是在浪費(fèi) FLOPs，因?yàn)橛?jì)算受到了內(nèi)存限制，我們?cè)诘却?GPU 加載數(shù)據(jù)，而計(jì)算速度太快，圖中某部分的時(shí)延是恒定的。如果超過這個(gè) B*這個(gè)閾值，時(shí)延就會(huì)開始增加，就變成了計(jì)算受限。

因此，B* 的真正優(yōu)勢在于，這個(gè)批大小的時(shí)延范圍是最優(yōu)的，因此用戶體驗(yàn)是最佳的，同時(shí)也沒有浪費(fèi)任何 FLOPs。

不管怎樣，我們理想的批大小 B* 是 400，這個(gè)值似乎相當(dāng)大，所以我們來計(jì)算一下 LLaMA 等模型規(guī)模的幾項(xiàng)指標(biāo)。LLaMA 模型有 4K 個(gè)維度，深度 32 層，模型大小很容易計(jì)算，在 FP16 中每個(gè)模型權(quán)重占兩個(gè)字節(jié)，所以只需 2x7=14GB 內(nèi)存。

然后，我們用 KV 緩存存儲(chǔ)計(jì)算結(jié)果，這樣當(dāng)我們重新編碼一個(gè)新詞元時(shí)，就不必重新從頭計(jì)算。KV 緩存的大小為 2，包括 K 緩存和 V 緩存，且使用 FP16 格式，每個(gè)都乘以 2，然后每層有一個(gè) KV 緩存，并且必須為批次中的每個(gè)元素保存數(shù)據(jù)，每個(gè)位置在序列中表示一個(gè)詞元，然后乘以維度。

把實(shí)際數(shù)值代入這個(gè)公式發(fā)現(xiàn)，每個(gè)批次元素需要約 2G 內(nèi)存才能支持最大長度 4K，因此，在 A10（24GB 內(nèi)存）上，我們的最大批大小約為 5，在更大的 A100（80GB 內(nèi)存）上，最大批大小只有 33 左右，這仍遠(yuǎn)低于理想值 400。

因此，對(duì)于所有實(shí)際用例，使用 70 億參數(shù)的模型進(jìn)行推理時(shí)，解碼過程將嚴(yán)重受限于內(nèi)存帶寬。這也證明了 Mistral 從一開始就非常謹(jǐn)慎的一點(diǎn)：模型和 KV 緩存所占內(nèi)存的大小確實(shí)影響了可允許的最大批大小，而最大批大小直接決定了效率的高低。

實(shí)用技巧

現(xiàn)在我將深入討論一些已經(jīng)存在但我個(gè)人很喜歡的技巧。其中一部分已經(jīng)為 Mistral 所用，其他一些尚未在 Mistral 中得到應(yīng)用，還有些則更多地涉及軟件部署層面。

分組查詢注意力

第一個(gè)技巧是分組查詢注意力。分組查詢注意力是通過每個(gè)查詢使用更少的鍵和值來減少 KV 緩存的方法。這在 LLaMA 2 中使用過，但只用于較大的模型尺寸，而非 70 億參數(shù)模型。在標(biāo)準(zhǔn)的多頭注意力中，有多少查詢，就有多少鍵和值。而在分組查詢注意力中，一對(duì)鍵值與一組查詢相關(guān)聯(lián)。在 Mistral，我們的每個(gè)鍵和值使用四個(gè)查詢，因此要執(zhí)行的浮點(diǎn)運(yùn)算量將保持不變，但內(nèi)存開銷只有原來的四分之一。這是一個(gè)簡單的技巧，不會(huì)對(duì)性能造成實(shí)質(zhì)性損害，這一做法很不錯(cuò)。

量化

第二個(gè)技巧是量化，對(duì)此我們并沒有進(jìn)行專門研究，但尤其在 LLaMA 發(fā)布后，這項(xiàng)技術(shù)發(fā)展得非常迅速。很多優(yōu)秀的現(xiàn)成解決方案為許多開源社區(qū)的人所使用，提供了模型的 int8 或 int4 版本。使用 int8 時(shí)，模型尺寸會(huì)減半，在使用 int4 時(shí)，會(huì)減少至四分之一。

這不會(huì)改變最優(yōu)批大小，因?yàn)檫@一比率只取決于硬件，與其他因素?zé)o關(guān)。就計(jì)算速度而言，量化后的速度為原來的兩倍，但我們發(fā)現(xiàn)，對(duì)于 Mistral 模型規(guī)模以及其他模型，很難達(dá)到這個(gè)速度，如果以純浮點(diǎn)運(yùn)算量衡量，1.5 倍的速度更為合理。使用 int8 還會(huì)機(jī)械地增加 KV 緩存的可用內(nèi)存。

因此，如果你處于內(nèi)存受限的狀態(tài)，一切操作都會(huì)快兩倍，這很不錯(cuò)。另一個(gè)好處是，int8 幾乎沒有或者只有極小的精度損失，而在 int4 下會(huì)有一些性能損失，但似乎可以通過 QLoRA 來恢復(fù)，或者如果你只關(guān)心特定用例，那么我認(rèn)為這也可以正常運(yùn)作，且 serving 成本會(huì)低得多。

分頁注意力（Paged Attention）

第三個(gè)技巧是分頁注意力，由來自伯克利的 vLLM 專家提出。沒有分頁注意力的 KV 緩存是矩形的，需要分配一個(gè)大矩形內(nèi)存，其中一個(gè)維度是批大小，即模型一次可以處理的最大序列數(shù)，另一個(gè)維度是，允許用戶使用的最大序列長度。當(dāng)一個(gè)新序列進(jìn)來時(shí)，會(huì)為這個(gè)用戶分配一整行內(nèi)存，但這并不理想，因?yàn)橛脩糁泻芸赡苤挥?10% 會(huì)使用整行內(nèi)存，而大多數(shù)用戶可能只會(huì)發(fā)起短請(qǐng)求。因此，這最終會(huì)浪費(fèi)硬件內(nèi)存中的大量寶貴空間。

分頁注意力的作用是在 GPU 內(nèi)存中分配塊（block）。首先，加載模型以了解剩余空間大小，然后用內(nèi)存塊填充剩余部分。這些塊可以容納多達(dá) 16 到 32 個(gè)詞元，當(dāng)新序列到來時(shí)，就可以為 prompt 分配所需的內(nèi)存塊，然后根據(jù)需要逐漸擴(kuò)展。

在上述示意圖中，可以看到序列并不一定分配在連續(xù)的內(nèi)存塊上，例如橙色、藍(lán)色或綠色并不在連續(xù)的塊上，這并不重要。這種方式能夠更精細(xì)地控制內(nèi)存分配，因此在示意圖中，右側(cè)完全空閑的部分可以用于新來的序列，一旦序列解碼完成，就可以釋放已使用的塊，非常高效。分頁注意力的提出者稱，與標(biāo)準(zhǔn)的實(shí)現(xiàn)方法相比，分頁注意力可以增加約 20 倍的吞吐量，這聽起來并不是那么遙不可及。

滑動(dòng)窗口注意力（Sliding Window Attention）

我們?cè)?Mistral 中添加了一個(gè)技巧，即滑動(dòng)窗口注意力。通過這個(gè)技巧，我們可以訓(xùn)練模型在緩存中僅使用過去的 K 個(gè)詞元。這樣做的好處在于，我們可以使用一個(gè)固定的緩存大小。

眾所周知，一個(gè)序列一旦超過滑動(dòng)窗口的詞元數(shù)量，我們就可以在緩存中循環(huán)覆寫，從而重新開始，而這不會(huì)影響模型性能。

進(jìn)一步來說，通過這個(gè)技巧，我們可以使用比滑動(dòng)窗口更大的長下文長度。我們?cè)诓┛臀恼禄?GitHub 上對(duì)此進(jìn)行了簡要描述。

對(duì)于這個(gè)技巧的良好實(shí)現(xiàn)是將 KV 緩存看作是一個(gè)循環(huán)緩沖區(qū)。在上圖中的 t 時(shí)刻，我們?cè)诰彺娴淖詈笪恢貌迦?；?t+1 時(shí)刻，由于序列超出了滑動(dòng)窗口，所以只進(jìn)行了覆寫操作。這種實(shí)現(xiàn)非常簡單，因?yàn)榫彺嬷械奈恢貌⒉恢匾信c位置相關(guān)的信息都通過位置嵌入進(jìn)行編碼?？傊@種方法兼具易可實(shí)現(xiàn)性和有效性。

連續(xù)批處理（Continuous Batching）

還有一個(gè)技巧是連續(xù)批處理。正如我在前面提到的，預(yù)填充階段同時(shí)處理的詞元數(shù)量要比解碼階段多得多。因此，我們可以嘗試將這些詞元與解碼詞元一起進(jìn)行批處理。我在 vLLM 和 TGI 中都注意到了同一個(gè)問題，即它們沒有嘗試對(duì)預(yù)填充階段進(jìn)行分塊處理。如果一個(gè)用戶向模型發(fā)送一個(gè)包含 4K 詞元的提示，這將增加所有用戶的時(shí)延，因?yàn)槲覀冃枰ㄙM(fèi)大量時(shí)間一次性處理這些詞元。

這其實(shí)是一種浪費(fèi)，因?yàn)檫@時(shí)模型就不再處于既能實(shí)現(xiàn)低時(shí)延，又能充分利用計(jì)算資源的最佳狀態(tài)。因此，我建議在這些軟件中對(duì)預(yù)填充進(jìn)行分塊處理，這樣我們一次只處理 K 個(gè)詞元。這種方法能夠更加精細(xì)地分配資源，并且能夠更好地對(duì)解碼和預(yù)填充進(jìn)行批處理。

代碼

最后一種技巧是代碼。在處理這些規(guī)模的模型時(shí)，代碼性能非常重要。通常，我們可以觀察到 Python 代碼的開銷很大。雖然我沒有詳細(xì)分析過 vLLM 和 TGI 的性能，但它們運(yùn)行的是 Python 代碼，根據(jù)經(jīng)驗(yàn)，在這些規(guī)模下通常會(huì)存在一定的額外開銷。我們可以采取一些方法，在不影響 Python 大部分優(yōu)點(diǎn)的前提下緩解這一問題。

xFormers 庫就是一個(gè)很好的示例，它使用 CUDA 圖實(shí)現(xiàn)了零開銷。NVIDIA 的 TensorRT 可以通過追蹤推理并利用模式匹配來自動(dòng)提高性能。此外，我們還可以使用自定義內(nèi)核（如融合）來減少內(nèi)存帶寬，這樣可以避免在內(nèi)存中來回移動(dòng)數(shù)據(jù)。在數(shù)據(jù)已加載的情況下，我們可以執(zhí)行激活等操作，通?？梢哉业郊せ詈瘮?shù)等優(yōu)化技巧，然后輕松地將它們插入到代碼中。

總之，驅(qū)動(dòng)這些性能指標(biāo)的因素主要是硬件中的固定浮點(diǎn)運(yùn)算與內(nèi)存帶寬之間的比率。這給出了最小批大小 B*，以充分利用硬件資源，避免浪費(fèi)不必要的浮點(diǎn)運(yùn)算。這個(gè)大小主要由硬件決定，不太受模型影響，除非你使用了 Transformer 之外的非傳統(tǒng)架構(gòu)。由于設(shè)備的內(nèi)存有限，因此要達(dá)到最佳批大小并不容易。

我檢查了兩個(gè)用于部署模型的開源庫，它們?nèi)栽谶\(yùn)行 Python 代碼，在這一規(guī)模下，模型會(huì)產(chǎn)生很多額外開銷。我還研究了 Faster Transformer 項(xiàng)目，它沒有額外開銷，但部署起來會(huì)比較困難。上述信息主要來自博文《語言大模型的推理演算》。

不同配置下的吞吐、時(shí)延與成本

現(xiàn)在讓我們談?wù)勍掏铝?- 時(shí)延平面圖，這通常是我評(píng)判這些指標(biāo)的方式。在這個(gè)平面中，x 軸表示時(shí)延，y 軸表示吞吐量，我們主要關(guān)注上方和左方，即更好的吞吐量和更低的時(shí)延。

如果購買更好的硬件，會(huì)改變這一吞吐量 - 時(shí)延性能曲線。對(duì)于固定硬件，左下角區(qū)域是固定時(shí)延，即內(nèi)存受限區(qū)域。隨著批大小增加，系統(tǒng)從內(nèi)存受限區(qū)域轉(zhuǎn)變?yōu)橛?jì)算受限區(qū)域。如果購買更先進(jìn)的硬件，成本會(huì)更高，但吞吐量 - 時(shí)延上的所有曲線會(huì)整體向左上方移動(dòng)。

改進(jìn)代碼或采用更好的模型會(huì)在低時(shí)延區(qū)域產(chǎn)生顯著影響，增加吞吐量，這對(duì)大型批大小的影響較小，因?yàn)檫@時(shí)候優(yōu)化已經(jīng)相對(duì)容易。

下面是一些性能測試結(jié)果及免責(zé)聲明，這個(gè)測試是我在短時(shí)間內(nèi)完成的，因?yàn)槭褂?Mistral 和 LLaMA 等配置工具比較容易，我運(yùn)行了 vLLM 基準(zhǔn)測試腳本。我不確定這些結(jié)果是否是我能取得的最佳結(jié)果，但至少整體方向是正確的，下面是我復(fù)制粘貼過來的 Matplotlib 圖，以供參考。

上圖是 Mistral 和 LLaMA 的性能比較。圖中黑線表示人類的閱讀速度。

上圖是在同一模型中，A10 和 H100 這兩種硬件之間的比較。可以看到，盡管 H100 價(jià)格更高，但由于其卓越的性能，更換硬件是一種更明智的選擇，而不是繼續(xù)使用老硬件。

總的來說，使用開源代碼在小型實(shí)例上部署小型模型非常容易，無需任何額外操作就能取得良好的運(yùn)行效果。僅需約 15 美元 / 天（并不算太高的費(fèi)用），我們就可以在 A10 上使用 Mistral-7B 模型處理上百萬個(gè)請(qǐng)求。改變模型精度可能使服務(wù)的請(qǐng)求數(shù)量翻倍。

開源部署解決方案在易用性方面表現(xiàn)出色，我認(rèn)為在實(shí)際的模型代碼部分還有很多工作要做。此外我認(rèn)為，未來模型的速度會(huì)越來越快。

答聽眾問問題 1：如何選擇用于特定模型的最佳處理器？

Timothe?e Lacroix : 我還沒有測試過專用的 AI 硬件，主要測試過一系列 GPU。我甚至還沒有在 MacBook 上運(yùn)行過模型，因?yàn)槟壳皼]有找到合適的用途，但后續(xù)我可能會(huì)嘗試。對(duì)于用戶而言，如果只是想與模型聊天，直接在 MacBook 上運(yùn)行更經(jīng)濟(jì)。當(dāng)每天需要處理的請(qǐng)求達(dá)到一百萬次時(shí)，使用 A10 會(huì)非常劃算，相當(dāng)于每天 15 美元的費(fèi)用，如果用戶能夠負(fù)擔(dān)這一費(fèi)用，那么我建議選擇 A10 處理器，它易于部署，而且效果很好。

關(guān)于選擇何種規(guī)模的硬件，由于硬件在任何地方都很容易部署，我們可以從最便宜的硬件開始，如果沒有達(dá)到所需的吞吐量或速度，再考慮升級(jí)。

我曾提到，在考慮成本的情況下，相比使用一堆 A10 處理器，H100 是更明智的選擇。然而，我們也經(jīng)常面臨可用性問題。因此，我建議按照處理器的成本和可用性順序逐個(gè)嘗試。如果你嘗試使用這些處理器大約 20 分鐘，這樣做的成本相對(duì)較低，并且這大致是運(yùn)行基準(zhǔn)測試所需的最長時(shí)間。通過這種方式，你可以在短時(shí)間內(nèi)獲得特定用例的準(zhǔn)確成本和性能數(shù)據(jù)，從而更好地選擇適合自己需求的處理器。

問題 2: 是否推薦使用 Mojo 來減少 Python 開銷？你是否嘗試過使用 Mojo？

Timothe?e Lacroix：完全沒有。我首次嘗試減少開銷是通過使用 CUDA 圖，雖然在調(diào)試過程中有一些困難，但隨著時(shí)間推移，情況已經(jīng)好轉(zhuǎn)了，XFormers 就是一個(gè)很好的例子。在未來，torch.compile 也許能有效降低 Python 開銷，但我不清楚它們?cè)谔幚砜勺冃蛄虚L度等方面的進(jìn)展如何?？傊?，我非常推薦 CUDA 圖，這是我目前降低開銷的首選方法。

問題 3：如果我們想要 LLM 具備多語理解能力，但目前數(shù)據(jù)集主要是英文，相比起來，使用非英文數(shù)據(jù)進(jìn)行微調(diào)的效果并不理想，對(duì)于這種情況，最有效的策略是什么？

Timothe?e Lacroix：LLM 的一切能力都源自數(shù)據(jù)，所以我們首先需要獲取目標(biāo)語言數(shù)據(jù)。所有 LLM 都是在維基百科上訓(xùn)練的，這為模型掌握多語能力打下了良好基礎(chǔ)，這也解釋了為何模型可以在未經(jīng)特別訓(xùn)練的情況下理解一些法語。我認(rèn)為，讓模型掌握多語能力存在一種權(quán)衡，例如，如果模型在法語方面取得了進(jìn)步，就會(huì)略微損失其他語言能力，但這種損失并不明顯，是可以接受的，因?yàn)檎w而言，在其他語言上的性能提升可能更為顯著。

OneDiff 是一個(gè)開箱即用的圖片 / 視頻生成推理引擎。開源版最新功能：1. 切換圖片尺寸無需重新編譯（即沒有時(shí)間消耗）；2. 更快地保存和加載圖；3. 更小的靜態(tài)內(nèi)存。
?

審核編輯：黃飛

閱讀全文

神經(jīng)網(wǎng)絡(luò)(98386) 神經(jīng)網(wǎng)絡(luò)(98386)
gpu(126255) gpu(126255)
AI(263628) AI(263628)
大模型(810) 大模型(810)
LLM(229) LLM(229)

評(píng)論

相關(guān)推薦

對(duì)比解碼在LLM上的應(yīng)用

為了改進(jìn)LLM的推理能力，University of California聯(lián)合Meta AI實(shí)驗(yàn)室提出將Contrastive Decoding應(yīng)用于多種任務(wù)的LLM方法。實(shí)驗(yàn)表明，所提方法能有效改進(jìn)LLM的推理能力。讓我們走進(jìn)論文一探究竟吧！

2023-09-21 11:37:55

327

低比特量化技術(shù)如何幫助LLM提升性能

針對(duì)大語言模型 (LLM) 在部署過程中的性能需求，低比特量化技術(shù)一直是優(yōu)化效果最佳的方案之一，本文將探討低比特量化技術(shù)如何幫助 LLM 提升性能，以及新版 OpenVINO 對(duì)于低比特量化技術(shù)的支持。

2023-12-08 15:26:45

554

使用基于Transformers的API在CPU上實(shí)現(xiàn)LLM高效推理

英特爾 Extension for Transformers是英特爾推出的一個(gè)創(chuàng)新工具包，可基于英特爾架構(gòu)平臺(tái)，尤其是第四代英特爾至強(qiáng) 可擴(kuò)展處理器（代號(hào) SapphireRapids，SPR）顯著加速基于Transformers的大語言模型( LargeLanguageModel,LLM)。

2024-01-22 11:11:06

1823

用Chiplet解決ASIC在LLM上的成本問題

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）雖說最近靠著GPT大語言模型的熱度，英偉達(dá)之類的主流GPU公司賺得盆滿缽滿，但要說仗著GPU的高性能就能高枕無憂的話，也就未免有些癡人說夢(mèng)了。未來隨著LLM的繼續(xù)發(fā)展

2023-07-18 00:15:00

889

LLM3225

LLM3225 - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R15H

LLM3225-R15H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R18H

LLM3225-R18H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R33H

LLM3225-R33H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R56H

LLM3225-R56H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R68H

LLM3225-R68H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

淺析STM32之printf重定向

2021-12-02 06:19:33

淺析uCosII

2012-08-20 13:26:55

Arm Neoverse V1的AWS Graviton3在深度學(xué)習(xí)推理工作負(fù)載方面的作用

機(jī)器學(xué)習(xí) (ML) 是云和邊緣基礎(chǔ)設(shè)施中增長最快的部分之一。在 ML 中，深度學(xué)習(xí)推理預(yù)計(jì)會(huì)增長得更快。在本博客中，我們比較了三種 Amazon Web Services (AWS) EC2 云實(shí)例

2022-08-31 15:03:46

C++演示中的推理速度比Python演示中的推理速度更快是為什么？

在同一主機(jī)機(jī)上采用相同型號(hào)的 Ran Object Detection C++ 演示和對(duì)象檢測 Python 演示。 C++ 演示中的推理速度比 Python 演示中的推理速度更快。

2023-08-15 06:52:29

HarmonyOS：使用MindSpore Lite引擎進(jìn)行模型推理

); OH_AI_ContextSetThreadAffinityMode(context, 1); //設(shè)置運(yùn)行設(shè)備為CPU，不使用Float16推理 OH_AI_DeviceInfoHandle cpu_device_info

2023-12-14 11:41:13

MCU堆棧的大小是多少

的工程師就比較關(guān)心堆棧的大小。對(duì)于小項(xiàng)目而言，可能我們不用關(guān)心堆棧大小。但是，如果項(xiàng)目大了，你就要注意了，你堆棧大小設(shè)置不合理，很有可能導(dǎo)致Fault。想要知道...

2021-11-03 09:14:20

STM32WB5MMG上無線堆棧的起始地址可以設(shè)置成什么呢

選項(xiàng) -firstinstall=0 時(shí)由 STM32CubeProgrammer 執(zhí)行的）我看到新圖像是 167 KB，從日志中，我認(rèn)為當(dāng)前堆棧可能是 8192 字節(jié)，但我仍然不清楚將什么設(shè)置為起始地址。

2022-12-08 06:02:53

ucosIII任務(wù)堆棧如何設(shè)置？

在整個(gè)工程中，有一個(gè)任務(wù)是用來刷新圖片及顯示實(shí)時(shí)信息的；在調(diào)試過程中發(fā)現(xiàn)運(yùn)行到該任務(wù)就會(huì)死機(jī)，于是更改了對(duì)應(yīng)的堆棧大小，發(fā)現(xiàn)了如下問題。。。求解答！設(shè)置顯示任務(wù)堆棧深度為512，運(yùn)行正常

2020-05-22 01:04:45

使用rk3588多npu推理模型，模型總推理時(shí)間還增加了，這怎么解釋

2023-11-05 18:22:42

壓縮模型會(huì)加速推理嗎？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 將簡單的 CNN 導(dǎo)入到 STM32L462RCT我發(fā)現(xiàn)壓縮模型對(duì)推理時(shí)間沒有影響。aiRun 程序在 8

2023-01-29 06:24:08

基于SRAM的方法可以加速AI推理

基于SRAM的方法可加速AI推理

2020-12-30 07:28:28

如何設(shè)置堆棧指針和清理BSS段

嵌入式ARM開發(fā)環(huán)境下，設(shè)置堆棧指針和清理BSS段的意義

2021-02-04 06:26:21

如何設(shè)置UCOS堆棧大小？

各位大神，本人小白。問下各位，UCOS中我在一個(gè)任務(wù)中聲明了一個(gè)局部變量字符指針，在任務(wù)中這個(gè)字符指針指向了很長的字符串，那么這個(gè)任務(wù)的堆棧大小是不是要設(shè)置的很大，必須超過字符串的長度，還是堆棧只是存儲(chǔ)指針，而不是存儲(chǔ)整個(gè)字符串？

2019-10-11 03:06:49

如何設(shè)置ucosii堆棧？

）呢？入棧的時(shí)候不是先壓入數(shù)據(jù)然后在移動(dòng)棧頂指針嗎？我設(shè)置堆棧棧頂為FLOAT_STK_SIZE編譯器也沒有警告也沒報(bào)錯(cuò)。大神們求教一下這是怎么回事呢？

2019-10-30 02:20:02

如何設(shè)置應(yīng)用任務(wù)的堆棧大??？

基于RTOS的應(yīng)用中，每個(gè)任務(wù)都擁有自己的堆棧空間。堆棧設(shè)置過大，會(huì)造成內(nèi)存資源浪費(fèi)；設(shè)置過小，可能導(dǎo)致運(yùn)行過程中的任務(wù)棧溢出，從而導(dǎo)致一些奇怪的系統(tǒng)行為。事實(shí)上，當(dāng)應(yīng)用程序行為“奇怪”時(shí)，我們首先

2022-06-08 15:11:16

如何為PSoC6器件設(shè)置堆棧和堆？

也許我錯(cuò)過了什么：以前的堆棧和堆大小可以在系統(tǒng)視圖中設(shè)置?，F(xiàn)在這些設(shè)置在哪里？鮑勃以上來自于百度翻譯以下為原文Probably I missed something:Formerly

2018-11-21 17:10:10

怎樣去設(shè)置堆棧空間的大小

1. 設(shè)置堆棧空間大小在使用STM32編程時(shí)，一般情況下我們不會(huì)關(guān)注堆棧空間的大小，因?yàn)樵赟TM32的啟動(dòng)文件中，已經(jīng)幫我們預(yù)先設(shè)置好了堆棧空間的大小。如下圖所示的啟動(dòng)代碼中，Stack棧的大小為

2021-08-04 09:14:20

怎樣去設(shè)置STM32堆棧空間的大小呢

怎樣去設(shè)置STM32堆棧空間的大小呢？STM32有哪幾種調(diào)節(jié)堆棧空間大小的方式？

2021-10-21 07:33:50

瑞薩開發(fā)環(huán)境CS+堆棧怎么設(shè)置啊

這次電賽要用瑞薩的芯片第一次用瑞薩的開發(fā)環(huán)境請(qǐng)問CS+怎么進(jìn)行堆棧設(shè)置

2015-08-10 15:33:33

詳解μC/OS-II如何檢測任務(wù)堆棧實(shí)際使用情況——即如何設(shè)置ucosii任務(wù)堆棧大小

OSUsed; // 堆棧中已使用的字節(jié)數(shù)4、有了上述三個(gè)知識(shí)點(diǎn)后就可以啦，具體方法為：（1）將函數(shù)的最后一個(gè)參數(shù)opt 設(shè)置為：OS_TASK_OPT_STK_CHK

2015-09-23 17:00:40

請(qǐng)問堆棧指針設(shè)置在哪些地址處好？

如題，堆棧指針的增長方向向哪？請(qǐng)能人詳解堆棧指針的設(shè)置、、、、謝謝

2019-07-05 05:45:01

請(qǐng)問f28m35 M3堆棧大小如何設(shè)置？

上圖中// the initial stack pointer 這里是不是要寫進(jìn)堆棧的棧頂0x20004900？然后堆棧大小由下圖設(shè)置？

2018-10-31 15:10:45

請(qǐng)問一下rknn多圖推理參數(shù)該怎樣去設(shè)置呢

rknn多圖推理參數(shù)設(shè)置然后進(jìn)行推理，推理的結(jié)果會(huì)把三張圖片的結(jié)果合并在一個(gè)list中，需要我們自己將其分割開：最終其結(jié)果和單張推理的結(jié)果是相同的

2022-07-22 15:38:02

請(qǐng)問如何設(shè)置任務(wù)堆棧的大?。?/a>

本人系統(tǒng)小白，麻煩哪個(gè)大佬給解釋下，如何設(shè)置一個(gè)任務(wù)的堆棧的大??？謝謝！

2020-07-15 08:03:20

貝葉斯網(wǎng)絡(luò)精確推理算法的研究

貝葉斯網(wǎng)絡(luò)是以概率理論為基礎(chǔ)的不確定知識(shí)表示模型，貝葉斯網(wǎng)絡(luò)推理的目的是得到隨機(jī)變量的概率分布。目前，最流行的推理算法是聯(lián)合樹算法，它的主要思想是將貝葉斯網(wǎng)絡(luò)

2009-08-15 09:34:16

HT MCU 軟件堆棧的應(yīng)用

HT MCU 軟件堆棧的應(yīng)用介紹：對(duì)于 Holtek 八位元單片機(jī)來說，堆棧資源往往是有限的。例如，HT48R10A-1 就只有兩級(jí)堆棧。本文將介紹如何利用軟件堆棧來解決這一問題。軟件堆棧是用通

2010-03-26 08:33:31

堆棧以及堆和棧的區(qū)別

堆棧：堆棧是一個(gè)"后進(jìn)先出"的主存區(qū)域，位于堆棧段中，使用SS段寄存器記錄其段地址。它只有一個(gè)出入口，即當(dāng)前棧頂，棧頂是地址較小的一端（低端），它用堆棧指針寄存器

2010-06-30 11:06:13

1703

堆棧指針是什么_有什么作用

堆棧指針總是指向棧頂位置。一般堆棧的棧底不能動(dòng)，所以數(shù)據(jù)入棧前要先修改堆棧指針，使它指向新的空余空間然后再把數(shù)據(jù)存進(jìn)去，出棧的時(shí)候相反。堆棧指針，隨時(shí)跟蹤棧頂?shù)刂?，按“先進(jìn)后出”的原則存取數(shù)據(jù)。

2017-11-10 11:01:07

9458

堆棧指針sp的內(nèi)容是什么

堆棧是一塊保存數(shù)據(jù)的連續(xù)內(nèi)存。一個(gè)名為堆棧指針（SP）的寄存器指向堆棧的頂部。堆棧的底部在一個(gè)固定的地址。堆棧的大小在運(yùn)行時(shí)由內(nèi)核動(dòng)態(tài)地調(diào)整。 CPU實(shí)現(xiàn)指令 PUSH和POP，向堆棧中添加

2017-11-13 09:04:07

32892

堆棧溢出怎么解決方式

　堆棧是一個(gè)在計(jì)算機(jī)科學(xué)中經(jīng)常使用的抽象數(shù)據(jù)類型。堆棧中的物體具有一個(gè)特性：最后一個(gè)放入堆棧中的物體總是被最先拿出來，這個(gè)特性通常稱為后進(jìn)先出（LIFO）隊(duì)列。堆棧中定義了一些操作。兩個(gè)最重

2017-11-28 11:16:53

27365

片內(nèi)RAM中堆棧的原理和作用解讀

堆棧區(qū)由特殊功能寄存器堆棧指針SP管理堆棧區(qū)可以安排在 RAM區(qū)任意位置，一般不安排在工作寄存器區(qū)和可按位尋址的RAM區(qū)，通常放在RAM區(qū)的靠后的位置。

2017-12-09 11:25:06

13257

C語言及ARM中堆棧指針SP設(shè)置的理解與總結(jié)

開始將堆棧指針設(shè)置在內(nèi)部RAM，是因?yàn)椴皇敲總€(gè)板上都有外部RAM，而且外部RAM的大小也不相同，而且如果是SDRAM，還需要初始化，在內(nèi)部RAM開始運(yùn)行的一般是一個(gè)小的引導(dǎo)程序，基本上不怎么使用堆棧，因此將堆棧設(shè)置在內(nèi)部RAM,但這也就要去改引導(dǎo)程序不能隨意使用大量局部變量。

2018-04-06 19:46:00

8833

學(xué)會(huì)Linux0.11-系統(tǒng)中堆棧的使用方法

當(dāng)bootsect代碼被ROM BIOS引導(dǎo)加載到物理內(nèi)存0x7c00處時(shí)，并沒有設(shè)置堆棧段，程序也沒有使用堆棧，直到bootsect被移動(dòng)到0x9000:0處時(shí)，才把堆棧段寄存器SS設(shè)置

2019-05-15 14:46:08

676

51單片機(jī)堆棧的詳細(xì)分析和實(shí)例講解

1.堆棧的溢出問題。MCS51系列單片機(jī)將堆棧設(shè)置在片內(nèi)RAM中，由于片內(nèi)RAM資源有限，堆棧區(qū)的范圍也是有限的。堆棧區(qū)留得太大，會(huì)減少其他數(shù)據(jù)的存放空間，留得太少則很容易溢出。所謂堆棧溢出，是指在

2019-09-12 17:23:00

單片機(jī)堆棧的基本原理解析

堆棧指針指向最后壓入堆棧的有效數(shù)據(jù)項(xiàng)，稱為滿堆棧；堆棧指向下一個(gè)要放入的空位置，稱為空堆棧；有四種類型的堆棧表示遞增和遞減的滿堆棧和空堆棧的各種組合。

2020-01-02 15:48:46

4094

深入分析MCU堆棧的作用以及該如何設(shè)置堆棧大小

深入分析MCU堆棧的作用，以及該如何設(shè)置堆棧大小

2020-03-01 14:13:39

4449

英特爾推出了Stratix 10 NX FPGA著眼于AI模型訓(xùn)練和推理

VMware使用Xilinx Alveo U250加速卡進(jìn)行測試，通過Docker容器提供了機(jī)器學(xué)習(xí)模型，該容器與FPGA制造商的新Vitis AI開發(fā)堆棧集成在一起，用于機(jī)器學(xué)習(xí)推理。開源堆棧支持Caffe和TensorFlow框架。

2020-09-10 16:32:17

2342

CPU上最流行的加速神經(jīng)網(wǎng)絡(luò)推理方法之一

量化是在 CPU 上最流行的加速神經(jīng)網(wǎng)絡(luò)推理方法之一。去年，TensorFlow Lite 通過 XNNPACK 后端提高了浮點(diǎn)模型的性能。如今，我們將 XNNPACK 后端擴(kuò)展至量化模型。各個(gè)

2021-09-12 15:57:29

4354

深入分析MCU堆棧的作用，以及該如何設(shè)置堆棧大小

置頂/星標(biāo)公眾號(hào)，不錯(cuò)過每一條消息前段時(shí)間分享文章《STM32的啟動(dòng)流程到底是怎樣的？》之后，很多朋友問了關(guān)于堆棧的問題。今天就寫點(diǎn)相關(guān)內(nèi)容，讓大家進(jìn)一步了解堆棧...

2021-10-26 20:51:03

MCU堆棧空間，你設(shè)置了多少？

關(guān)注、星標(biāo)公眾號(hào)，不錯(cuò)過精彩內(nèi)容作者：strongerHuang微信公眾號(hào)：strongerHuang堆棧對(duì)于程序來說非常重要，程序能夠快速運(yùn)行，堆棧起到非常大的作用，但你了解堆棧嗎？1...

2021-10-28 11:21:03

深入分析MCU堆棧的作用，以及該如何設(shè)置堆棧大小

2021-10-28 16:51:01

51單片機(jī)堆棧深入剖析

上的擴(kuò)展，既有C語言的共性，又有它自己的特點(diǎn)。本文介紹的是Cx51程序設(shè)計(jì)時(shí)堆棧的計(jì)算方法。　　1.堆棧的溢出問題。MCS51系列單片機(jī)將堆棧設(shè)置在片內(nèi)RAM中，由于片內(nèi)RAM資源有限，堆棧區(qū)的范圍也是有限的。堆棧區(qū)留得太大，會(huì)減少其他數(shù)據(jù)的存放空間，留得太少則很容易溢出。所

2021-11-22 16:36:04

關(guān)于stm32堆棧stack/heap設(shè)置-.map文件解讀-IAP原理簡述-分散加載技術(shù)的一些關(guān)聯(lián)理解

主要研究，到底該怎么設(shè)置STACK SIZE和HEAP SIZE的值，.map文件怎么解讀有關(guān)堆棧大小與內(nèi)存地址的關(guān)聯(lián)，以及IAP固件升級(jí)和分散加載技術(shù)的一些聯(lián)系解讀。

2021-11-30 19:06:05

STM32堆棧空間大小設(shè)置

2021-12-17 18:36:08

stm32修改堆棧大?。?b class="flag-6" style="color: red">堆棧空間不足導(dǎo)致死機(jī)）

1. 設(shè)置堆棧空間大小在使用STM32編程時(shí)，一般情況下我們不會(huì)關(guān)注堆棧空間的大小，因?yàn)樵赟TM32的啟動(dòng)文件中，已經(jīng)幫我們預(yù)先設(shè)置好了堆棧空間的大小。一般默認(rèn)的啟動(dòng)代碼中，Stack棧的大小

2021-12-27 19:09:42

海思AI芯片(Hi3519A/3559A)方案學(xué)習(xí)（十五）基于nnie引擎進(jìn)行推理的仿真代碼淺析

本系列為華為海思海思AI芯片(Hi3519A/3559A)方案學(xué)習(xí)系列之十五，主要對(duì)基于nnie引擎進(jìn)行推理的仿真代碼淺析，系列文章請(qǐng)見底部。作者：...

2022-01-26 18:56:20

NVIDIA發(fā)布Riva語音AI和大型LLM軟件

　　它包括Megatron方面的進(jìn)步，這是一個(gè)由 NVIDIA 研究人員領(lǐng)導(dǎo)的開源項(xiàng)目，旨在開發(fā)有效培訓(xùn)法學(xué)碩士的技術(shù)。企業(yè)可以使用 NeMo Megatron 定制 LLM ，如 Megatron 530B ，并使用 NVIDIA Triton 推理服務(wù)器跨多個(gè) GPU 和節(jié)點(diǎn)進(jìn)行部署。

2022-04-01 16:27:36

10987

MLPerf是邊緣AI推理的新行業(yè)基準(zhǔn)

　　最新的 AI 推理基準(zhǔn)顯然具有重要意義，因?yàn)樗悄壳翱捎玫淖罱咏鎸?shí)世界 AI 推理性能的衡量標(biāo)準(zhǔn)。但隨著它的成熟和吸引更多的提交，它也將成為成功部署技術(shù)堆棧的晴雨表和新實(shí)施的試驗(yàn)場。

2022-07-08 15:37:55

1246

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口并且不會(huì)透露任何模型上技術(shù)細(xì)節(jié)。因此，現(xiàn)階段，如何利用LLM做一些多模態(tài)任務(wù)還是有一定的研究價(jià)值的。

2023-05-11 17:09:16

648

如何利用LLM做一些多模態(tài)任務(wù)

本文整理了近兩年來基于LLM做vision-lanuage任務(wù)的一些工作，并將其劃分為4個(gè)類別：

2023-05-17 15:02:35

575

淺析推理加速引擎FasterTransformer

最近幾個(gè)月，隨著ChatGPT的現(xiàn)象級(jí)表現(xiàn)，大模型如雨后春筍般涌現(xiàn)。而模型推理是抽象的算法模型觸達(dá)具體的實(shí)際業(yè)務(wù)的最后一公里。

2023-05-18 14:32:06

2069

LLM性能的主要因素

現(xiàn)在是2023年5月，截止目前，網(wǎng)絡(luò)上已經(jīng)開源了眾多的LLM，如何用較低的成本，判斷LLM的基礎(chǔ)性能，選到適合自己任務(wù)的LLM，成為一個(gè)關(guān)鍵。本文會(huì)涉及以下幾個(gè)問題：影響LLM性能的主要因素

2023-05-22 15:26:20

1148

如何利用LLM做多模態(tài)任務(wù)？

大型語言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。雖然已經(jīng)發(fā)布的GPT4具備圖片理解能力，但目前還未開放多模態(tài)輸入接口

2023-05-22 15:57:33

466

中國研究人員提出StructGPT，提高LLM對(duì)結(jié)構(gòu)化數(shù)據(jù)的零樣本推理能力

盡管結(jié)構(gòu)化數(shù)據(jù)的體量往往非常巨大，但不可能容納輸入提示中的所有數(shù)據(jù)記錄（例如，ChatGPT 的最大上下文長度為 4096）。將結(jié)構(gòu)化數(shù)據(jù)線性化為 LLM 可以輕松掌握的語句是解決此問題的簡單方法。工具操作技術(shù)激勵(lì)他們?cè)鰪?qiáng) LLM 解決上述困難的能力。

2023-05-24 16:02:16

2156

LLM在各種情感分析任務(wù)中的表現(xiàn)如何

? 最近幾年，GPT-3、PaLM和GPT-4等LLM刷爆了各種NLP任務(wù)，特別是在zero-shot和few-shot方面表現(xiàn)出它們強(qiáng)大的性能。因此，情感分析(SA)領(lǐng)域也必然少不了LLM的影子

2023-05-29 17:24:41

1379

基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)如何測試大語言模型(LLM)的純因果推理能力

? 因果推理是人類智力的標(biāo)志之一。因果關(guān)系NLP領(lǐng)域近年來引起了人們的極大興趣，但其主要依賴于從常識(shí)知識(shí)中發(fā)現(xiàn)因果關(guān)系。本研究提出了一個(gè)基準(zhǔn)數(shù)據(jù)集(CORR2CAUSE)來測試大語言模型(LLM

2023-06-20 15:39:05

1223

基于Transformer的大型語言模型（LLM）的內(nèi)部機(jī)制

工作原理變得越來越重要。更好地理解這些模型是如何做出決策的，這對(duì)改進(jìn)模型和減輕其故障（如幻覺或推理錯(cuò)誤）至關(guān)重要。眾所周知，最近 LLM 成功的一個(gè)重要因素是它們能夠從上下文中學(xué)習(xí)和推理。LLM 對(duì)這些上下文的學(xué)習(xí)能力通常歸功于 Transformer 架構(gòu)，特別

2023-06-25 15:08:49

991

最新綜述！當(dāng)大型語言模型（LLM）遇上知識(shí)圖譜：兩大技術(shù)優(yōu)勢互補(bǔ)

LLM 是黑箱模型，缺乏可解釋性，因此備受批評(píng)。LLM 通過參數(shù)隱含地表示知識(shí)。因此，我們難以解釋和驗(yàn)證 LLM 獲得的知識(shí)。此外，LLM 是通過概率模型執(zhí)行推理，而這是一個(gè)非決斷性的過程。對(duì)于 LLM 用以得出預(yù)測結(jié)果和決策的具體模式和功能，人類難以直接獲得詳情和解釋。

2023-07-10 11:35:00

1354

適用于各種NLP任務(wù)的開源LLM的finetune教程~

ChatGLM2-6b是清華開源的小尺寸LLM，只需要一塊普通的顯卡(32G較穩(wěn)妥)即可推理和微調(diào)，是目前社區(qū)非?；钴S的一個(gè)開源LLM。

2023-07-24 09:04:22

1311

LLM對(duì)程序員的沖擊和影響

LLM 對(duì)軟件研發(fā)的單點(diǎn)提效，我之前錄制過一段視頻，大家可以直接觀看，里面有詳細(xì)的演示，我在這里就不再贅述了。

2023-07-24 15:39:06

766

LLM的長度外推淺談

蘇神最早提出的擴(kuò)展LLM的context方法，基于bayes啟發(fā)得到的公式

2023-07-28 17:37:43

1484

MLC-LLM的編譯部署流程

MLC-LLM部署在各種硬件平臺(tái)的需求，然后我就開始了解MLC-LLM的編譯部署流程和RWKV World模型相比于MLC-LLM已經(jīng)支持的Raven系列模型的特殊之處。 MLC-LLM的編譯部署流程

2023-09-04 09:22:46

1569

從原理到代碼理解語言模型訓(xùn)練和推理，通俗易懂，快速修煉LLM

要理解大語言模型（LLM），首先要理解它的本質(zhì)，無論預(yù)訓(xùn)練、微調(diào)還是在推理階段，核心都是next token prediction，也就是以自回歸的方式從左到右逐步生成文本。

2023-09-19 16:25:47

519

mlc-llm對(duì)大模型推理的流程及優(yōu)化方案

比如RWKV和給定的device信息一起編譯為TVM中的runtime.Module（在linux上編譯的產(chǎn)物就是.so文件）提供mlc-llm的c++推理接口調(diào)用。

2023-09-26 12:25:55

383

Continuous Batching：解鎖LLM潛力！讓LLM推斷速度飆升23倍，降低延遲！

本文介紹一篇 LLM 推理加速技術(shù) 相關(guān)的文章，值得讀一讀。 LLMs 在現(xiàn)實(shí)應(yīng)用中的計(jì)算成本主要由服務(wù)成本所主導(dǎo)，但是傳統(tǒng)的批處理策略存在低效性。在這篇文章中，我們將告訴

2023-10-15 20:25:02

292

Nvidia 通過開源庫提升 LLM 推理性能

加利福尼亞州圣克拉拉——Nvidia通過一個(gè)名為TensorRT LLM的新開源軟件庫，將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。正如對(duì)相同硬件一輪又一輪改進(jìn)

2023-10-23 16:10:19

284

周四研討會(huì)預(yù)告 | 注冊(cè)報(bào)名 NVIDIA AI Inference Day - 大模型推理線上研討會(huì)

由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會(huì)，將幫助您了解 NVIDIA 開源大型語言模型（LLM）推理加速庫 TensorRT-LLM ?及其功能

2023-10-26 09:05:02

174

現(xiàn)已公開發(fā)布！歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

NVIDIA 于 2023 年 10 月 19 日公開發(fā)布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和優(yōu)化最新的大語言模型（Large Language Models）的推理

2023-10-27 20:05:02

478

Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs，比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進(jìn)行推理的示例。我們將部署12B

2023-11-01 17:48:42

422

淺析tensorrt-llm搭建運(yùn)行環(huán)境以及庫

之前玩內(nèi)測版的時(shí)候就需要cuda-12.x，正式出來仍是需要cuda-12.x，主要是因?yàn)閠ensorr-llm中依賴的CUBIN（二進(jìn)制代碼）是基于cuda12.x編譯生成的，想要跑只能更新驅(qū)動(dòng)。

2023-11-13 14:42:41

1746

使用MLC-LLM支持RWKV-5推理的過程思考

對(duì)LLM的理解比較有限，從代碼實(shí)現(xiàn)的角度來說，RWKV的狀態(tài)和KV Cache不同，不依賴序列長度，這讓RWKV模型在各種長度下運(yùn)行內(nèi)存和運(yùn)行速度都是趨于穩(wěn)定的，所以我感覺工程價(jià)值是比基于Transformer架構(gòu)比如Llama更好的，部署的性價(jià)比會(huì)天然更優(yōu)。

2023-11-19 15:58:57

502

澎峰科技發(fā)布大模型推理引擎PerfXLLM

自從2020年6月OpenAI發(fā)布chatGPT之后，基于 Transformer 網(wǎng)絡(luò)結(jié)構(gòu)的語言大模型（LLM）引發(fā)了全世界的注意與追捧，成為了人工智能領(lǐng)域的里程碑事件。但大模型推理所需

2023-11-25 15:35:01

383

LLM真的能推理和規(guī)劃嗎？

在研究人員選擇的模型中，GPT-3 davinci（非指令微調(diào)）、GPT-3 textdavinci-001（指令微調(diào)）和GPT-3 textdavinci-003（InstructGPT）都是以前觀察到過涌現(xiàn)能力的模型。這一選擇主要是出于模型可用性的考慮。

2023-11-30 09:45:30

260

怎樣使用Accelerate庫在多GPU上進(jìn)行LLM推理呢？

大型語言模型(llm)已經(jīng)徹底改變了自然語言處理領(lǐng)域。隨著這些模型在規(guī)模和復(fù)雜性上的增長，推理的計(jì)算需求也顯著增加。

2023-12-01 10:24:52

396

用上這個(gè)工具包，大模型推理性能加速達(dá)40倍

作者：英特爾公司沈海豪、羅嶼、孟恒宇、董波、林俊編者按：只需不到9行代碼，就能在CPU上實(shí)現(xiàn)出色的LLM推理性能。英特爾 ?Extension for Transformer 創(chuàng)新

2023-12-01 20:40:03

552

一文詳解LLM模型基本架構(gòu)

LLM 中非常重要的一個(gè)概念是 Token，我們輸入給 LLM 和它輸出的都是 Token。Token 在這里可以看做語言的基本單位，中文一般是詞或字（其實(shí)字也是詞）。比如：”我們喜歡 Rust

2023-12-25 10:38:38

657

基于LLM的表格數(shù)據(jù)的大模型推理綜述

面向表格數(shù)據(jù)的推理任務(wù)，在計(jì)算機(jī)領(lǐng)域，特別是自然語言處理（Natural Language Processing，NLP）領(lǐng)域的研究中扮演著重要角色[1]。該任務(wù)要求模型在給定一個(gè)或多個(gè)表格的情況下，按照任務(wù)要求，生成相應(yīng)的結(jié)果作為答案（例如：表格問答、表格事實(shí)判斷）。

2024-01-08 09:56:14

357

安霸發(fā)布N1系列生成式AI芯片支持前端設(shè)備運(yùn)行本地LLM應(yīng)用

單顆 SoC 支持 1 至 340 億參數(shù)的多模態(tài)大模型（Multi-Modal LLM）推理，實(shí)現(xiàn)前端低功耗生成式 AI。

2024-01-09 15:19:33

597

LLM推理加速新范式！推測解碼（Speculative Decoding）最新綜述

這個(gè)問題隨著LLM規(guī)模的增大愈發(fā)嚴(yán)重。并且，如下左圖所示，目前LLM常用的自回歸解碼（autoregressive decoding）在每個(gè)解碼步只能生成一個(gè)token。這導(dǎo)致GPU計(jì)算資源利用率

2024-01-29 15:54:24

261

100%在樹莓派上執(zhí)行的LLM項(xiàng)目

ChatGPT的人性口語化回復(fù)相信許多人已體驗(yàn)過，也因此掀起一波大型語言模型（Large Language Model, LLM）熱潮，LLM即ChatGPT背后的主運(yùn)作技術(shù)，但LLM運(yùn)作需要龐大運(yùn)算力，因此目前多是在云端（Cloud）上執(zhí)行。

2024-02-29 16:29:59

476

深度探討VLMs距離視覺演繹推理還有多遠(yuǎn)？

通用大型語言模型（LLM）推理基準(zhǔn)：研究者們介紹了多種基于文本的推理任務(wù)和基準(zhǔn)，用于評(píng)估LLMs在不同領(lǐng)域（如常識(shí)、數(shù)學(xué)推理、常識(shí)推理、事實(shí)推理和編程）的性能。這些研究包括BIG-bench、HELM、SuperGLUE和LAMA等。

2024-03-19 14:32:55

已全部加載完成

搜索歷史

淺析流行的LLM推理堆棧和設(shè)置

評(píng)論