成人短视频APP下载,在线观看肉片AV网站下载

大型語言模型（LLM）正在迅速發(fā)展，變得更加強大和高效，使人們能夠在廣泛的應用程序中越來越復雜地理解和生成類人文本。谷歌的Gemma是一個輕量級、先進的開源模型新家族，站在LLM創(chuàng)新的前沿。然而，對更高推理速度和更智能推理能力的追求并不僅僅局限于復雜模型的開發(fā)，它擴展到模型優(yōu)化和部署技術領域。

OpenVINO 工具套件因此成為一股引人注目的力量，在這些領域發(fā)揮著越來越重要的作用。這篇博客文章深入探討了優(yōu)化谷歌的Gemma模型，并在不足千元的AI開發(fā)板上進行模型部署、使用OpenVINO 加速推理，將其轉(zhuǎn)化為能夠更快、更智能推理的AI引擎。

此文使用了研揚科技針對邊緣AI行業(yè)開發(fā)者推出的哪吒（Nezha）開發(fā)套件，以信用卡大?。?5x56mm）的開發(fā)板-哪吒（Nezha）為核心，哪吒采用Intel N97處理器（Alder Lake-N），最大睿頻3.6GHz，Intel UHD Graphics內(nèi)核GPU，可實現(xiàn)高分辨率顯示；板載LPDDR5內(nèi)存、eMMC存儲及TPM 2.0，配備GPIO接口，支持Windows和Linux 操作系統(tǒng)，這些功能和無風扇散熱方式相結(jié)合，為各種應用程序構建高效的解決方案，適用于如自動化、物聯(lián)網(wǎng)網(wǎng)關、數(shù)字標牌和機器人等應用。

什么是Gemma？

Gemma是谷歌的一個輕量級、先進的開源模型家族，采用了與創(chuàng)建Gemini模型相同的研究和技術。它們以拉丁語單詞 “Gemma” 命名，意思是“寶石”，是文本到文本的、僅解碼器架構的LLM，有英文版本，具有開放權重、預訓練變體和指令調(diào)整變體。Gemma模型非常適合各種文本生成任務，包括問答、摘要和推理。

Gemma模型系列，包括Gemma-2B和Gemma-7B模型，代表了深度學習模型可擴展性和性能的分層方法。在本次博客中，我們將展示OpenVINO 如何優(yōu)化和加速Gemma-2B-it模型的推理，即Gemma-2B參數(shù)模型的指令微調(diào)后的版本。

利用OpenVINO 優(yōu)化和加速推理

優(yōu)化、推理加速和部署的過程包括以下具體步驟，使用的是我們常用的OpenVINO Notebooks GitHub倉庫 中的254-llm-chatbot代碼示例。

由安裝必要的依賴包開始

運行OpenVINO Notebooks倉庫的具體安裝指南在這里。運行這個254-llm-chatbot的代碼示例，需要安裝以下必要的依賴包。

選擇推理的模型

由于我們在Jupyter Notebook演示中提供了一組由OpenVINO 支持的LLM，您可以從下拉框中選擇 “Gemma-2B-it” 來運行該模型的其余優(yōu)化和推理加速步驟。當然，很容易切換到 “Gemma-7B-it” 和其他列出的型號。

使用Optimum Intel實例化模型

Optimum Intel是Hugging Face Transformers和Diffuser庫與OpenVINO 之間的接口，用于加速Intel體系結(jié)構上的端到端流水線。接下來，我們將使用Optimum Intel從Hugging Face Hub加載優(yōu)化模型，并創(chuàng)建流水線，使用Hugging Face API以及OpenVINO Runtime運行推理。在這種情況下，這意味著我們只需要將AutoModelForXxx類替換為相應的OVModelForXxx類。

權重壓縮

盡管像Gemma-2B這樣的LLM在理解和生成類人文本方面變得越來越強大和復雜，但管理和部署這些模型在計算資源、內(nèi)存占用、推理速度等方面帶來了關鍵挑戰(zhàn)，尤其是對于這種不足千元級的AI開發(fā)板等客戶端設備。權重壓縮算法旨在壓縮模型的權重，可用于優(yōu)化模型體積和性能。

我們的Jupyter筆記本電腦使用Optimum Intel和NNCF提供INT8和INT4壓縮功能。與INT8壓縮相比，INT4壓縮進一步提高了性能，但預測質(zhì)量略有下降。因此，我們將在此處選擇INT4壓縮。