chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用GPU加速在Orange Pi?5上跑LLMs:人工智能愛好者High翻了!

香橙派 ? 2024-01-22 15:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本期視頻將會給人工智能愛好者們帶來超級震撼!

視頻中,我們將深入了解利用GPU加速在Orange Pi5上跑LLMs的精彩世界。最近知乎上的一篇文章《利用GPU加速,在Orange Pi上跑LLMs》引起了我們的注意,這篇文章主要展示了GPU加速的LLM在嵌入式設(shè)備上以合適的速度順利運行。具體來說,是在Orange Pi 5(8G)上,作者通過機器學(xué)習(xí)編譯(MLC)技術(shù),實現(xiàn)了Llama2-7b以2.5 toks/sec的速度運行,RedPajama-3b以5 toks/sec運行。此外,還在16GB版本的Orange Pi 5上以1.5 tok/sec的速度運行Llama-2 13b模型。

下面我們看看他們是如何做到的:

背景

開放語言模型的進步已經(jīng)催生了跨問題回答、翻譯和創(chuàng)意任務(wù)的創(chuàng)新。雖然當前的解決方案需要高端的桌面GPU甚至服務(wù)器級別的GPU來實現(xiàn)滿意的性能。但為了使LLM日常使用,我們想了解我們?nèi)绾卧诹畠r的嵌入式設(shè)備上部署它們。

許多嵌入式設(shè)備配備了移動GPU(例如Mali GPU)可以用來加速LLM的運行速度。在這篇文章中,我們選擇了Orange Pi 5,這是一個基于RK3588的開發(fā)板,與Raspberry Pi相似,但也配備了更強大的Mali-G610 GPU。這篇文章總結(jié)了我們首次嘗試利用機器學(xué)習(xí)編譯,并為該設(shè)備提供了開箱即用的GPU加速。

面向Mali GPU的機器學(xué)習(xí)編譯

wKgaomWuGSKAXYx7AAIZygnubI8614.png

機器學(xué)習(xí)編譯(MLC)是一種新興技術(shù),它自動編譯和優(yōu)化機器學(xué)習(xí)工作負載,并將編譯后的工作負載部署到廣泛的后端。在寫作時,基于Apache TVM Unity,MLC支持的平臺包括瀏覽器(WebGPU, WASM)、NVIDIA GPU(CUDA)、AMD GPU(ROCm, Vulkan)、Intel GPU(Vulkan)、iOS和MacBooks(Metal)、Android(OpenCL)以及Mali GPU(本文)。

基于通用機器學(xué)習(xí)編譯實現(xiàn)Mali代碼生成

MLC是建立在Apache TVM Unity之上的,這是一個用于在不同硬件和后端上編譯機器學(xué)習(xí)模型的通用軟件棧。為了將LLM編譯到Mali GPU上,我們復(fù)用了所有現(xiàn)有的編譯流程,沒有進行任何代碼優(yōu)化。更具體地說,我們成功地部署了Llama-2和RedPajama模型,采取了以下步驟:

·復(fù)用了模型優(yōu)化步驟,包括量化、融合、布局優(yōu)化等;

·復(fù)用了在TVM TensorIR中的定義的通用GPU內(nèi)核優(yōu)化空間,并將其重新運用在到Mali GPU;

·復(fù)用了基于TVM的OpenCL代碼生成后端,并將其重新運用在到Mali GPU;

·復(fù)用了現(xiàn)有的用戶界面,包括Python API、CLI和REST API。

運行方法

本節(jié)提供了一個分步運行指南,以便您可以在自己的Orange Pi設(shè)備上嘗試它。這里我們使用RedPajama-INCITE-Chat-3B-v1-q4f16_1作為運行示例。您可以用Llama-2-7b-chat-hf-q4f16_1或Llama-2-13b-chat-hf-q4f16_1(需要16GB的板)來替換它。

準備工作

請首先按照這里的指示,為RK3588板設(shè)置OpenCL驅(qū)動程序。然后從源代碼克隆MLC-LLM,并下載權(quán)重和預(yù)構(gòu)建的庫。

# clone mlc-llm from GitHub

git clone --recursive https://github.com/mlc-ai/mlc-llm.git && cd mlc-llm

# Download prebuilt weights and libs

git lfs install

mkdir -p dist/prebuilt && cd dist/prebuilt

git clone https://github.com/mlc-ai/binary-mlc-llm-libs.git lib

git clonehttps://huggingface.co/mlc-ai/mlc-chat-RedPajama-INCITE-Chat-3B-v1-q4f16_1

cd ../../..

使用CLI

從源代碼編譯mlc_llm_cli

cd mlc-llm/

# create build directory

mkdir -p build && cd build

# generate build configuration

python3 ../cmake/gen_cmake_config.py

# build `mlc_chat_cli`

cmake .. && cmake --build . --parallel $(nproc) && cd ..

驗證是否編譯成功

# expected to see `mlc_chat_cli`, `libmlc_llm.so` and `libtvm_runtime.so`

ls -l ./build/

# expected to see help message

./build/mlc_chat_cli --help

使用mlc_llm_cli運行LLM

./build/mlc_chat_cli --local-id RedPajama-INCITE-Chat-3B-v1-q4f16_1 –device mali

wKgZomWuGSKAU8uVAAH0oewE22c363.png

CLI運行截圖

使用Python API

編譯TVM runtime(無需編譯完整TVM編譯器)

# clone from GitHub

git clone --recursive https://github.com/mlc-ai/relax.git tvm_unity && cd tvm_unity/

# create build directory

mkdir -p build && cd build

# generate build configuration

cp ../cmake/config.cmake . && echo "set(CMAKE_BUILD_TYPE RelWithDebInfo)\nset(USE_OPENCL ON)" >> config.cmake

# build `mlc_chat_cli`

cmake .. && cmake --build . --target runtime --parallel $(nproc) && cd ../..

設(shè)置PYTHONPATH(可按需添加到bashrc或zshrc)

export TVM_HOME=$(pwd)/tvm_unity

export MLC_LLM_HOME=$(pwd)/mlc-llm

export PYTHONPATH=$TVM_HOME/python:$MLC_LLM_HOME/python:${PYTHONPATH}

運行下列Python腳本

from mlc_chat import ChatModule

from mlc_chat.callback import StreamToStdout

cm = ChatModule(model="RedPajama-INCITE-Chat-3B-v1-q4f16_1")

# Generate a response for a given prompt

output = cm.generate(

prompt="What is the meaning of life?",

progress_callback=StreamToStdout(callback_interval=2),)

# Print prefill and decode performance statistics

print(f"Statistics: {cm.stats()}\n")

評論區(qū)Hihg翻了!

這篇文章同時發(fā)表 Hacker News。在人工智能評論區(qū),大家的討論熱鬧非凡,令人目不暇接。他們熱烈地討論Orange Pi 5的硬件選項和可擴展性,感嘆如此強大的模型,如此實惠的價格,將改變游戲規(guī)則,認為這一突破將為預(yù)算有限的人工智能愛好者帶來了新的可能性。

“這一功能強大的工具使得在Orange Pi 5等設(shè)備上充分發(fā)揮人工智能的潛力變得前所未有的簡單。對于開發(fā)者和業(yè)余愛好者來說,這都是一個改變游戲規(guī)則的工具?!?/p>

“通過 GPU加速語言模型編譯,Orange Pi 5已被證明是一款經(jīng)濟實惠的人工智能利器。這款設(shè)備擁有令人驚嘆的速度,能以極低的成本運行高性能模型,正在徹底改變?nèi)斯ぶ悄茴I(lǐng)域?!?/p>

我們欣喜地可以看到,Orange Pi 5正在以其強大的人工智能能力讓越來越多的人工智能愛好者加入到創(chuàng)新、創(chuàng)意的世界,不斷進行新的實踐和探索。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5152

    瀏覽量

    134753
  • 人工智能
    +關(guān)注

    關(guān)注

    1814

    文章

    49967

    瀏覽量

    263701
  • 開發(fā)板
    +關(guān)注

    關(guān)注

    26

    文章

    6213

    瀏覽量

    116014
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Banana Pi BPI-CM6 計算模塊將 8 核 RISC-V 處理器帶入 CM4 外形尺寸

    核 64 位芯片。該模塊的設(shè)計與流行的 Raspberry Pi CM4(和 CM5)系列模塊采用相同的尺寸和接口布局,這意味著理論它可以安裝到許多現(xiàn)有的 Raspberry Pi
    發(fā)表于 12-20 09:01

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保護科學(xué)

    職業(yè)生涯中收集的帶注釋數(shù)據(jù)集,根據(jù)自身目的微調(diào)高效的深度學(xué)習(xí)模型。人工智能加速硬件的出現(xiàn)意味著這些模型能夠以前所未有的速度運行,相比之下,CPU運行的算法(包括更傳統(tǒng)的基于機器學(xué)習(xí)
    發(fā)表于 10-27 09:18

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以最先進的邊緣設(shè)備上進行人工智能處理。在這篇博文中,我們將介紹這對開發(fā)人員意味著什么,以及使用 Neuton 模型如何改進您的開發(fā)和終端
    發(fā)表于 08-31 20:54

    中科創(chuàng)達旗下創(chuàng)通聯(lián)達即將舉辦RUBIK Pi 3端側(cè)人工智能技術(shù)巡演

    人工智能技術(shù)加速向端側(cè)滲透,驅(qū)動產(chǎn)業(yè)智能化轉(zhuǎn)型的戰(zhàn)略機遇期,全球領(lǐng)先的智能物聯(lián)網(wǎng)產(chǎn)品和解決方案提供商Thundercomm(創(chuàng)通聯(lián)達)將于
    的頭像 發(fā)表于 08-15 15:56 ?1095次閱讀

    挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器

    和生態(tài)體系帶到使用身邊 ,讓我們技術(shù)學(xué)習(xí)和使用上不再受制于人。 三、多模態(tài)實驗,解鎖AI全流程 它嵌入了2D視覺、深度視覺、機械手臂、語音識別、嵌入式傳感器等多種類AI模塊,涵蓋人工智能領(lǐng)域主要
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!

    和生態(tài)體系帶到使用身邊 ,讓我們技術(shù)學(xué)習(xí)和使用上不再受制于人。 三、多模態(tài)實驗,解鎖AI全流程 它嵌入了2D視覺、深度視覺、機械手臂、語音識別、嵌入式傳感器等多種類AI模塊,涵蓋人工智能領(lǐng)域主要
    發(fā)表于 08-07 14:23

    關(guān)于人工智能處理器的11個誤解

    應(yīng)用,以及哪些是真實情況而哪些只是炒作,仍存在諸多誤解。GPU是最佳的人工智能處理器盡管GPU人工智能的實現(xiàn)過程中發(fā)揮了關(guān)鍵作用,而且如今
    的頭像 發(fā)表于 08-07 13:21 ?1006次閱讀
    關(guān)于<b class='flag-5'>人工智能</b>處理器的11個誤解

    輕松上手邊緣AI:MemryX MX3+結(jié)合Orange Pi 5 Plus的C/C++實戰(zhàn)指南

    AI 和邊緣計算快速發(fā)展的時代,MemryX MX3+ 加速卡憑借其 20 TOPS 的強大性能和低功耗(5 TFLOPS/W),成為邊緣智能應(yīng)用的理想選擇。結(jié)合
    的頭像 發(fā)表于 05-28 08:01 ?1014次閱讀
    輕松上手邊緣AI:MemryX MX3+結(jié)合<b class='flag-5'>Orange</b> <b class='flag-5'>Pi</b> <b class='flag-5'>5</b> Plus的C/C++實戰(zhàn)指南

    八大亮點帶你提前“解鎖” 2025全球人工智能終端展!

    人工智能行業(yè)協(xié)會與深圳會展中心管理有限責(zé)任公司聯(lián)合主辦,以“智聯(lián)萬物·端啟未來”為主題,匯聚全球頂尖人工智能技術(shù)與智能終端產(chǎn)品,將全方位展示人工智能
    發(fā)表于 05-20 14:15 ?1377次閱讀
    八大亮點帶你提前“解鎖” 2025全球<b class='flag-5'>人工智能</b>終端展!

    上海和晟儀器參與2025人工智能助力PI 及特種高分子產(chǎn)業(yè)對接論壇

    2025年,人工智能浪潮席卷各行業(yè)之際,“人工智能助力PI及特種高分子產(chǎn)業(yè)對接論壇”盛大召開,成為行業(yè)內(nèi)矚目的焦點。上海和晟儀器科技有限公司作為試驗機、環(huán)境類儀器及熱分析儀制造的佼佼
    的頭像 發(fā)表于 04-27 10:05 ?683次閱讀
    上海和晟儀器參與2025<b class='flag-5'>人工智能</b>助力<b class='flag-5'>PI</b> 及特種高分子產(chǎn)業(yè)對接論壇

    開售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網(wǎng),WiFi,USB 擴展/重力感應(yīng)/RS232/RS485/IO 擴展/I2C 擴展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個全新八核擁有超強性能的人工智能
    發(fā)表于 04-23 10:55

    Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺,加速企業(yè)人工智能應(yīng)用

    -Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺,加速企業(yè)人工智能應(yīng)用 Cognizant將在關(guān)鍵增長領(lǐng)域提供解決方案,包括企業(yè)級AI智能體、定制化行業(yè)大型語言模型及搭載N
    的頭像 發(fā)表于 03-26 14:42 ?655次閱讀
    Cognizant將與NVIDIA合作部署神經(jīng)<b class='flag-5'>人工智能</b>平臺,<b class='flag-5'>加速</b>企業(yè)<b class='flag-5'>人工智能</b>應(yīng)用

    如何在 Raspberry Pi 5 設(shè)置 Raspberry Pi AI Kit

    本指南將幫助您在RaspberryPi5安裝RaspberryPiAIKit。這將使您能夠使用HailoAI神經(jīng)網(wǎng)絡(luò)加速器運行rpicam-apps攝像頭演示。如果您在開始安裝人工智能
    的頭像 發(fā)表于 03-25 09:44 ?677次閱讀
    如何在 Raspberry <b class='flag-5'>Pi</b> <b class='flag-5'>5</b> <b class='flag-5'>上</b>設(shè)置 Raspberry <b class='flag-5'>Pi</b> AI Kit

    FPV蘑菇頭天線:為何成為FPV愛好者的首選

    深圳安騰納天線|FPV蘑菇頭天線:為何成為FPV愛好者的首選
    的頭像 發(fā)表于 03-17 09:06 ?1977次閱讀

    人工智能、云計算、區(qū)塊鏈三區(qū)別對比

    AI人工智能基于算法和數(shù)據(jù),擅長處理復(fù)雜數(shù)據(jù);云計算依賴虛擬化和網(wǎng)絡(luò),提供高效計算;區(qū)塊鏈利用密碼學(xué),保證數(shù)據(jù)安全透明。三在數(shù)據(jù)處理、安全性和應(yīng)用場景各有特色,AI
    的頭像 發(fā)表于 02-20 14:45 ?1322次閱讀