桜木凛浓厚接吻,磁力吧- 最佳的磁力

小型化、私有化，大廠競逐端側(cè)生成式AI

2024年，端側(cè)運行生成式AI，幾乎成了Intel、AMD、高通等廠商下一代芯片的標配。

在CES上大火的Rabbit R1，可以利用ChatGPT來操作很多手機端的app，完全自然語言控制，演示視頻讓很多自媒體鼓吹可以拋棄手機了，但是有拿到產(chǎn)品的網(wǎng)友實測后發(fā)現(xiàn)，單任務(wù)響應(yīng)時間超過20s，用戶體驗不友好。

在網(wǎng)絡(luò)訪問不暢通的情況下，如何才能獲得實時、低延遲的響應(yīng)？答案是，把生成式AI服務(wù)放在端側(cè)，而不是在云、數(shù)據(jù)中心和端側(cè)節(jié)點之間頻繁傳輸?；赟G2300x打造的端側(cè)生成式AI盒子Airbox，Llama-7B的速度可以達到12 tokens/s，StableDiffusion 1s 出圖，讓生成式AI觸手可及。

SG2300X：令人驚喜的端側(cè)生成式AI處理能力

產(chǎn)品規(guī)格	SG2300X
處理器	ARMA538核2.3GHz
內(nèi)存	LPDDR4x 4.266 Gbps 128bit 68.256 GB/s；最大容量支持16GB
智能算力	24 TOPS INT8；12 TFLOPS FP16/BF16；2 TFLOPS FP32；支持混合精度計算
視頻解碼	H.264 & H.265: 32路 1080P @25fps；最大分辨率支持7680* 4320
視頻編碼	H.264 & H.265: 12路 1080P @25fps；最大分辨率支持7680* 4320
圖片編解碼	JPEG:解碼750張/秒@1080P；編碼250張/秒@1080P；最大分辨率支持 32768 * 32768
視頻后處理	支持圖像的CSC（RGB/YUV/HSV），resize（1/128~128），crop 支持padding，border，font，contrastandbrightnessadjustment 最大分辨率支持8192*8192，分辨率超過的圖片支持切割處理后拼接支持8bits輸入格式：Y only，YUV420/YUV422/YUV444 Planar，NV12/NV21/NV16/NV61 Semi-planar，RGB planar and packed，YUV444 packed，YUV422 packed 支持8/16/32bits輸出格式：YUV444/RGB planar 支持8bits輸出格式：Y only planar，YUV420/I420 planar，NV12/NV21 semi planar，RGBY/BGRY planar，RGB/BGR packed
高速接口	PCIeGen3X16EP，可配置成X8RC+X8EP，支持級聯(lián) 2個以太網(wǎng)RGMII接口，支持速率10/100/1000Mbps；1個SD/SDIO controller；1個eMMC 5.1，總線位寬4-bit
低速接口	1個SPI Flash接口；3個UART接口，3個I2C接口；2個PWM接口，2個風扇轉(zhuǎn)速檢測接口；32個通用IO
安全性	支持AES/DES/SM4/SHA/RSA/ECC 加速；支持真隨機數(shù)產(chǎn)生；支持安全密鑰存儲機制，支持安全啟動，支持Trustzone
典型功耗	20W
工作溫度	-40℃~+105℃
工具鏈	支持TensorFlow / Pytorch / Paddle / Caffe / MxNet / DarkNet / ONNX；支持TensorFlow / Pytorch / Paddle / TensorRT 以及客戶定制的INT8、FP16、BF16量化算法

SG2300X處理器擁有24T的算力，能夠流暢運行像LLAMA-2 7B這樣的生成式AI。

SG2300X驚人的算力使其可以在更短的時間內(nèi)處理更多的數(shù)據(jù)，實現(xiàn)更快的響應(yīng)速度，為用戶帶來更加流暢和智能的體驗。

瑞莎 AirBox：國產(chǎn)化邊緣智算設(shè)備

瑞莎 Fogwise AirBox是瑞莎計算機團隊研發(fā)的搭載SG2300X的邊緣智算盒子，算力高達 24TOPS@INT8，支持多精度（INT8、FP16/BF16、FP32），支持私有 GPT、文本到圖像等主流智能模型部署，配備鋁合金外殼，可在惡劣環(huán)境中部署。

AirBox 的核心元器件皆采用國產(chǎn)元器件，且瑞莎計算機擁有AirBox的完全知識產(chǎn)權(quán)，無懼“卡脖子”。

Radxa Fogwise AirBox
形態(tài)尺寸	104mm x 84mm x 52mm
處理器	SOPHON SG2300X SoC，八核 Arm Cortex-A53（ARMv8）@ 2.3GHz
TPU	張量處理單元，計算能力：最高達24TOPS（INT8），12TFLOPS（FP16/BF16）和2TFLOPS（FP32）支持領(lǐng)先的深度學習框架，包括 TensorFlow、Caffe、PyTorch、Paddle、ONNX、MXNet、Tengine 和 DarkNet
內(nèi)存	16GB LPDDR4X
存儲	工業(yè)級 64GB eMMC 16MB SPI 閃存提供高速SD卡的SD卡插槽
多媒體	支持解碼32路H.265/H.264 1080p@25fps視頻完全處理32路高清1080P@25fps視頻，涉及解碼和AI分析支持編碼12路H.265/H.264 1080p@25fps視頻 JPEG：1080P@600fps，支持最大32768 x 32768 支持視頻后處理，包括圖像CSC、調(diào)整大小、裁剪、填充、邊框、字體、對比度和亮度調(diào)整。
連接?	2x 千兆以太網(wǎng)端口（RJ45） 1x M.2 M Key(2230/2242)用于NVMe SSD 1x M.2 E Key用于WI-FI/BT
工作溫度	0°C 到 45°C
外殼	耐腐蝕的鋁合金外殼
散熱器	PWM調(diào)速風扇與定制散熱片

大算力+大內(nèi)存，AirBox打開智能本地化潘多拉魔盒

SG2300X中運行的 Llama-7B 模型，權(quán)重量化為 INT4，計算采用 FP16，在計算第一個 token 的時候算力利用率最高達到了80%，后續(xù)的推理有kvcache 加持，算力需求有所下降，數(shù)據(jù)搬運的時間完全覆蓋了計算的時間，瓶頸從計算來到了帶寬上。

而 StableDiffusion 類的模型，全程都會有密集的算力需求，所以如果想要同時高效運行 LLM 和 Stable Diffusion 類模型，大算力和大內(nèi)存都是需要的，Airbox 采用的主控 SG2300x 擁有 24TOPS 的 INT8、12TFLOPS 的 FP16 以及 16G 的內(nèi)存、128bit帶寬，恰逢其時。

本地運行并且把響應(yīng)時間控制到 1s 以內(nèi)，將極大地提升用戶體驗。以 qwen-7b 模型為例，跑在 Airbox 上的 latency 為 0.6s，后續(xù)推理的速度達到 12 token/s，能夠滿足自然語言問答、語音交互等場景的實時性需求。

Airbox 同時也是一個完整的運行 Ubuntu Linux 的服務(wù)器，它可以支持 CASAOS，獨立提供服務(wù)，只要聯(lián)網(wǎng)的設(shè)備，就能共享它的算力，古董PC機、平板、手機、NAS、音箱、故事機、電視等設(shè)備都能擁有生成式AI的能力，”一機多用“ 已成為現(xiàn)實。

￥2699！極致性價比，讓每個人都擁有端側(cè)智能設(shè)備

對比目前主流的端側(cè)算力產(chǎn)品，AirBox本地運行生成式AI的效率如何呢？

以Nvidia Jetson 系列多款支持生成式AI的設(shè)備為例，京東商城上 Jetson Orin 32G版本售價 8015 元，64G 版本 15600 元。

AGX Orin 通過 MLC 加速之后 Llama-7B 47tokens/s，Llama-2-13B 25 tokens/s：airbox 上 Llama2-7B 性能是 12 tokens/s, Llama2-13B 性能是 6 tokens/s，可以支持int4、int8、fp16精度，llama2 及其各種變種模型性能相似；單芯最大可以跑20B-int4的模型。

(注：Orin數(shù)據(jù)來源英偉達官網(wǎng)；此處數(shù)據(jù)越高越好)

經(jīng)測試發(fā)現(xiàn)：AGX Orin和AirBox的每人民幣（產(chǎn)品售價）可獲得的每秒token數(shù)（實際性能），AirBox有著顯著的優(yōu)勢。

Llama-7B:

AGX Orin(64G)≈0.00301 每秒token數(shù)/每人民幣

AirBox≈0.00445 每秒token數(shù)/每人民幣

Llama-13B:

AGX Orin(32G)≈0.00160 每秒token數(shù)/每人民幣

AirBox≈0.00222 每秒token數(shù)/每人民幣

AGX Orin上 Stable Diffusion 每張圖耗時 2.2s，SDXL 耗時 23.1s；Airbox使用LCM加速之后，SD1.5 耗時 1.1s，SDXL耗時 7.4s。

(注：Orin數(shù)據(jù)來源英偉達官網(wǎng)；Orin未標明步數(shù)，此處假設(shè)都是20步；此處數(shù)據(jù)越低越好)

豐富的生態(tài)應(yīng)用

瑞莎 Fogwise AirBox 可提供卓越的智能性能，滿足您對強大計算能力的需求。這款小巧但功能強大的設(shè)備可與 Tensorflow、Pytorch 和 Caffe 等領(lǐng)先的深度學習框架無縫兼容，為用戶提供便攜、高效的智能體驗。無論您是制造商、智算愛好者、業(yè)余愛好者還是專業(yè)人士，F(xiàn)ogwise AirBox都是您的最佳選擇。

支持LLama 3：Meta 最新開源生成式AI

Meta 表示，Llama 3 在多個關(guān)鍵基準測試中展現(xiàn)出卓越性能，超越了業(yè)內(nèi)先進的同類模型。無論是在代碼生成、復雜推理，還是在遵循指令和可視化想法方面，Llama 3 都實現(xiàn)了全面領(lǐng)先。該模型在以下五個基準測試中均表現(xiàn)出色：

MMLU（學科知識理解）

GPQA（一般問題解答）

HumanEval（代碼能力）

GSM-8K（數(shù)學能力）

MATH（高難度數(shù)學問題）

面對 Llama 3 如此激動人心的性能，Airbox 團隊積極響應(yīng)，快速將 Llama 3 8B 移植并成功在 Airbox 上運行。以下視頻展示了 Llama 3 8B 在 Airbox 上的運行情況：

(注：Llama 3 8B 知識更新到 2023 年 3 月)

可以看到，Llama 3 8B 在 Airbox 上的運行表現(xiàn)極為流暢，達到了 9.6 token/s 的處理速度，已充分展現(xiàn)出其實用價值。

AirBox 團隊率先推出基于AirBox的Llama 3 8B 的在線體驗，歡迎各位切身感受來自 Llama 3 的高超性能與 AirBox所提供的澎湃算力。

關(guān)注瑞莎公眾號回復【airbox】即可快速體驗

(注：服務(wù)基于單個 AirBox 部署，如同時體驗人數(shù)較多，可能會出現(xiàn)排隊情況，如需深度體驗，建議您在流量低峰時進行)

支持CASA OS：輕量且功能豐富的開源面板系統(tǒng)

通過CASA OS 一鍵安裝 AirBox 生成式AI應(yīng)用

目前已支持 Stable Diffusion、Whisper、ImageSearch、ChatDoc等熱門模型，一鍵輕松安裝，免去繁瑣環(huán)境配置。

文生圖、圖生圖：為您的靈感增添翅膀

AirBox 團隊針對 StableDiffusion 進行深度優(yōu)化和適配，極速出圖。支持在線模型更換。

ChatDoc：讓AI讀懂你的文件

讓 AirBox 成為你的私人數(shù)據(jù)管家。

Whisper：上百種語言實時轉(zhuǎn)文本

Whisper 這個高效的語音識別模型能夠?qū)崟r將語音轉(zhuǎn)換為文本，支持近百種語言，極大地提升了信息獲取的便捷性和準確性。無論是會議記錄、實時多語翻譯還是為視聽障人士提供實時字幕，Whisper 都能提供強大的支持，教育、醫(yī)療、法律等多個領(lǐng)域都將受益于其精準和快速的語音轉(zhuǎn)錄服務(wù)。

未來，以LLaMa、Stable Diffusion、Whisper 等生成式AI模型為基座，將誕生更多模態(tài)的交叉應(yīng)用，催生出前所未見的智算能力，覆蓋語音、圖像和文本等多個領(lǐng)域。設(shè)想這樣一個場景：一個全能的智能個人助理，Whisper加TTS模型提供真實的多語種能力，實時翻譯和轉(zhuǎn)寫全球任何一種語言的對話，同時利用Stable Diffusion創(chuàng)造出視覺內(nèi)容來輔助溝通，這將徹底改變國際會議、遠程教育和全球合作的方式，加速數(shù)字世界的到來！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴