chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OneFlow 將 Stable Diffusion的推理性能推向了一個全新的SOTA

人工智能與大數(shù)據(jù)技術(shù) ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-11-30 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

OneFlow 將 Stable Diffusion 的推理性能推向了一個全新的 SOTA。

第一輛汽車誕生之初,時速只有 16 公里,甚至不如馬車跑得快,很長一段時間,汽車尷尬地像一種“很酷的玩具”。人工智能作圖的出現(xiàn)也是如此。

AI 作圖一開始的 “風(fēng)格化” 本身就為 “玩” 而生,大家普遍興致勃勃地嘗試頭像生成、磨皮,但很快就失去興趣。直到擴(kuò)散模型的降臨,才給 AI 作圖帶來質(zhì)變,讓人們看到了 “AI 轉(zhuǎn)成生產(chǎn)力” 的曙光:畫家、設(shè)計師不用絞盡腦汁思考色彩、構(gòu)圖,只要告訴 Diffusion 模型想要什么,就能言出法隨般地生成高質(zhì)量圖片。

然而,與汽車一樣,如果擴(kuò)散模型生成圖片時“馬力不足”,那就沒法擺脫玩具的標(biāo)簽,成為人類手中真正的生產(chǎn)工具。

起初,AI 作圖需要幾天,再縮減到幾十分鐘,再到幾分鐘,出圖時間在不斷加速,問題是,究竟快到什么程度,才會在專業(yè)的美術(shù)從業(yè)者甚至普通大眾之間普及開來?

顯然,現(xiàn)在還無法給出具體答案。即便如此,可以確定的是 AI 作圖在技術(shù)和速度上的突破,很可能已經(jīng)接近甚至超過閾值,因?yàn)檫@一次,OneFlow 帶來了字面意義上 “一秒出圖” 的 Stable Diffusion 模型。

OneFlow Stable Diffusion 使用地址:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

OneFlow 地址:https://github.com/Oneflow-Inc/oneflow/

比快更快,OneFlow 一馬當(dāng)先

下面的圖表分別展示了在 A100 (PCIe 40GB / SXM 80GB)、RTX 2080 和 T4 不同類型的 GPU 硬件上,分別使用 PyTorch, TensorRT, AITemplate 和 OneFlow 四種深度學(xué)習(xí)框架或者編譯器,對 Stable Diffusion 進(jìn)行推理時的性能表現(xiàn)。

659d18c6-7050-11ed-8abf-dac502259ad0.png

65b0bbce-7050-11ed-8abf-dac502259ad0.png

對于 A100 顯卡,無論是 PCIe 40GB 的配置還是 SXM 80GB 的配置,OneFlow 的性能可以在目前的最優(yōu)性能之上繼續(xù)提升 15% 以上。

特別是在 SXM 80GB A100 上,OneFlow 首次讓 Stable Diffusion 的推理速度達(dá)到了 50it/s 以上,首次把生成一張圖片需要采樣 50 輪的時間降到 1 秒以內(nèi),是當(dāng)之無愧的性能之王。

65bb3a0e-7050-11ed-8abf-dac502259ad0.png

在 T4 推理卡上,由于 AITemplate 暫不支持 Stable Diffsuion,相比于目前 SOTA 性能的 TensorRT,OneFlow 的性能是它的 1.5 倍。

65c97db2-7050-11ed-8abf-dac502259ad0.png

而在 RTX2080 上,TensorRT 在編譯 Stable Diffsuion 時會 OOM ,相比于目前 SOTA 性能的 PyTorch,OneFlow 的性能是它的 2.25 倍。

綜上,在各種硬件以及更多框架的對比中,OneFlow 都將 Stable Diffusion 的推理性能推向了一個全新的 SOTA。

生成圖片展示

利用 OneFlow 版的 Stable Diffusion,你可以把天馬行空的想法很快轉(zhuǎn)化成藝術(shù)圖片,譬如:

以假亂真的陽光、沙灘和椰樹:

倉鼠救火員、長兔耳朵的狗子:

在火星上吃火鍋:

未來異世界 AI:

集齊 OneFlow 七龍珠:

圖片均基于 OneFlow 版 Stable Diffusion 生成。如果你一時沒有好的 idea,可以在 lexica 上參考一下廣大網(wǎng)友的創(chuàng)意,不僅有生成圖片還提供了對應(yīng)的描述文字。

無縫兼容 PyTorch 生態(tài),實(shí)現(xiàn)一鍵模型遷移

想體驗(yàn) OneFlow Stable Diffusion?只需要修改三行代碼,你就可以將 HuggingFace 中的 PyTorch Stable Diffusion 模型改為 OneFlow 模型,分別是將 import torch 改為 import oneflow as torch 和將 StableDiffusionPipeline 改為 OneFlowStableDiffusionPipeline:

669e52e4-7050-11ed-8abf-dac502259ad0.png

之所以能這么輕松遷移模型,是因?yàn)?OneFlow Stable Diffusion 有兩個出色的特性:

OneFlowStableDiffusionPipeline.from_pretrained 能夠直接使用 PyTorch 權(quán)重。

OneFlow 本身的 API 也是和 PyTorch 對齊的,因此 import oneflow as torch 之后,torch.autocast、torch.float16 等表達(dá)式完全不需要修改。

上述特性使得 OneFlow 兼容了 PyTorch 的生態(tài),這不僅在 OneFlow 對 Stable Diffusion 的遷移中發(fā)揮了作用,也大大加速了 OneFlow 用戶遷移其它許多模型,比如在和 torchvision 對標(biāo)的 flowvision 中,許多模型只需通過在 torchvision 模型文件中加入 import oneflow as torch 即可得到。

此外,OneFlow 還提供全局 “mock torch” 功能,在命令行運(yùn)行 eval $(oneflow-mock-torch) 就可以讓接下來運(yùn)行的所有 Python 腳本里的 import torch 都自動指向 oneflow。

使用 OneFlow 運(yùn)行 Stable Diffusion

在 docker 中使用 OneFlow 運(yùn)行 StableDiffusion 模型生成圖片:

docker run --rm -it --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -v ${HF_HOME}:${HF_HOME} -v ${PWD}:${PWD} -w ${PWD} -e HF_HOME=${HF_HOME} -e HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN} oneflowinc/oneflow-sd:cu112 python3 /demos/oneflow-t2i.py # --prompt "a photo of an astronaut riding a horse on mars"

更詳盡的使用方法請參考:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

后續(xù)工作

后續(xù) OneFlow 團(tuán)隊(duì)將積極推動 OneFlow 的 diffusers(https://github.com/Oneflow-Inc/diffusers.git) 和 transformers(https://github.com/Oneflow-Inc/transformers.git) 的 fork 倉庫內(nèi)容合并到 huggingface 上游的的對應(yīng)倉庫。這也是 OneFlow 首次以 transformers/diffusers 的后端的形式開發(fā)模型,歡迎各位開發(fā)者朋友在 GitHub 上反饋意見。

值得一提的是,在優(yōu)化和加速 Stable Diffusion 模型的過程中使用了 OneFlow 自研編譯器,不僅讓 PyTorch 前端搭建的 Stable Diffusion 在 NVIDIA GPU 上跑得更快,而且也可以讓這樣的模型在國產(chǎn) AI 芯片和 GPU 上跑得更快,這些將在之后的文章中揭秘技術(shù)細(xì)節(jié)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279923
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49028

    瀏覽量

    249514
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3689

    瀏覽量

    43831

原文標(biāo)題:1秒出圖,這個開源項(xiàng)目太牛了!

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    中軟國際智算中心成功完成華為EP方案驗(yàn)證

    在大模型邁向規(guī)模化應(yīng)用的新階段,推理性能成為決定AI落地成敗的關(guān)鍵因素。中軟國際智算中心積極響應(yīng)國產(chǎn)智算體系建設(shè)戰(zhàn)略,率先完成華為昇騰“大規(guī)模專家并行”(EP)推理方案驗(yàn)證,在DeepSeek-R1模型推理任務(wù)中實(shí)現(xiàn)3倍單卡吞吐
    的頭像 發(fā)表于 07-14 14:54 ?557次閱讀

    如何在Ollama中使用OpenVINO后端

    /GPU/NPU)為模型推理提供高效的加速能力。這種組合不僅簡化了模型的部署和調(diào)用流程,還顯著提升了推理性能,特別適合需要高性能和易用性的場景。
    的頭像 發(fā)表于 04-14 10:22 ?474次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴(kuò)展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化
    的頭像 發(fā)表于 03-20 15:03 ?649次閱讀

    從零復(fù)現(xiàn),全面開源:360 Light-R1-14B/7B帶來端側(cè)AI平權(quán)時刻

    14B開源颶風(fēng),360掀起端側(cè)推理性能革命
    的頭像 發(fā)表于 03-16 10:47 ?551次閱讀
    從零復(fù)現(xiàn),全面開源:360 Light-R1-14B/7B帶來端側(cè)AI平權(quán)時刻

    探討DeepSeek-R1滿血版的推理部署與優(yōu)化策略

    TL;DR 春節(jié)假期開始, 好像很多人都在開始卷DeepSeek-R1的推理了. 渣B也被兄弟團(tuán)隊(duì)帶著起卷陣, 其實(shí)推理中還有很多約束
    的頭像 發(fā)表于 02-14 10:19 ?1470次閱讀
    探討DeepSeek-R1滿血版的<b class='flag-5'>推理</b>部署與優(yōu)化策略

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?720次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理性能</b>

    NVIDIA Jetson Orin Nano開發(fā)者套件的新功能

    生成式 AI 領(lǐng)域正在迅速發(fā)展,每天都有新的大語言模型(LLM)、視覺語言模型(VLM)和視覺語言動作模型(VLA)出現(xiàn)。為了在這充滿變革的時代保持領(lǐng)先,開發(fā)者需要足夠強(qiáng)大的平臺
    的頭像 發(fā)表于 12-23 12:54 ?1106次閱讀
    NVIDIA Jetson Orin Nano開發(fā)者套件的新功能

    利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

    PyTorch 是廣泛應(yīng)用的開源機(jī)器學(xué)習(xí) (ML) 庫。近年來,Arm 與合作伙伴通力協(xié)作,持續(xù)改進(jìn) PyTorch 的推理性能。本文詳細(xì)介紹如何利用 Arm Kleidi 技術(shù)
    的頭像 發(fā)表于 12-23 09:19 ?1059次閱讀
    利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是專為優(yōu)化大語言模型 (LLM) 推理而設(shè)計的庫。它提供多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?870次閱讀

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?560次閱讀
    如何開啟<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> WebUI模型<b class='flag-5'>推理</b>部署

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會選擇其作為開發(fā) AI 應(yīng)用的庫。通過部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器上運(yùn)行 LLM 的性能。Arm 通過 Kleidi 技術(shù)直接集成到 PyTorch 中,
    的頭像 發(fā)表于 12-03 17:05 ?1489次閱讀
    Arm KleidiAI助力提升PyTorch上LLM<b class='flag-5'>推理性能</b>

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT問世以來,大模型遍地開花,承載大模型應(yīng)用的高性能推理框架也不斷推出,大有百家爭鳴之勢。在這種情況下,澎峰科技作為全球領(lǐng)先的智能計算服務(wù)提供商,在2023年11月25日發(fā)布針對大語言
    的頭像 發(fā)表于 09-29 10:14 ?1474次閱讀
    澎峰科技高<b class='flag-5'>性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

    開箱即用,AISBench測試展示英特爾至強(qiáng)處理器的卓越推理性能

    近期,第五代英特爾?至強(qiáng)?可擴(kuò)展處理器通過了中國電子技術(shù)標(biāo)準(zhǔn)化研究院組織的人工智能服務(wù)器系統(tǒng)性能測試(AISBench)。英特爾成為首批通過AISBench大語言模型(LLM)推理性能測試的企業(yè)
    的頭像 發(fā)表于 09-06 15:33 ?822次閱讀
    開箱即用,AISBench測試展示英特爾至強(qiáng)處理器的卓越<b class='flag-5'>推理性能</b>

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的應(yīng)用價值?!?/div>
    的頭像 發(fā)表于 08-23 15:48 ?1140次閱讀

    實(shí)操: 如何在AirBox上跑Stable Diffusion 3

    StableDiffusion3Medium是種多模態(tài)擴(kuò)散變換器(MMDiT)文本到圖像模型,在圖像質(zhì)量、排版、復(fù)雜提示理解和資源效率方面具有顯著提升的性能。目前瑞莎團(tuán)隊(duì)
    的頭像 發(fā)表于 07-23 08:34 ?593次閱讀
    實(shí)操: 如何在AirBox上跑<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> 3