chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

對比NEON匯編與NEON Intrinsics編程的優(yōu)缺點

安芯教育科技 ? 來源:安謀科技學堂 ? 作者:安謀科技學堂 ? 2022-12-14 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群


本文選自極術專欄《Infrastructure開源軟件 on Arm》的Arm NEON學習系列。前面我們學習了如何快速上手開始NEON編程以及ArmNEON優(yōu)化技術,本篇我們將對比NEON匯編與NEON Intrinsics編程的優(yōu)缺點。

1.簡介

ARMNEON編程主要有兩種最常用的方式手寫匯編和Intrinsics。本文將對比NEON匯編與NEON Intrinsics編程的優(yōu)缺點。

2.NEON匯編與Intrinsics

NEON匯編與Intrinsics各有優(yōu)缺點:

47ea516c-7b4b-11ed-8abf-dac502259ad0.png

NEON匯編與Intrinsics各有優(yōu)缺點:但實際情況遠遠比這些復雜很多,特別是涉及到ARM v7-A/v8-A跨平臺的時候。下面我們結合實例做一些更深入的分析。

2.1 編程

對于初學者來說,Intrinsics比較易學易用。但是對于有匯編經驗的開發(fā)者來說,可能更熟悉NEON匯編編程,切換到Intrinsics反倒需要有個適應過程。下文列出了實際開發(fā)中的一些問題。

2.1.1 指令靈活性

從指令使用角度來說,匯編指令比Intrinsics指令更靈活,主要體現在數據加載/存儲上,比如下例:

  • Intrinsics指令

    • 加載數據到一個64位寄存器 vld1_s8/u8/s16/u16/s32…etc

    • 加載數據到一個128位寄存器vld1q_s8/u8/s16/u16/s32…etc

  • ARM v7-A匯編

VLD1 { Dd}, [Rn]
VLD1 { Dd, D(d+1) }, [Rn]
VLD1 { Dd, D(d+1), D(d+2)}, [Rn]
VLD1 { Dd, D(d+1), D(d+2), D(d+3) }, [Rn]
  • ARM v8-A匯編

LD1 { .]
LD1 { ., .}, []
LD1 { ., ., . }, []
LD1 { ., ., ., . }, []

這個問題主要針對現在,相信隨著編譯器的升級這些問題會逐漸解決的。

在一些情況下,有的編譯器已經能把兩條指令解析成一條匯編指令,比如:


48055d4a-7b4b-11ed-8abf-dac502259ad0.png
因此,我們有理由由相信,隨著ARM v8-A編譯器的不斷升級,intrinsics指令會完善到跟匯編指令一樣靈活的。

2.1.2 寄存器分配

NEON匯編編程時,需要自己分配寄存器,用戶必須清楚寄存器的使用情況。而Intrinsics編程的一個好處就是,用戶只需要定義變量即可,編譯器會自動分配寄存器。這是優(yōu)點,但有時也會變成弱點。實踐證明,因為ARMv7-A只有16個128位NEON寄存器,在Intrinsics編程時,如果用戶同時使用過多的NEON寄存器,會導致gcc編譯器的寄存器分配問題。主要表現是編譯器會把很多數據存儲到堆棧中,這樣會極大的影響程序性能。因此用戶在使用Intrinsics編程時要注意這個問題。在性能出現異常時(比如C程序的性能比NEON程序的性能要好),檢查反匯編,看是否有寄存器分配的問題出現。在ARM64中,有32個128位NEON寄存器,這個問題的影響大大減弱。

2.2 性能與編譯器

在同一平臺下,NEON匯編的性能與編譯器無關,只由NEON的實現方式決定。好處是用戶在調整代碼時,用戶可以預測、控制自己程序的性能,但沒有驚喜。

NEON Intrinsics 的性能則極大的依賴于編譯器,不同的編譯器,性能可能有極大的差別。一般來說,越老版本的編譯器,性能越差。如果用戶需要保留對老版本編譯器兼容性時,需要慎重考慮使用Intrinsics。此外,當用戶優(yōu)化代碼細節(jié)的時候,編譯器的介入,使用戶很難預測程序性能的變化,但有時候會有驚喜,有時Intrinsics的性能會比匯編的性能要好。盡管很少見,但確實存在。

編譯器主要對優(yōu)化NEON程序造成影響。下圖是NEON實現及優(yōu)化的一般流程:

481e5a48-7b4b-11ed-8abf-dac502259ad0.png

對于NEON匯編或是Intrinsics來講,實現流程是一樣的,編程——調試——測試。但是調優(yōu)的步驟是不一樣的。

NEON匯編的調優(yōu)方式主要有:

? 改變實現方式,比如改變所用指令,調整并行方式。

? 調整指令順序,以降低數據依賴性

? 上文第二章所介紹的方式都可以嘗試

在匯編調優(yōu)時,最精細方式是:

? 確定匯編指令數目和指令的時序

? 使用PMU (Performance Monitoring Unit)測量程序執(zhí)行的周期數

? 根據使用指令的時序,調整程序,盡量減少指令延時

這種方式的缺點是,針對指定微架構的調整,換到另外的平臺性能不一定會好。經?;ㄙM很大的工作量而只能取得很小的性能提升。

NEON intrinsics的調優(yōu)則比較困難,

? 嘗試NEON匯編所用的調優(yōu)方式,然后

? 觀察反匯編,看看數據依賴性、寄存器使用等情況

? 判斷優(yōu)化效果是否達到預期, 如果符合預期則工作結束。此時,需要測試多種編譯器,檢查性能的異同。

在使用intrinsics轉換ARMv7-A的匯編時,優(yōu)化效果判斷比較簡單,只要Intrinsics性能接近匯編性能即可。但是,在使用Intrinsics優(yōu)化ARM v8-A的代碼時,我們沒有性能參考的對象,較難判斷代碼是否調整到最優(yōu)狀態(tài)了??赡軙幸蓡?,會不會匯編實現的性能會更好?但隨著整個ARM v8-A環(huán)境的成熟,這個問題帶來的影響會越來越小。另外,如果更看重Intrinsics的其它優(yōu)點,對性能也不是錙銖必較的話,這個問題的影響也不大。

2.3 跨平臺與可移植性

現在,現有的大部分NEON匯編代碼只能運行在ARM v7-A或是ARM v8-A AArch32模式的平臺上。想要運行在ARM v8-A AArch64模式的平臺,我們必須重寫代碼,這帶來了很大的工作量。這時,NEON Intrinsics代碼的好處就體現出來了,在ARM v8-A AArch64模式下,我們可以直接運行這些代碼,減少了重寫代碼的工作量。同時,我們可以只維護一套代碼,這樣也減少了維護的工作量。

然而,由于ARMv7-A/ARMv8-A的硬件資源不同,即使用Intrinsics,有時我們也需要兩套代碼。Ne10中FFT實現就是一個例子:

// radix 4 butterfly with twiddles
scratch[0].r = scratch_in[0].r;
scratch[0].i = scratch_in[0].i;
scratch[1].r = scratch_in[1].r * scratch_tw[0].r - scratch_in[1].i * scratch_tw[0].i;
scratch[1].i = scratch_in[1].i * scratch_tw[0].r + scratch_in[1].r * scratch_tw[0].i;
scratch[2].r = scratch_in[2].r * scratch_tw[1].r - scratch_in[2].i * scratch_tw[1].i;
scratch[2].i = scratch_in[2].i * scratch_tw[1].r + scratch_in[2].r * scratch_tw[1].i;
scratch[3].r = scratch_in[3].r * scratch_tw[2].r - scratch_in[3].i * scratch_tw[2].i;
scratch[3].i = scratch_in[3].i * scratch_tw[2].r + scratch_in[3].r * scratch_tw[2].i;

上述代碼描述了32位浮點復數FFT算法的基本元——基4蝶形運算。從代碼中我們可以看出:

? 如果在一次循環(huán)中,兩個基4蝶形運算并行,需要20個 64位寄存器。

? 如果在一次循環(huán)中,四個基4蝶形運算并行,需要20個 128位寄存器。

由于ARM v7-A只有16個128位寄存器,因此,該平臺的FFT實現僅能一次循環(huán)兩個基4蝶形運算并行。而ARM v8-A有32個128位寄存器,該平臺的FFT實現能一次循環(huán)四個基4蝶形運算并行。因此,即使用Intrinsics,我們也需要兩套代碼。

上例可以說明,在實現一套代碼跨ARM v7-A/v8-A平臺時,我們需要注意一些類似的特例。

2.4 將來

上面已經分析了NEON匯編與Intrinsics的很多問題,但是這些問題都是暫時的。長遠來看,使用intrinsics還是更好。Intrinsics能帶來硬件以及編譯器發(fā)展的好處。經典算法只要實現一次即可,不用隨著硬件的升級而重新編程,大大減少了工作量。

2.5 總結

結合實例,上文對NEON匯編和Intrinsics做了一些分析??傮w來說,使用intrinsics利大于弊。特別是與匯編相比,Intrinsics更容易編程,且能夠更好地兼容ARMv7-A/ARMv8-A。

下面再總結一下NEON Intrinsics使用時的一些注意事項:

? 使用的寄存器數量

? 編譯器選擇

? 查看反匯編

3.總結

本文通過實際程序分析了NEON匯編與Intrinsics的優(yōu)缺點。希望能對用戶在NEON實際開發(fā)中有些借鑒意義。

審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 寄存器
    +關注

    關注

    31

    文章

    5601

    瀏覽量

    129574
  • 編程
    +關注

    關注

    90

    文章

    3711

    瀏覽量

    96983

原文標題:Arm NEON學習(三)NEON 匯編與Intrinsics編程

文章出處:【微信號:Ithingedu,微信公眾號:安芯教育科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    對比分析電能質量在線監(jiān)測裝置支持的斷點續(xù)傳文件傳輸協(xié)議的優(yōu)缺點

    優(yōu)缺點對比分析: 一、各協(xié)議優(yōu)缺點逐一拆解 1. FTP(文件傳輸協(xié)議) 優(yōu)點 斷點續(xù)傳機制成熟 :依托REST命令可精準定位字節(jié)偏移量,支持大文件分塊續(xù)傳,且內置 CRC 校驗保障數據完整性,是裝置的基礎標配功能,適配性強。
    的頭像 發(fā)表于 12-05 17:49 ?3194次閱讀
    <b class='flag-5'>對比</b>分析電能質量在線監(jiān)測裝置支持的斷點續(xù)傳文件傳輸協(xié)議的<b class='flag-5'>優(yōu)缺點</b>

    超級電容對比鋰電池的優(yōu)缺點

    本文探討了超級電容和鋰電池在儲能領域的優(yōu)缺點。超級電容以高能量密度著稱,但充電速度較慢;鋰電池則具有快充和壽命長的優(yōu)勢,但成本較高。在新能源汽車和電網調頻等高頻次應用中,兩者可以互補。
    的頭像 發(fā)表于 06-30 09:37 ?2366次閱讀
    超級電容<b class='flag-5'>對比</b>鋰電池的<b class='flag-5'>優(yōu)缺點</b>

    商業(yè)云手機核心優(yōu)缺點分析

    商業(yè)云手機核心優(yōu)缺點分析,綜合技術性能、成本效率及場景適配性等多維度對比: 核心優(yōu)勢? 成本革命? 硬件零投入?:免除實體手機采購(旗艦機均價6000元),企業(yè)百臺規(guī)??墒?0萬+ CAPEX
    的頭像 發(fā)表于 06-16 08:11 ?861次閱讀
    商業(yè)云手機核心<b class='flag-5'>優(yōu)缺點</b>分析

    在IAR Embedded Workbench for Arm中使用Arm Cortex-R52 NEON

    隨著嵌入式系統(tǒng)變得越來越智能,對嵌入式處理器的要求也越來越高。為了更好應對汽車、醫(yī)療和工業(yè)機器人等領域對嵌入式處理器的要求,Arm推出了采用Armv8-R架構的Cortex-R52。Cortex-R52相對之前的處理器引入了很多新的特性,其中一個就是NEON。
    的頭像 發(fā)表于 06-05 09:57 ?1741次閱讀
    在IAR Embedded Workbench for Arm中使用Arm Cortex-R52 <b class='flag-5'>NEON</b>

    PCBA 表面處理:優(yōu)缺點大揭秘,應用場景全解析

    一站式PCBA加工廠家今天為大家講講PCBA加工如何選擇合適的表面處理工藝?PCBA表面處理優(yōu)缺點與應用場景。在電子制造中,PCBA板的表面處理工藝對電路板的性能、可靠性和成本都有重要影響。選擇合適
    的頭像 發(fā)表于 05-05 09:39 ?1275次閱讀
    PCBA 表面處理:<b class='flag-5'>優(yōu)缺點</b>大揭秘,應用場景全解析

    3D打印耗材種類有哪些?各有什么優(yōu)缺點?

    這篇文章將為你詳細介紹3D打印耗材的基礎知識,幫助你了解這些材料的特性、優(yōu)缺點以及它們適合的應用場景。
    的頭像 發(fā)表于 04-29 09:40 ?5.2w次閱讀
    3D打印耗材種類有哪些?各有什么<b class='flag-5'>優(yōu)缺點</b>?

    CMOS,Bipolar,FET這三種工藝的優(yōu)缺點是什么?

    在我用photodiode工具選型I/V放大電路的時候,系統(tǒng)給我推薦了AD8655用于I/V,此芯片為CMOS工藝 但是查閱資料很多都是用FET工藝的芯片,所以請教下用于光電信號放大轉換(主要考慮信噪比和帶寬)一般我們用哪種工藝的芯片, CMOS,Bipolar,FET這三種工藝的優(yōu)缺點是什么?
    發(fā)表于 03-25 06:23

    壓接連接器使用裸銅線的優(yōu)缺點分析?

    壓接連接器使用裸銅線是一種高效、可靠的電氣連接方式,廣泛應用于電力、通信和工業(yè)領域。需要我們正確看待它的優(yōu)缺點,高效使用。
    的頭像 發(fā)表于 03-18 11:01 ?979次閱讀

    單頻天線和雙頻天線的對比

    單頻天線和雙頻天線是無線通信領域中兩種常見的天線類型,它們各自有著特定的應用場景和優(yōu)缺點。本期我們將對這兩種天線進行簡要的對比
    的頭像 發(fā)表于 03-17 15:37 ?1841次閱讀

    淺談汽車系統(tǒng)電壓優(yōu)缺點分析

    以下是12V、24V、48V系統(tǒng)的簡單介紹,包括技術特點、優(yōu)缺點及典型應用場景。汽車電氣系統(tǒng)的發(fā)展隨著車輛電子設備的增多和對能效要求的提高,電壓等級也在逐步提升,從傳統(tǒng)的12V電
    的頭像 發(fā)表于 03-06 08:04 ?1632次閱讀
    淺談汽車系統(tǒng)電壓<b class='flag-5'>優(yōu)缺點</b>分析

    惠斯通電橋的優(yōu)缺點分析

    惠斯通電橋作為一種經典的電阻測量工具,具有其獨特的優(yōu)缺點。以下是對惠斯通電橋優(yōu)缺點的詳細分析: 優(yōu)點 高精度 : 惠斯通電橋通過比較電壓差來精確測量電阻值,對于微小的電阻變化也能迅速作出反應,因此
    的頭像 發(fā)表于 02-13 15:26 ?2270次閱讀

    硅谷物理服務器的優(yōu)缺點分析

    硅谷物理服務器因其高性能、高質量和先進的技術支持而在全球范圍內享有很高的聲譽。硅谷物理服務器的優(yōu)缺點分析如下,主機推薦小編為您整理發(fā)布硅谷物理服務器的優(yōu)缺點分析。
    的頭像 發(fā)表于 02-12 09:30 ?643次閱讀

    香港主機托管和國內主機的優(yōu)缺點比較

    香港主機托管和國內主機(以大陸主機為例)的優(yōu)缺點比較,主機推薦小編為您整理發(fā)布香港主機托管和國內主機的優(yōu)缺點比較,希望對您有幫助。
    的頭像 發(fā)表于 02-05 17:42 ?796次閱讀

    東京站群服務器有哪些優(yōu)缺點

    東京站群服務器,作為部署在東京地區(qū)的服務器集群,專為站群優(yōu)化而建,其優(yōu)缺點如下,主機推薦小編為您整理發(fā)布東京站群服務器有哪些優(yōu)缺點。
    的頭像 發(fā)表于 02-05 17:39 ?682次閱讀

    光譜傳感器的優(yōu)缺點

    光譜傳感器是一種能夠檢測并響應光譜范圍內不同波長光線的傳感器。以下是對其優(yōu)缺點的詳細分析:
    的頭像 發(fā)表于 01-27 15:28 ?1399次閱讀