chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于Linux內(nèi)核系統(tǒng)調(diào)用是如何實現(xiàn)的與結(jié)果

Linux愛好者 ? 來源:面包板社區(qū) ? 作者:Linux愛好者 ? 2021-03-19 10:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這張圖畫了挺久的,主要是想讓大家可以從全局角度,看下linux內(nèi)核中系統(tǒng)調(diào)用的實現(xiàn)。

在講具體的細(xì)節(jié)之前,我們先根據(jù)上圖,從整體上看一下系統(tǒng)調(diào)用的實現(xiàn)。

系統(tǒng)調(diào)用的實現(xiàn)基礎(chǔ),其實就是兩條匯編指令,分別是syscall和sysret。

syscall使執(zhí)行邏輯從用戶態(tài)切換到內(nèi)核態(tài),在進(jìn)入到內(nèi)核態(tài)之后,cpu會從 MSR_LSTAR 寄存器中,獲取處理系統(tǒng)調(diào)用內(nèi)核代碼的起始地址,即上面的 entry_SYSCALL_64。

在執(zhí)行 entry_SYSCALL_64 函數(shù)時,內(nèi)核代碼會根據(jù)約定,先從rax寄存器中獲取想要執(zhí)行的系統(tǒng)調(diào)用的編號,然后根據(jù)該編號從sys_call_table數(shù)組中找到對應(yīng)的系統(tǒng)調(diào)用函數(shù)。

接著,從 rdi, rsi, rdx, r10, r8, r9 寄存器中獲取該系統(tǒng)調(diào)用函數(shù)所需的參數(shù),然后調(diào)用該函數(shù),把這些參數(shù)傳入其中。

在系統(tǒng)調(diào)用函數(shù)執(zhí)行完畢之后,執(zhí)行結(jié)果會被放到rax寄存器中。

最后,執(zhí)行sysret匯編指令,從內(nèi)核態(tài)切換回用戶態(tài),用戶程序繼續(xù)執(zhí)行。

如果用戶程序需要該系統(tǒng)調(diào)用的返回結(jié)果,則從rax中獲取。

總體流程就是這樣,相對來說,還是比較簡單的,主要就是先去理解syscall和sysret這兩條匯編指令,在理解這兩條匯編指令的基礎(chǔ)上,再去看內(nèi)核源碼,就會容易很多。

有關(guān)syscall和sysret指令的詳細(xì)介紹,請參考Intel 64 and IA-32 Architectures Software Developer’s Manual。

有了上面對系統(tǒng)調(diào)用的整理理解,我們接下來看下其具體的實現(xiàn)細(xì)節(jié)。

以write系統(tǒng)調(diào)用為例,其對應(yīng)的內(nèi)核源碼為:

在內(nèi)核中,所有的系統(tǒng)調(diào)用函數(shù)都是通過 SYSCALL_DEFINE 等宏定義的,比如上面的write函數(shù),使用的是 SYSCALL_DEFINE3。

將該宏展開后,我們可以得到如下的函數(shù)定義:

由上可見,SYSCALL_DEFINE3宏展開后為三個函數(shù),其中只有__x64_sys_write是外部可訪問的,其它兩個都有被static修飾,不能被外部訪問,所以注冊到上文中提到的sys_call_table數(shù)組里的函數(shù),應(yīng)該就是這個函數(shù)。

那該函數(shù)是怎么注冊到這個數(shù)組的呢?

我們先不說答案,先來看下sys_call_table數(shù)組的定義:

由上可見,該數(shù)組各元素的默認(rèn)值都是 __x64_sys_ni_syscall:

該函數(shù)也非常簡單,就是直接返回錯誤碼 -ENOSYS,表示系統(tǒng)調(diào)用非法。

sys_call_table數(shù)組定義的地方好像只設(shè)置了默認(rèn)值,并沒有設(shè)置真正的系統(tǒng)調(diào)用函數(shù)。

我們再看看其他地方,看是否有代碼會注冊真正的系統(tǒng)調(diào)用函數(shù)到sys_call_table數(shù)組里。

可惜,并沒有。

這就奇怪了,那各系統(tǒng)調(diào)用函數(shù)到底是在哪里注冊的呢?

我們再回頭仔細(xì)看下sys_call_table數(shù)組的定義,它在設(shè)置完默認(rèn)值之后,后面還include了一個名為asm/syscalls_64.h的頭文件,這個位置include頭文件還是比較奇怪的,我們看下它里面是什么內(nèi)容。

但是,這個文件居然不存在。

那我們只能初步懷疑這個頭文件是編譯時生成的,帶著這個疑問,我們?nèi)ニ阉飨嚓P(guān)內(nèi)容,確實發(fā)現(xiàn)了一些線索:

這個文件確實是編譯時生成的,上面的makefile中使用了syscalltbl.sh腳本和syscall_64.tbl模板文件來生成這個syscalls_64.h頭文件。

我們來看下syscall_64.tbl模板文件的內(nèi)容:

這里確實定義了write系統(tǒng)調(diào)用,且標(biāo)明了它的編號是1。

我們再來看下生成的syscalls_64.h頭文件:

這里面定義了很多好像宏調(diào)用一樣的東西。

__SYSCALL_COMMON,這個不就是sys_call_table數(shù)組定義那里define的那個宏嘛。

再去上面看下__SYSCALL_COMMON這個宏定義,它的作用是將sym表示的函數(shù)賦值到sys_call_table數(shù)組的nr下標(biāo)處。

所以對于__SYSCALL_COMMON(1, sys_write)來說,它就是注冊__x64_sys_write函數(shù)到sys_call_table數(shù)組下標(biāo)為1的槽位處。

而這個__x64_sys_write函數(shù),正是我們上面猜測的,SYSCALL_DEFINE3定義的write系統(tǒng)調(diào)用,展開之后的一個外部可訪問的函數(shù)。

這樣就豁然開朗了,原來真正的系統(tǒng)調(diào)用函數(shù)的注冊,是通過先定義__SYSCALL_COMMON宏,再include那個根據(jù)syscall_64.tbl模板生成的syscalls_64.h頭文件來完成的,非常巧妙。

系統(tǒng)調(diào)用函數(shù)注冊到sys_call_table數(shù)組的過程,到這里已經(jīng)非常清楚了。

下面我們繼續(xù)來看下哪里在使用這個數(shù)組:

do_syscall_64在使用,方式是先通過nr在sys_call_table數(shù)組中找到對應(yīng)的系統(tǒng)調(diào)用函數(shù),然后再調(diào)用該函數(shù),將regs傳入其中。

這個流程和我們上面預(yù)估的一樣,且傳入的regs參數(shù)類型,和我們上面注冊的系統(tǒng)調(diào)用函數(shù)所需的類型也一樣。

那也就是說,regs參數(shù)的字段里,是帶著各系統(tǒng)調(diào)用函數(shù)所需的參數(shù)的,SYSCALL_DEFINE等宏展開出來的一系列函數(shù),會從這些字段中提取出真正的參數(shù),然后對其進(jìn)行類型轉(zhuǎn)換,最后這些參數(shù)被傳入到最終的系統(tǒng)調(diào)用函數(shù)中。

對于上面的write系統(tǒng)調(diào)用宏展開后的那些函數(shù),__x64_sys_write會先從regs中提取出di, si, dx字段作為真正參數(shù),然后__se_sys_write會將這些參數(shù)轉(zhuǎn)成正確的類型,最后__do_sys_write函數(shù)被調(diào)用,轉(zhuǎn)換后的這些參數(shù)被傳入其中。

在系統(tǒng)調(diào)用函數(shù)執(zhí)行完畢后,其結(jié)果會被賦值到了regs的ax字段里。

由上可見,系統(tǒng)調(diào)用函數(shù)的參數(shù)及返回值的傳遞,都是通過regs來完成的。

但文章開始的時候不是說,系統(tǒng)調(diào)用的參數(shù)及返回值的傳遞,是通過寄存器來完成的嗎,這里怎么是通過struct pt_regs的字段呢?

先別急,先來看下struct pt_regs的定義:

你有沒有發(fā)現(xiàn),這里面的字段名都是寄存器的名字。

那是不是說,在執(zhí)行系統(tǒng)調(diào)用的代碼里,有邏輯把各寄存器里的值放到了這個結(jié)構(gòu)體的對應(yīng)字段里,在結(jié)束系統(tǒng)調(diào)用時,這些字段里的值又被賦值到各個對應(yīng)的寄存器里呢?

離真相越來越近。

我們繼續(xù)看使用了do_syscall_64的地方:

上圖中的entry_SYSCALL_64方法,就是系統(tǒng)調(diào)用流程中最重要的一個方法了,為了便于理解,我對該方法做了很多修改,并添加了很多注釋。

這里需要注意的是100行到121行這段邏輯,它將各寄存器的值壓入到棧中,以此來構(gòu)建struct pt_regs對象。

這就能構(gòu)建出一個struct pt_regs對象了?

是的。

我們回上面看下struct pt_regs的定義,看其字段名字及順序是不是和這里的壓棧順序正好相反。

我們再想下,當(dāng)我們要構(gòu)建一個struct pt_regs對象時,我們要為其在內(nèi)存中分配一塊空間,然后用一個地址來指向這段空間,這個地址就是該struct pt_regs對象的指針,這里需要注意的是,這個指針里存放的地址,是這段內(nèi)存空間的最小地址。

再看上面的壓棧過程,每一次壓棧操作我們都可以認(rèn)為是在分配內(nèi)存空間并賦值,當(dāng)r15被最終壓入到棧中后,整個內(nèi)存空間分配完畢,且數(shù)據(jù)也初始化完畢,此時,rsp指向的棧頂?shù)刂?,就是這段內(nèi)存空間的最小地址,因為壓棧過程中,棧頂?shù)牡刂肥且恢痹谧冃〉摹?/p>

綜上可知,在壓棧完畢后,rsp里的地址就是一個struct pt_regs對象的地址,即該對象的指針。

在構(gòu)建完struct pt_regs對象后,123行將rax中存放的系統(tǒng)調(diào)用編號賦值到了rdx里,124行將rsp里存放的struct pt_regs對象的地址,即該對象的指針,賦值到了rsi中,接著后面執(zhí)行了call指令,來調(diào)用do_syscall_64方法。

調(diào)用do_syscall_64方法之前,對rdi和rsi的賦值,是為了遵守c calling convention,因為在該calling convention中約定,在調(diào)用c方法時,第一個參數(shù)要放到rdi里,第二個參數(shù)要放到rsi里。

我們再去上面看下do_syscall_64方法的定義,參數(shù)類型及順序是不是和我們這里說的是完全一樣的。

在調(diào)用完do_syscall_64方法后,系統(tǒng)調(diào)用的整個流程基本上就快結(jié)束了,上圖中的129行到133行做的都是一些寄存器恢復(fù)的工作,比如從棧中彈出對應(yīng)的值到rax,rip,rsp等等。

這里需要注意的是,棧中rax的值是在上面do_syscall_64方法里設(shè)置的,其存放的是系統(tǒng)調(diào)用的最終結(jié)果。

另外,在棧中彈出的rip和rsp的值,分別是用戶態(tài)程序的后續(xù)指令地址及其堆棧地址。

最后執(zhí)行sysret,從內(nèi)核態(tài)切換回用戶態(tài),繼續(xù)執(zhí)行syscall后面邏輯。

到這里,完整的系統(tǒng)調(diào)用處理流程就已經(jīng)差不多說完了,不過這里還差一小步,就是syscall指令在進(jìn)入到內(nèi)核態(tài)之后,是如何找到entry_SYSCALL_64方法的:

它其實是注冊到了MSR_LSTAR寄存器里了,syscall指令在進(jìn)入到內(nèi)核態(tài)之后,會直接從這個寄存器里拿系統(tǒng)調(diào)用處理函數(shù)的地址,并開始執(zhí)行。

系統(tǒng)調(diào)用內(nèi)核態(tài)的邏輯處理就是這些。

下面我們用一個例子來演示下用戶態(tài)部分:

編譯并執(zhí)行:

我們用syscall來執(zhí)行write系統(tǒng)調(diào)用,寫的字符串為Hi ,syscall執(zhí)行完畢后,我們直接使用ret指令將write的返回結(jié)果當(dāng)作程序的退出碼返回。

所以在上圖中,輸出了Hi,且程序的退出碼是3。

如果對上面的匯編不太理解,可以把它想像成下面這個樣子:

在這里,我們使用的是glibc中的write方法來執(zhí)行該系統(tǒng)調(diào)用,其實該方法就是對syscall指令做的一層封裝,本質(zhì)上使用的還是我們上面的匯編代碼。

這個例子到這里就結(jié)束了。

有沒有覺得不太盡興?

我們分析了這么多的代碼,最終就用了這么個小例子就結(jié)束了,不行,我們要再做點什么。

要不我們來自己寫個系統(tǒng)調(diào)用?

說干就干。

我們先在write系統(tǒng)調(diào)用下面定義一個我們自己的系統(tǒng)調(diào)用:

該方法很簡單,就是將參數(shù)加10,然后返回。

再把這個系統(tǒng)調(diào)用在syscall_64.tbl里注冊一下,編號為442:

編譯內(nèi)核,等待執(zhí)行。

我們再把上面寫的那個hi程序改下并編譯好:

然后在虛擬機中啟動新編譯的linux內(nèi)核,并執(zhí)行上面的程序:

看結(jié)果,正好就是20。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 寄存器
    +關(guān)注

    關(guān)注

    31

    文章

    5495

    瀏覽量

    127783
  • LINUX內(nèi)核
    +關(guān)注

    關(guān)注

    1

    文章

    317

    瀏覽量

    22857

原文標(biāo)題:Linux內(nèi)核:系統(tǒng)調(diào)用是如何實現(xiàn)的

文章出處:【微信號:LinuxHub,微信公眾號:Linux愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    RK3506開發(fā)板Xenomai內(nèi)核RT-Linux實時性系統(tǒng)適配教程與性能實測,實測僅7μs穩(wěn)定延時

    本文基于觸覺智能RK3506核心板/開發(fā)板,介紹Xenomai內(nèi)核RT-Linux實時性系統(tǒng)適配,并附性能實測。簡介與實測數(shù)據(jù)Xenomai簡介XEnomai是一個實時子系統(tǒng),可與
    的頭像 發(fā)表于 09-18 14:21 ?612次閱讀
    RK3506開發(fā)板Xenomai<b class='flag-5'>內(nèi)核</b>RT-<b class='flag-5'>Linux</b>實時性<b class='flag-5'>系統(tǒng)</b>適配教程與性能實測,實測僅7μs穩(wěn)定延時

    開源系統(tǒng)適配:聚徽分享國產(chǎn)工控平板在 Linux / 鴻蒙系統(tǒng)下的技術(shù)優(yōu)化

    工控平板進(jìn)行技術(shù)優(yōu)化,實現(xiàn)Linux、鴻蒙系統(tǒng)的高效適配,成為行業(yè)關(guān)注的焦點。 一、Linux 系統(tǒng)下國產(chǎn)工控平板的技術(shù)優(yōu)化 (一)
    的頭像 發(fā)表于 06-13 16:29 ?590次閱讀

    如何配置和驗證Linux內(nèi)核參數(shù)

    Linux系統(tǒng)運維和性能優(yōu)化中,內(nèi)核參數(shù)(sysctl)的配置至關(guān)重要。合理的參數(shù)調(diào)整可以顯著提升網(wǎng)絡(luò)性能、系統(tǒng)穩(wěn)定性及資源利用率。然而,僅僅修改參數(shù)是不夠的,如何驗證這些參數(shù)是否生
    的頭像 發(fā)表于 05-29 17:40 ?672次閱讀

    Linux內(nèi)核編譯失敗?移動硬盤和虛擬機的那些事兒

    Linux內(nèi)核卻失敗了,這是咋回事?FAT和NTFS文件系統(tǒng)不能支持軟鏈接,在這寫格式的磁盤里編譯內(nèi)核會失敗,同樣也不能在這樣的磁盤里解壓內(nèi)核
    的頭像 發(fā)表于 04-11 11:36 ?577次閱讀
    <b class='flag-5'>Linux</b><b class='flag-5'>內(nèi)核</b>編譯失???移動硬盤和虛擬機的那些事兒

    如何在Linux內(nèi)核5.18版本之后和64位架構(gòu)中從內(nèi)核空間調(diào)用ioctl?

    我嘗試在最近的內(nèi)核中重新構(gòu)建以前版本 (4.19) 的 Linux 設(shè)備驅(qū)動程序,即嵌入式平臺上的 6.1.22,ARM64 架構(gòu)。 驅(qū)動程序管理 tty 設(shè)備。 當(dāng)我調(diào)用類似于用戶空間
    發(fā)表于 04-02 06:06

    樹莓派4 性能大比拼:標(biāo)準(zhǔn)Linux與實時Linux 4.19內(nèi)核的延遲測試

    引言本文是對我之前關(guān)于RaspberryPi3同一主題的帖子的更新。與之前的帖子一樣,我使用的是隨Raspbian鏡像提供的標(biāo)準(zhǔn)內(nèi)核,以及應(yīng)用了RT補丁的相似內(nèi)核版本。對于實時版,我
    的頭像 發(fā)表于 03-25 09:39 ?556次閱讀
    樹莓派4 性能大比拼:標(biāo)準(zhǔn)<b class='flag-5'>Linux</b>與實時<b class='flag-5'>Linux</b> 4.19<b class='flag-5'>內(nèi)核</b>的延遲測試

    嵌入式學(xué)習(xí)-飛凌嵌入式ElfBoard ELF 1板卡-Linux設(shè)備驅(qū)動的分類

    設(shè)備和塊設(shè)備都映射到了虛擬文件系統(tǒng)目錄下。應(yīng)用程序可以通過系統(tǒng)調(diào)用接口open、close、write、read等相關(guān)API進(jìn)行訪問字符設(shè)備和塊設(shè)備,繼而實現(xiàn)對硬件的操作。
    發(fā)表于 03-12 10:20

    飛凌嵌入式ElfBoard ELF 1板卡-Linux設(shè)備驅(qū)動的分類

    設(shè)備和塊設(shè)備都映射到了虛擬文件系統(tǒng)目錄下。應(yīng)用程序可以通過系統(tǒng)調(diào)用接口open、close、write、read等相關(guān)API進(jìn)行訪問字符設(shè)備和塊設(shè)備,繼而實現(xiàn)對硬件的操作。
    發(fā)表于 03-10 17:00

    基于OpenSBI的linux nommu實現(xiàn)

    Linux內(nèi)核6.10提供了對沒有mmu的riscv處理器工作在S模式下的內(nèi)核的支持,本文介紹基于OpenSBI的linuxnommu的實現(xiàn),供大家參考。1、OpenSBI介紹SBI
    的頭像 發(fā)表于 02-08 13:43 ?946次閱讀
    基于OpenSBI的<b class='flag-5'>linux</b> nommu<b class='flag-5'>實現(xiàn)</b>

    騰訊云內(nèi)核團隊修復(fù)Linux關(guān)鍵Bug

    騰訊云操作系統(tǒng)(Tencent OS)內(nèi)核團隊近日在Linux社區(qū)取得了顯著成果。他們提交的兩項改進(jìn)方案,成功解決了自2021年以來一直困擾眾多一線廠商,并在近期讓多個Linux頂級
    的頭像 發(fā)表于 12-31 10:58 ?839次閱讀

    飛凌嵌入式ElfBoard ELF 1板卡-Linux內(nèi)核移植之內(nèi)核簡介

    學(xué)到本章節(jié),大家應(yīng)該對Linux操作系統(tǒng)都有了一定的了解,但可能還不知道我們拿到手的內(nèi)核源碼都經(jīng)歷了什么。linux有一個龐大的開源社區(qū),每個人都可以向開源社區(qū)提交代碼。由于
    發(fā)表于 12-13 09:03

    嵌入式工程師都在找的【Linux內(nèi)核調(diào)試技術(shù)】建議收藏!

    在嵌入式系統(tǒng)的開發(fā)中,Linux內(nèi)核調(diào)試是一個至關(guān)重要的環(huán)節(jié)。 隨著處理器技術(shù)的不斷進(jìn)步和嵌入式領(lǐng)域的蓬勃發(fā)展,掌握有效的內(nèi)核調(diào)試技術(shù)成為了開發(fā)者們的一項必備技能。本文將介紹幾種常見
    發(fā)表于 11-28 15:37

    Linux系統(tǒng)中shell命令解析

    shell是Linux系統(tǒng)的用戶界面,提供了用戶與內(nèi)核交互的一種接口,它接收用戶輸入的命令并到送到內(nèi)核去執(zhí)行,因此也被稱為Linux的命令解
    的頭像 發(fā)表于 11-05 15:40 ?1197次閱讀

    deepin社區(qū)亮相第19屆中國Linux內(nèi)核開發(fā)者大會

    中國 Linux 內(nèi)核開發(fā)者大會,作為中國 Linux 內(nèi)核領(lǐng)域最具影響力的峰會之一,一直以來都備受矚目。
    的頭像 發(fā)表于 10-29 16:35 ?1154次閱讀

    linux內(nèi)核中通用HID觸摸驅(qū)動

    linux內(nèi)核中,為HID觸摸面板實現(xiàn)了一個通用的驅(qū)動程序,位于/drivers/hid/hid-multitouch.c文件中。hid觸摸驅(qū)動是以struct hid_driver實現(xiàn)
    的頭像 發(fā)表于 10-29 10:55 ?3115次閱讀
    <b class='flag-5'>linux</b><b class='flag-5'>內(nèi)核</b>中通用HID觸摸驅(qū)動