Linux內(nèi)核及相應的驅(qū)動程序都采用GNU[9]的開源編譯器GCC[9]編譯,為了結(jié)合LCRT機制方便地提取信息和記錄信息,需要采用特定的GCC編譯器選項來編譯Linux內(nèi)核和相關(guān)的驅(qū)動程序以及應用程序。用到的選項為:-mpoke-function-name[9]。使用這個選項編譯出的二進制程序中可以包含C語言函數(shù)名稱的信息,以方便函數(shù)調(diào)用鏈回溯時記錄信息的可讀性。
(2) Linux內(nèi)核notify_chain機制[8]
Linux內(nèi)核提供“通知鏈”功能,并預定義了一個內(nèi)核崩潰通知鏈,在Linux內(nèi)核的異常處理例程中判斷出系統(tǒng)進入“不可恢復”狀態(tài)時,會沿預定義的通知鏈順序調(diào)用注冊到相應鏈中的通知函數(shù)。
(3) 函數(shù)調(diào)用的棧布局
Linux內(nèi)核的絕大部分由C語言實現(xiàn),而且C語言也多用來進行Linux內(nèi)核開發(fā)。Linux內(nèi)核及使用LKM擴展而加入Linux內(nèi)核執(zhí)行環(huán)境的代碼是有規(guī)律可循的,這些代碼在執(zhí)行過程中產(chǎn)生的棧布局和這些規(guī)律的代碼相關(guān)聯(lián)。例如,這些函數(shù)在執(zhí)行函數(shù)之前會保存本函數(shù)調(diào)用后的返回地址、本函數(shù)被調(diào)用時傳遞過來的參數(shù)及調(diào)用本函數(shù)的函數(shù)所擁有的棧幀的棧底。
2.2 LCRT機制的設(shè)計思想
LCRT機制分為Linux內(nèi)核模塊[8]部分和Linux用戶程序部分。內(nèi)核模塊部分的設(shè)計采用了Linux內(nèi)核模塊的模式而不是直接修改Linux內(nèi)核。這樣的設(shè)計降低了Linux內(nèi)核和LCRT機制之間的耦合度,同時滿足了Linux內(nèi)核和LCRT機制獨立升級完善的便利性。用戶程序部分完成從非易失性存儲器中讀取、清除LCRT機制保存的信息等相關(guān)功能。
在LCRT機制的設(shè)計中,針對嵌入式系統(tǒng)的特點,其設(shè)計決策有:
(1) 將對于解決和定位問題最具輔助意義的函數(shù)調(diào)用關(guān)系鏈記錄下來。
(2) 為了不占用過多的存儲空間,有選擇性地將函數(shù)調(diào)用序列上的函數(shù)各自用到的棧內(nèi)容保存起來,而不是保存全部內(nèi)容。
(3) 將記錄的信息保存到非易失性存儲器中,這樣既達到了掉電保存的目的、又縮短了寫入時間。
LCRT機制的設(shè)計包括以下五個方面。
(1) 設(shè)計Linux內(nèi)核模塊、動態(tài)地加載LCRT機制、盡量少地修改Linux內(nèi)核代碼。
(2)在相應、預定義的Linux內(nèi)核通知鏈上掛接LCRT的通知函數(shù)。
(3) 在LCRT機制的通知處理函數(shù)中進行堆?;厮莸玫胶瘮?shù)調(diào)用信息。
(4) 記錄回溯到的函數(shù)調(diào)用信息和堆??臻g內(nèi)容到非易失性存儲器。
(5) 開發(fā)用戶空間的工具,可以從非易失性存儲器中讀取保存的信息。
2.3 LCRT機制的實現(xiàn)
LCRT機制的實現(xiàn)可參照2.2節(jié)的設(shè)計思想,分步予以實現(xiàn)。限于篇幅,本文不過多涉及Linux內(nèi)核模塊的原理和實現(xiàn)相關(guān)的細節(jié),僅僅給出LCRT機制的內(nèi)核模塊實現(xiàn)偽代碼。用偽代碼描述LCRT機制的加載函數(shù)如下:
int lcrt_init(void)
{
printk("Registering my__panic notifier.\n");
bt_nvram_ptr=(volatile unsigned char*)ioremap_
nocache (BT_NVRAM_BASE,BT_NVRAM_LENGTH);
bt_nvram_index+=sizeof(struct bt_info);
*)bt_nvram_ptr,BT_NVRAM_LENGTH);
notifier_chain_register(&panic_notifier_list,&my_
panic_block);
return 0;
}
LCRT機制的通知處理函數(shù)完成函數(shù)調(diào)用關(guān)系回溯、得到函數(shù)名稱、函數(shù)棧內(nèi)容等工作,限于篇幅,在這里用下面?zhèn)未a說明:
void ll_bt_information(struct pt_regs *pr)
{
變量定義等初始化工作
do {
reglist=*(unsigned long *)(*myfp-8);
//從函數(shù)棧幀的頂部獲取函數(shù)開始執(zhí)行時保存的寄存器信息
//從函數(shù)的代碼區(qū)中取得函數(shù)的名稱
//從函數(shù)的棧幀里取出函數(shù)執(zhí)行函數(shù)體代碼之前保存的函數(shù)參數(shù)信息
//從本函數(shù)的棧幀中得到調(diào)用本函數(shù)的代碼所在位置和調(diào)用本函數(shù)的函數(shù)棧幀的棧底
}while(直到函數(shù)調(diào)用鏈的鏈頭);
//取得函數(shù)調(diào)用棧幀的內(nèi)容
//填充信息記錄的記錄頭部
//將上面的循環(huán)中取得的信息保存到非易失性存儲器中
write_to_nvram((void *)bt_nvram_ptr,&bt_record_header,sizeof(bt_info_t));
}
3 驗證評估LCRT機制
3.1 部署LCRT機制
部署LCRT機制,使LCRT機制發(fā)揮作用前需要做的相關(guān)工作有:
(1)針對目標Linux內(nèi)核編譯LCRT機制的Linux內(nèi)核模塊部分;
(2) 將LCRT機制的內(nèi)核模塊部分載入Linux內(nèi)核。
3.2 實驗結(jié)果
為了實驗LCRT機制的作用效果,構(gòu)造一個會造成Linux內(nèi)核崩潰的設(shè)備驅(qū)動模塊,記這個內(nèi)核驅(qū)動模塊為bugguy.ko,列出如下所示的bugguy.ko中會引起Linux內(nèi)核崩潰的代碼如下所示:
irqreturn_t my_timer_interrupt(int irq,void *dev_id,struct pt_regs* regs)
{
確認硬件狀態(tài)并清除中斷狀態(tài)
if(ujiffies > 5000) {
void * ill_pointer=NULL;
*(unsigned long *)ill_pointer=0;
}
else {
ujiffies++;
}
return IRQ_HANDLED;
}
說明:用黑體標出的代碼即為產(chǎn)生bug的代碼
電子發(fā)燒友App






評論