Linux作為挑戰(zhàn)微軟壟斷的強(qiáng)有力武器,日益受到大家的喜愛。真希望她能在中國迅速成長。把程序文檔貼出來,希望和大家探討Linux技術(shù)和應(yīng)用,促進(jìn)Linux在中國的普及。
Linux操作系統(tǒng)網(wǎng)絡(luò)驅(qū)動(dòng)程序編寫
一.Linux系統(tǒng)設(shè)備驅(qū)動(dòng)程序概述
1.1 Linux設(shè)備驅(qū)動(dòng)程序分類
1.2 編寫驅(qū)動(dòng)程序的一些基本概念
二.Linux系統(tǒng)網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序
2.1 網(wǎng)絡(luò)驅(qū)動(dòng)程序的結(jié)構(gòu)
2.2 網(wǎng)絡(luò)驅(qū)動(dòng)程序的基本方法
2.3 網(wǎng)絡(luò)驅(qū)動(dòng)程序中用到的數(shù)據(jù)結(jié)構(gòu)
2.4 常用的系統(tǒng)支持
三。編寫Linux網(wǎng)絡(luò)驅(qū)動(dòng)程序中可能遇到的問題
3.1 中斷共享
3.2 硬件發(fā)送忙時(shí)的處理
3.3 流量控制(flow control)
3.4 調(diào)試
四。進(jìn)一步的閱讀
五。雜項(xiàng)
一.Linux系統(tǒng)設(shè)備驅(qū)動(dòng)程序概述
1.1 Linux設(shè)備驅(qū)動(dòng)程序分類
Linux設(shè)備驅(qū)動(dòng)程序在Linux的內(nèi)核源代碼中占有很大的比例,源代碼的長度日益增加,主要是驅(qū)動(dòng)程序的增加。在Linux內(nèi)核的不斷升級過程中,驅(qū)動(dòng)程序的結(jié)構(gòu)還是相對穩(wěn)定 。在2.0.xx到2.2.xx的變動(dòng)里,驅(qū)動(dòng)程序的編寫做了一些改變,但是從2.0.xx的驅(qū)動(dòng)到2.2.xx的移植只需做少量的工作。
Linux系統(tǒng)的設(shè)備分為字符設(shè)備(char device),塊設(shè)備(block device)和網(wǎng)絡(luò)設(shè)備(net work device)三種。字符設(shè)備是指存取時(shí)沒有緩存的設(shè)備。塊設(shè)備的讀寫都有緩存來支 持,并且塊設(shè)備必須能夠隨機(jī)存取(random access),字符設(shè)備則沒有這個(gè)要求。典型的 字符設(shè)備包括鼠標(biāo),鍵盤,串行口等。塊設(shè)備主要包括硬盤軟盤設(shè)備,CD-ROM等。一個(gè) 文件系統(tǒng)要安裝進(jìn)入操作系統(tǒng)必須在塊設(shè)備上。 網(wǎng)絡(luò)設(shè)備在Linux里做專門的處理。Linux的網(wǎng)絡(luò)系統(tǒng)主要是基于BSD unix的socket機(jī)制。在系統(tǒng)和驅(qū)動(dòng)程序之間定義有專門的數(shù)據(jù)結(jié)構(gòu)(sk_buff)進(jìn)行數(shù)據(jù)的傳遞。系統(tǒng)里支持對發(fā)送數(shù)據(jù)和接收數(shù)據(jù)的緩存,提供流量控制機(jī)制,提供對多協(xié)議的支持。
1.2 編寫驅(qū)動(dòng)程序的一些基本概念
無論是什么操作系統(tǒng)的驅(qū)動(dòng)程序,都有一些通用的概念。操作系統(tǒng)提供給驅(qū)動(dòng)程序的支持也大致相同。下面簡單介紹一下網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序的一些基本要求。
1.2.1 發(fā)送和接收
這是一個(gè)網(wǎng)絡(luò)設(shè)備最基本的功能。一塊網(wǎng)卡所做的無非就是收發(fā)工作。所以驅(qū)動(dòng)程序里要告訴系統(tǒng)你的發(fā)送函數(shù)在哪里,系統(tǒng)在有數(shù)據(jù)要發(fā)送時(shí)就會(huì)調(diào)用你的發(fā) 送程序。還有驅(qū)動(dòng)程序由于是直接操縱硬件的,所以網(wǎng)絡(luò)硬件有數(shù)據(jù)收到最先能得到這個(gè)數(shù)據(jù)的也就 是驅(qū)動(dòng)程序,它負(fù)責(zé)把這些原始數(shù)據(jù)進(jìn)行必要的處理然后送給系統(tǒng)。這里,操作系統(tǒng)必 須要提供兩個(gè)機(jī)制,一個(gè)是找到驅(qū)動(dòng)程序的發(fā)送函數(shù),一個(gè)是驅(qū)動(dòng)程序把收到的數(shù)據(jù)送 給系統(tǒng)。
1.2.2 中斷
中斷在現(xiàn)代計(jì)算機(jī)結(jié)構(gòu)中有重要的地位。操作系統(tǒng)必須提供驅(qū)動(dòng)程序響應(yīng)中斷的能力。 一般是把一個(gè)中斷處理程序注冊到系統(tǒng)中去。操作系統(tǒng)在硬件中斷發(fā)生后 調(diào)用驅(qū)動(dòng)程序 的處理程序。Linux支持中斷的共享,即多個(gè)設(shè)備共享一個(gè)中斷。
1.2.3 時(shí)鐘
在實(shí)現(xiàn)驅(qū)動(dòng)程序時(shí),很多地方會(huì)用到時(shí)鐘。如某些協(xié)議里的超時(shí)處理,沒有中斷機(jī)制的 硬件的輪詢等。操作系統(tǒng)應(yīng)為驅(qū)動(dòng)程序提供定時(shí)機(jī)制。一般是在預(yù)定的時(shí) 間過了以后回 調(diào)注冊的時(shí)鐘函數(shù)。在網(wǎng)絡(luò)驅(qū)動(dòng)程序中,如果硬件沒有中斷功能,定時(shí)器可以提供輪詢 (poll)方式對硬件進(jìn)行存取。或者是實(shí)現(xiàn)某些協(xié)議時(shí)需要的超時(shí)重傳等。
二.Linux系統(tǒng)網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序
2.1 網(wǎng)絡(luò)驅(qū)動(dòng)程序的結(jié)構(gòu)
所有的Linux網(wǎng)絡(luò)驅(qū)動(dòng)程序遵循通用的接口。設(shè)計(jì)時(shí)采用的是面向?qū)ο蟮姆椒?。一個(gè)設(shè)備 就是一個(gè)對象(device 結(jié)構(gòu)),它內(nèi)部有自己的數(shù)據(jù)和方法。每一個(gè)設(shè)備的方法被調(diào)用時(shí) 的第一個(gè)參數(shù)都是這個(gè)設(shè)備對象本身。這樣這個(gè)方法就可以存取自身的數(shù)據(jù)(類似面向?qū)?象程序設(shè)計(jì)時(shí)的this引用)。 一個(gè)網(wǎng)絡(luò)設(shè)備最基本的方法有初始化、發(fā)送和接收。
------------------- ---------------------
|deliver packets | |receive packets queue|
|(dev_queue_xmit()) | |them(netif_rx()) |
------------------- ---------------------
| | /
/ | |
-------------------------------------------------------
| methods and variables(initialize,open,close,hard_xmit,|
| interrupt handler,config,resources,status.。.) |
-------------------------------------------------------
| | /
/ | |
----------------- ----------------------
|send to hardware | |receivce from hardware|
----------------- ----------------------
| | /
/ | |
-----------------------------------------------------
| hardware media |
-----------------------------------------------------
初始化程序完成硬件的初始化、device中變量的初始化和系統(tǒng)資源的申請。發(fā)送程序是 在驅(qū)動(dòng)程序的上層協(xié)議層有數(shù)據(jù)要發(fā)送時(shí)自動(dòng)調(diào)用的。一般驅(qū)動(dòng)程序中不對發(fā)送數(shù)據(jù)進(jìn) 行緩存,而是直接使用硬件的發(fā)送功能把數(shù)據(jù)發(fā)送出去。接收數(shù)據(jù)一般是通過硬件中斷 來通知的。在中斷處理程序里,把硬件幀信息填入一個(gè)skbuff結(jié)構(gòu)中,然后調(diào)用netif_ rx()傳遞給上層處理。
2.2 網(wǎng)絡(luò)驅(qū)動(dòng)程序的基本方法
網(wǎng)絡(luò)設(shè)備做為一個(gè)對象,提供一些方法供系統(tǒng)訪問。正是這些有統(tǒng)一接口的方法,掩蔽 了硬件的具體細(xì)節(jié),讓系統(tǒng)對各種網(wǎng)絡(luò)設(shè)備的訪問都采用統(tǒng)一的形式,做到硬件無關(guān)性 。
下面解釋最基本的方法。
2.2.1 初始化(initialize)
驅(qū)動(dòng)程序必須有一個(gè)初始化方法。在把驅(qū)動(dòng)程序載入系統(tǒng)的時(shí)候會(huì)調(diào)用這個(gè)初始化程序 。它做以下幾方面的工作。檢測設(shè)備。在初始化程序里你可以根據(jù)硬件的特征檢查硬件 是否存在,然后決定是否啟動(dòng)這個(gè)驅(qū)動(dòng)程序。配置和初始化硬件。在初始化程序里你可 以完成對硬件資源的配置,比如即插即用的硬件就可以在這個(gè)時(shí)候進(jìn)行配置(Linux內(nèi)核 對PnP功能沒有很好的支持,可以在驅(qū)動(dòng)程序里完成這個(gè)功能)。配置或協(xié)商好硬件占用 的資源以后,就可以向系統(tǒng)申請這些資源。有些資源是可以和別的設(shè)備共享的,如中斷 。有些是不能共享的,如IO、DMA。接下來你要初始化device結(jié)構(gòu)中的變量。最后,你可 以讓硬件正式開始工作。
2.2.2 打開(open)
open這個(gè)方法在網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序里是網(wǎng)絡(luò)設(shè)備被激活的時(shí)候被調(diào)用(即設(shè)備狀態(tài)由down--》up)。所以實(shí)際上很多在initialize中的工作可以放到這里來做。比如資源的申請, 硬件的激活。如果dev-》open返回非0(error),則硬件的狀態(tài)還是down。 open方法另一個(gè)作用是如果驅(qū)動(dòng)程序做為一個(gè)模塊被裝入,則要防止模塊卸載時(shí)設(shè)備處 于打開狀態(tài)。在open方法里要調(diào)MOD_INC_USE_COUNT宏。
2.2.3 關(guān)閉(stop)
close方法做和open相反的工作。可以釋放某些資源以減少系統(tǒng)負(fù)擔(dān)。close是在設(shè)備狀 態(tài)由up轉(zhuǎn)為down時(shí)被調(diào)用的。另外如果是做為模塊裝入的驅(qū)動(dòng)程序,close里應(yīng)該調(diào)用M OD_DEC_USE_COUNT,減少設(shè)備被引用的次數(shù),以使驅(qū)動(dòng)程序可以被卸載。 另外close方法必須返回成功(0==success)。
2.2.4 發(fā)送(hard_start_xmit)
所有的網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序都必須有這個(gè)發(fā)送方法。在系統(tǒng)調(diào)用驅(qū)動(dòng)程序的xmit時(shí),發(fā)送 的數(shù)據(jù)放在一個(gè)sk_buff結(jié)構(gòu)中。一般驅(qū)動(dòng)程序把數(shù)據(jù)傳給硬件發(fā)出去。也有一些特殊 的設(shè)備比如loopback把數(shù)據(jù)組成一個(gè)接收數(shù)據(jù)再回送給系統(tǒng),或者dummy設(shè)備直接丟棄數(shù) 據(jù)。
如果發(fā)送成功,hard_start_xmit方法里釋放sk_buff,返回0(發(fā)送成功)。如果設(shè)備暫時(shí) 無法處理,比如硬件忙,則返回1。這時(shí)如果dev-》tbusy置為非0,則系統(tǒng)認(rèn)為硬件忙, 要等到dev-》tbusy置0以后才會(huì)再次發(fā)送。tbusy的置0任務(wù)一般由中斷完成。硬件在發(fā)送 結(jié)束后產(chǎn)生中斷,這時(shí)可以把tbusy置0,然后用mark_bh()調(diào)用通知系統(tǒng)可以再次發(fā)送。 在發(fā)送不成功的情況下,也可以不置dev-》tbusy為非0,這樣系統(tǒng)會(huì)不斷嘗試重發(fā)。如果 hard_start_xmit發(fā)送不成功,則不要釋放sk_buff。傳送下來的sk_buff中的數(shù)據(jù)已經(jīng)包 含硬件需要的幀頭。所以在發(fā)送方法里不需要再填充硬件幀頭,數(shù)據(jù)可以直接提交給硬 件發(fā)送。sk_buff是被鎖住的(locked),確保其他程序不會(huì)存取它。
2.2.5 接收(reception)
驅(qū)動(dòng)程序并不存在一個(gè)接收方法。有數(shù)據(jù)收到應(yīng)該是驅(qū)動(dòng)程序來通知系統(tǒng)的。一般設(shè)備 收到數(shù)據(jù)后都會(huì)產(chǎn)生一個(gè)中斷,在中斷處理程序中驅(qū)動(dòng)程序申請一塊sk_buff(skb),從 硬件讀出數(shù)據(jù)放置到申請好的緩沖區(qū)里。接下來填充sk_buff中 的一些信息skb-》dev = dev,判斷收到幀的協(xié)議類型,填入skb-》protocol(多協(xié) 議的支持)。把指針skb-》m ac.raw指向硬件數(shù)據(jù)然后丟棄硬件幀頭(skb_pull)。還要設(shè)置skb-》pkt_type,標(biāo)明第二 層(鏈路層)數(shù)據(jù)類型??梢允且韵骂愋停?/p>
PACKET_BROADCAST : 鏈路層廣播
PACKET_MULTICAST : 鏈路層組播
PACKET_SELF : 發(fā)給自己的幀
PACKET_OTHERHOST : 發(fā)給別人的幀(監(jiān)聽模式時(shí)會(huì)有這種幀)
最后調(diào)用netif_rx()把數(shù)據(jù)傳送給協(xié)議層。netif_rx()里數(shù)據(jù)放入處理隊(duì)列然后返回, 真正的處理是在中斷返回以后,這樣可以減少中斷時(shí)間。調(diào)用netif_rx()以后, 驅(qū)動(dòng)程序就不能再存取數(shù)據(jù)緩沖區(qū)skb。
2.2.6 硬件幀頭(hard_header)
硬件一般都會(huì)在上層數(shù)據(jù)發(fā)送之前加上自己的硬件幀頭,比如以太網(wǎng)(Ethernet)就有14 字節(jié)的幀頭。這個(gè)幀頭是加在上層ip、ipx等數(shù)據(jù)包的前面的。驅(qū)動(dòng)程序提供一個(gè)hard_ header方法,協(xié)議層(ip、ipx、arp等)在發(fā)送數(shù)據(jù)之前會(huì)調(diào)用這段程序。 硬件幀頭的長度必須填在dev-》hard_header_len,這樣協(xié)議層回在數(shù)據(jù)之前保留好硬件 幀頭的空間。這樣hard_header程序只要調(diào)用skb_push然后正確填入硬件幀頭就可以了。
在協(xié)議層調(diào)用hard_header時(shí),傳送的參數(shù)包括(2.0.xx):數(shù)據(jù)的sk_buff,device指針 ,protocol,目的地址(daddr),源地址(saddr),數(shù)據(jù)長度(len)。數(shù)據(jù)長度不要使用s k_buff中的參數(shù),因?yàn)檎{(diào)用hard_header時(shí)數(shù)據(jù)可能還沒完全組織好。saddr是NULL的話 是使用缺省地址(default)。daddr是NULL表明協(xié)議層不知道硬件目的地址。如果hard_h eader完全填好了硬件幀頭,則返回添加的字節(jié)數(shù)。如果硬件幀頭中的信息還不完全(比 如daddr為NULL,但是幀頭中需要目的硬件地址。典型的情況是以太網(wǎng)需要地址解析(ar p)),則返回負(fù)字節(jié)數(shù)。hard_header返回負(fù)數(shù)的情況下,協(xié)議層會(huì)做進(jìn)一步的build he ader的工作。目前Linux系統(tǒng)里就是做arp (如果hard_header返回正,dev-》arp=1,表明 不需要做arp,返回負(fù),dev-》arp=0,做arp)。
對hard_header的調(diào)用在每個(gè)協(xié)議層的處理程序里。如ip_output。
2.2.7 地址解析(xarp)
有些網(wǎng)絡(luò)有硬件地址(比如Ethernet),并且在發(fā)送硬件幀時(shí)需要知道目的硬件地址。這 樣就需要上層協(xié)議地址(ip、ipx)和硬件地址的對應(yīng)。這個(gè)對應(yīng)是通過地址解析完成的。 需要做arp的的設(shè)備在發(fā)送之前會(huì)調(diào)用驅(qū)動(dòng)程序的rebuild_header方法。調(diào)用的主要參數(shù) 包括指向硬件幀頭的指針,協(xié)議層地址。如果驅(qū)動(dòng)程序能夠解析硬件地址,就返回1,如 果不能,返回0。
對rebuild_header的調(diào)用在net/core/dev.c的do_dev_queue_xmit()里。
2.2.8 參數(shù)設(shè)置和統(tǒng)計(jì)數(shù)據(jù)
在驅(qū)動(dòng)程序里還提供一些方法供系統(tǒng)對設(shè)備的參數(shù)進(jìn)行設(shè)置和讀取信息。一般只有超級 用戶(root)權(quán)限才能對設(shè)備參數(shù)進(jìn)行設(shè)置。設(shè)置方法有: dev-》set_mac_address() 當(dāng)用戶調(diào)用ioctl類型為SIOCSIFHWADDR時(shí)是要設(shè)置這個(gè)設(shè)備的mac地址。一般對mac地址 的設(shè)置沒有太大意義的。
dev-》set_config() 當(dāng)用戶調(diào)用ioctl時(shí)類型為SIOCSIFMAP時(shí),系統(tǒng)會(huì)調(diào)用驅(qū)動(dòng)程序的set_config方法。用戶 會(huì)傳遞一個(gè)ifmap結(jié)構(gòu)包含需要的I/O、中斷等參數(shù)。
dev-》do_ioctl()
如果用戶調(diào)用ioctl時(shí)類型在SIOCDEVPRIVATE和SIOCDEVPRIVATE+15之間,系統(tǒng)會(huì)調(diào)用驅(qū) 動(dòng)程序的這個(gè)方法。一般是設(shè)置設(shè)備的專用數(shù)據(jù)。 讀取信息也是通過ioctl調(diào)用進(jìn)行。除次之外驅(qū)動(dòng)程序還可以提供一個(gè) dev-》get_stats方法,返回一個(gè)enet_statistics結(jié)構(gòu),包含發(fā)送接收的統(tǒng)計(jì)信息。ioctl的處理在net/core/dev.c的dev_ioctl()和dev_ifsioc()里。
@263.net“》linuxman@263.net
.3 網(wǎng)絡(luò)驅(qū)動(dòng)程序中用到的數(shù)據(jù)結(jié)構(gòu)
最重要的是網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)結(jié)構(gòu)。定義在include/linux/netdevice.h里。它的注釋已經(jīng)
足夠詳盡。
struct device
{
/*
* This is the first field of the ”visible“ part of this structure
* (i.e. as seen by users in the ”Space.c“ file)。 It is the name
* the interface.
*/
char *name;
/* I/O specific fields - FIXME: Merge these and struct ifmap into one */
unsigned long rmem_end; /* shmem ”recv“ end */
unsigned long rmem_start; /* shmem ”recv“ start */
unsigned long mem_end; /* shared mem end */
unsigned long mem_start; /* shared mem start */
unsigned long base_addr; /* device I/O address */
unsigned char irq; /* device IRQ number */
/* Low-level status flags. */
volatile unsigned char start, /* start an operation */
interrupt; /* interrupt arrived */
/* 在處理中斷時(shí)interrupt設(shè)為1,處理完清0。 */
unsigned long tbusy; /* transmitter busy must be long for
bitops */
struct device *next;
/* The device initialization function. Called only once. */
/* 指向驅(qū)動(dòng)程序的初始化方法。 */
int (*init)(struct device *dev);
/* Some hardware also needs these fields, but they are not part of the
usual set specified in Space.c. */
/* 一些硬件可以在一塊板上支持多個(gè)接口,可能用到if_port。 */
unsigned char if_port; /* Selectable AUI, TP,。.*/
unsigned char dma; /* DMA channel */
struct enet_statistics* (*get_stats)(struct device *dev);
/*
* This marks the end of the ”visible“ part of the structure. All
* fields hereafter are internal to the system, and may change at
* will (read: may be cleaned up at will)。
*/
/* These may be needed for future network-power-down code. */
/* trans_start記錄最后一次成功發(fā)送的時(shí)間。可以用來確定硬件是否工作正常。*/
unsigned long trans_start; /* Time (in jiffies) of last Tx */
unsigned long last_rx; /* Time of last Rx */
/* flags里面有很多內(nèi)容,定義在include/linux/if.h里。*/
unsigned short flags; /* interface flags (a la BSD) */
unsigned short family; /* address family ID (AF_INET) */
unsigned short metric; /* routing metric (not used) */
unsigned short mtu; /* interface MTU value */
/* type標(biāo)明物理硬件的類型。主要說明硬件是否需要arp。定義在
include/linux/if_arp.h里。 */
unsigned short type; /* interface hardware type */
/* 上層協(xié)議層根據(jù)hard_header_len在發(fā)送數(shù)據(jù)緩沖區(qū)前面預(yù)留硬件幀頭空間。*/
unsigned short hard_header_len; /* hardware hdr length */
/* priv指向驅(qū)動(dòng)程序自己定義的一些參數(shù)。*/
void *priv; /* pointer to private data */
/* Interface address info. */
unsigned char broadcast[MAX_ADDR_LEN]; /* hw bcast add */
unsigned char pad; /* make dev_addr aligned to 8
bytes */
unsigned char dev_addr[MAX_ADDR_LEN]; /* hw address */
unsigned char addr_len; /* hardware address length */
unsigned long pa_addr; /* protocol address */
unsigned long pa_brdaddr; /* protocol broadcast addr */
unsigned long pa_dstaddr; /* protocol P-P other side addr */
unsigned long pa_mask; /* protocol netmask */
unsigned short pa_alen; /* protocol address length */
struct dev_mc_list *mc_list; /* Multicast mac addresses */
int mc_count; /* Number of installed mcasts */
struct ip_mc_list *ip_mc_list; /* IP multicast filter chain */
__u32 tx_queue_len; /* Max frames per queue allowed */
/* For load balancing driver pair support */
unsigned long pkt_queue; /* Packets queued */
struct device *slave; /* Slave device */
struct net_alias_info *alias_info; /* main dev alias info */
struct net_alias *my_alias; /* alias devs */
/* Pointer to the interface buffers. */
struct sk_buff_head buffs[DEV_NUMBUFFS];
/* Pointers to interface service routines. */
int (*open)(struct device *dev);
int (*stop)(struct device *dev);
int (*hard_start_xmit) (struct sk_buff *skb,
struct device *dev);
int (*hard_header) (struct sk_buff *skb,
struct device *dev,
unsigned short type,
void *daddr,
void *saddr,
unsigned len);
int (*rebuild_header)(void *eth, struct device *dev,
unsigned long raddr, struct sk_buff *skb);
#define HAVE_MULTICAST
void (*set_multicast_list)(struct device *dev);
#define HAVE_SET_MAC_ADDR
int (*set_mac_address)(struct device *dev, void *addr);
#define HAVE_PRIVATE_IOCTL
int (*do_ioctl)(struct device *dev, struct ifreq *ifr, int cmd);
#define HAVE_SET_CONFIG
int (*set_config)(struct device *dev, struct ifmap *map);
#define HAVE_HEADER_CACHE
void (*header_cache_bind)(struct hh_cache **hhp, struct device
*dev, unsigned short htype, __u32 daddr);
void (*header_cache_update)(struct hh_cache *hh, struct device
*dev, unsigned char * haddr);
#define HAVE_CHANGE_MTU
int (*change_mtu)(struct device *dev, int new_mtu);
struct iw_statistics* (*get_wireless_stats)(struct device *dev);
};
2.4 常用的系統(tǒng)支持
2.4.1 內(nèi)存申請和釋放
include/linux/kernel.h里聲明了kmalloc()和kfree()。用于在內(nèi)核模式下申請和釋放
內(nèi)存。
void *kmalloc(unsigned int len,int priority);
void kfree(void *__ptr);
與用戶模式下的malloc()不同,kmalloc()申請空間有大小限制。長度是2的整次方。可
以申請的最大長度也有限制。另外kmalloc()有priority參數(shù),通常使用時(shí)可以為GFP_K
ERNEL,如果在中斷里調(diào)用用GFP_ATOMIC參數(shù),因?yàn)槭褂肎FP_KERNEL 則調(diào)用者可能進(jìn)入
sleep狀態(tài),在處理中斷時(shí)是不允許的。
kfree()釋放的內(nèi)存必須是kmalloc()申請的。如果知道內(nèi)存的大小,也可以用kfree_s(
)釋放。
2.4.2 request_irq()、free_irq()
這是驅(qū)動(dòng)程序申請中斷和釋放中斷的調(diào)用。在include/linux/sched.h里聲明。
request_irq()調(diào)用的定義:
int request_irq(unsigned int irq,
void (*handler)(int irq, void *dev_id, struct pt_regs *regs),
unsigned long irqflags,
const char * devname,
void *dev_id);
irq是要申請的硬件中斷號。在Intel平臺,范圍0--15。handler是向系統(tǒng)登記的中斷處
理函數(shù)。這是一個(gè)回調(diào)函數(shù),中斷發(fā)生時(shí),系統(tǒng)調(diào)用這個(gè)函數(shù),傳入的參 數(shù)包括硬件中
斷號,device id,寄存器值。dev_id就是下面的request_irq時(shí)傳遞 給系統(tǒng)的參數(shù)dev
_id。irqflags是中斷處理的一些屬性。比較重要的有SA_INTERRUPT,
標(biāo)明中斷處理程序是快速處理程序(設(shè)置SA_INTERRUPT)還是慢速處理程序(不設(shè)置SA_IN
TERRUPT)??焖偬幚沓绦虮徽{(diào)用時(shí)屏蔽所有中斷。慢速處理程序不屏蔽。還有 一個(gè)SA_
SHIRQ屬性,設(shè)置了以后運(yùn)行多個(gè)設(shè)備共享中斷。dev_id在中斷共享時(shí)會(huì)用到。一般設(shè)置
為這個(gè)設(shè)備的device結(jié)構(gòu)本身或者NULL。中斷處理程序可以用dev_id 找到相應(yīng)的控制這
個(gè)中斷的設(shè)備,或者用irq2dev_map找到中斷對應(yīng)的設(shè)備。
void free_irq(unsigned int irq,void *dev_id);
2.4.3 時(shí)鐘
時(shí)鐘的處理類似中斷,也是登記一個(gè)時(shí)間處理函數(shù),在預(yù)定的時(shí)間過后,系統(tǒng)會(huì)調(diào)用這
個(gè)函數(shù)。在include/linux/timer.h里聲明。
struct timer_list {
struct timer_list *next;
struct timer_list *prev;
unsigned long expires;
unsigned long data;
void (*function)(unsigned long);
};
void add_timer(struct timer_list * timer);
int del_timer(struct timer_list * timer);
void init_timer(struct timer_list * timer);
使用時(shí)鐘,先聲明一個(gè)timer_list結(jié)構(gòu),調(diào)用init_timer對它進(jìn)行初始化。
time_list結(jié)構(gòu)里expires是標(biāo)明這個(gè)時(shí)鐘的周期,單位采用jiffies的單位。
jiffies是Linux一個(gè)全局變量,代表時(shí)間。它的單位隨硬件平臺的不同而不同。
系統(tǒng)里定義了一個(gè)常數(shù)HZ,代表每秒種最小時(shí)間間隔的數(shù)目。這樣jiffies的單位就是1
/HZ。Intel平臺jiffies的單位是1/100秒,這就是系統(tǒng)所能分辨的最小時(shí)間間隔了。所
以expires/HZ就是以秒為單位的這個(gè)時(shí)鐘的周期。
function就是時(shí)間到了以后的回調(diào)函數(shù),它的參數(shù)就是timer_list中的data。data這個(gè)
參數(shù)在初始化時(shí)鐘的時(shí)候賦值,一般賦給它設(shè)備的device結(jié)構(gòu)指針。
在預(yù)置時(shí)間到系統(tǒng)調(diào)用function,同時(shí)系統(tǒng)把這個(gè)time_list從定時(shí)隊(duì)列里清除。所以如
果需要一直使用定時(shí)函數(shù),要在function里再次調(diào)用add_timer()把這個(gè)timer_list加進(jìn)
定時(shí)隊(duì)列。
2.4.4 I/O
I/O端口的存取使用:
inline unsigned int inb(unsigned short port);
inline unsigned int inb_p(unsigned short port);
inline void outb(char value, unsigned short port);
inline void outb_p(char value, unsigned short port);
在include/adm/io.h里定義。
inb_p()、outb_p()與inb()、outb_p()的不同在于前者在存取I/O時(shí)有等待(pause)一適
應(yīng)慢速的I/O設(shè)備。
為了防止存取I/O時(shí)發(fā)生沖突,Linux提供對端口使用情況的控制。在使用端口之前,可
以檢查需要的I/O是否正在被使用,如果沒有,則把端口標(biāo)記為正在使用,使用完后再釋
放。系統(tǒng)提供以下幾個(gè)函數(shù)做這些工作。
int check_region(unsigned int from, unsigned int extent);
void request_region(unsigned int from, unsigned int extent,const char *name)
;
void release_region(unsigned int from, unsigned int extent);
其中的參數(shù)from表示用到的I/O端口的起始地址,extent標(biāo)明從from開始的端口數(shù)目。n
ame為設(shè)備名稱。
2.4.5 中斷打開關(guān)閉
系統(tǒng)提供給驅(qū)動(dòng)程序開放和關(guān)閉響應(yīng)中斷的能力。是在include/asm/system.h中的兩個(gè)
定義。
#define cli() __asm__ __volatile__ (”cli“::)
#define sti() __asm__ __volatile__ (”sti“::)
2.4.6 打印信息
類似普通程序里的printf(),驅(qū)動(dòng)程序要輸出信息使用printk()。在include/linux/ke
rnel.h里聲明。
int printk(const char* fmt, 。..);
其中fmt是格式化字符串。。..是參數(shù)。都是和printf()格式一樣的。
2.4.7 注冊驅(qū)動(dòng)程序
如果使用模塊(module)方式加載驅(qū)動(dòng)程序,需要在模塊初始化時(shí)把設(shè)備注冊 到系統(tǒng)設(shè)備
表里去。不再使用時(shí),把設(shè)備從系統(tǒng)中卸除。定義在drivers/net/net_init.h里的兩個(gè)
函數(shù)完成這個(gè)工作。
int register_netdev(struct device *dev);
void unregister_netdev(struct device *dev);
dev就是要注冊進(jìn)系統(tǒng)的設(shè)備結(jié)構(gòu)指針。在register_netdev()時(shí),dev結(jié)構(gòu)一般填寫前面
11項(xiàng),即到init,后面的暫時(shí)可以不用初始化。最重要的是name指針和init方法。name
指針空(NULL)或者內(nèi)容為或者name[0]為空格(space),則系統(tǒng)把你的設(shè)備做為以太網(wǎng)設(shè)
備處理。以太網(wǎng)設(shè)備有統(tǒng)一的命名格式,ethX。對以太網(wǎng)這么特別對待大概和Linux的歷
史有關(guān)。
init方法一定要提供,register_netdev()會(huì)調(diào)用這個(gè)方法讓你對硬件檢測和設(shè)置。
register_netdev()返回0表示成功,非0不成功。
2.4.8 sk_buff
Linux網(wǎng)絡(luò)各層之間的數(shù)據(jù)傳送都是通過sk_buff。sk_buff提供一套管理緩沖區(qū)的方法,
是Linux系統(tǒng)網(wǎng)絡(luò)高效運(yùn)行的關(guān)鍵。每個(gè)sk_buff包括一些控制方法和一塊數(shù)據(jù)緩沖區(qū)。
控制方法按功能分為兩種類型。一種是控制整個(gè)buffer鏈的方法,
另一種是控制數(shù)據(jù)緩沖區(qū)的方法。sk_buff組織成雙向鏈表的形式,根據(jù)網(wǎng)絡(luò)應(yīng)用的特點(diǎn)
,對鏈表的操作主要是刪除鏈表頭的元素和添加到鏈表尾。sk_buff的控制
方法都很短小以盡量減少系統(tǒng)負(fù)荷。(translated from article written by Alan Cox
)
常用的方法包括:
.alloc_skb() 申請一個(gè)sk_buff并對它初始化。返回就是申請到的sk_buff。
.dev_alloc_skb()類似alloc_skb,在申請好緩沖區(qū)后,保留16字節(jié)的幀頭空間。主要用
在Ethernet驅(qū)動(dòng)程序。
.kfree_skb() 釋放一個(gè)sk_buff。
.skb_clone() 復(fù)制一個(gè)sk_buff,但不復(fù)制數(shù)據(jù)部分。
.skb_copy()完全復(fù)制一個(gè)sk_buff。
.skb_dequeue() 從一個(gè)sk_buff鏈表里取出第一個(gè)元素。返回取出的sk_buff,如果鏈表
空則返回NULL。這是常用的一個(gè)操作。
.skb_queue_head() 在一個(gè)sk_buff鏈表頭放入一個(gè)元素。
.skb_queue_tail() 在一個(gè)sk_buff鏈表尾放入一個(gè)元素。這也是常用的一個(gè)操作。網(wǎng)絡(luò)
數(shù)據(jù)的處理主要是對一個(gè)先進(jìn)先出隊(duì)列的管理,skb_queue_tail()
和skb_dequeue()完成這個(gè)工作。
.skb_insert() 在鏈表的某個(gè)元素前插入一個(gè)元素。
.skb_append() 在鏈表的某個(gè)元素后插入一個(gè)元素。一些協(xié)議(如TCP)對沒按順序到達(dá)的
數(shù)據(jù)進(jìn)行重組時(shí)用到skb_insert()和skb_append()。
.skb_reserve() 在一個(gè)申請好的sk_buff的緩沖區(qū)里保留一塊空間。這個(gè)空間一般是用
做下一層協(xié)議的頭空間的。
.skb_put() 在一個(gè)申請好的sk_buff的緩沖區(qū)里為數(shù)據(jù)保留一塊空間。在
alloc_skb以后,申請到的sk_buff的緩沖區(qū)都是處于空(free)狀態(tài),有一個(gè)tail指針指
向free空間,實(shí)際上開始時(shí)tail就指向緩沖區(qū)頭。skb_reserve()
在free空間里申請協(xié)議頭空間,skb_put()申請數(shù)據(jù)空間。見下面的圖。
.skb_push() 把sk_buff緩沖區(qū)里數(shù)據(jù)空間往前移。即把Head room中的空間移一部分到
Data area。
.skb_pull() 把sk_buff緩沖區(qū)里Data area中的空間移一部分到Head room中。
--------------------------------------------------
| Tail room(free) |
--------------------------------------------------
After alloc_skb()
--------------------------------------------------
| Head room | Tail room(free) |
--------------------------------------------------
After skb_reserve()
--------------------------------------------------
| Head room | Data area | Tail room(free) |
--------------------------------------------------
After skb_put()
--------------------------------------------------
|Head| skb_ | Data | Tail room(free) |
|room| push | | |
| | Data area | |
--------------------------------------------------
After skb_push()
--------------------------------------------------
| Head | skb_ | Data area | Tail room(free) |
| | pull | | |
| Head room | | |
--------------------------------------------------
After skb_pull()
三。編寫Linux網(wǎng)絡(luò)驅(qū)動(dòng)程序中需要注意的問題
3.1 中斷共享
Linux系統(tǒng)運(yùn)行幾個(gè)設(shè)備共享同一個(gè)中斷。需要共享的話,在申請的時(shí)候指明共享方式。
系統(tǒng)提供的request_irq()調(diào)用的定義:
int request_irq(unsigned int irq,
void (*handler)(int irq, void *dev_id, struct pt_regs *regs),
unsigned long irqflags,
const char * devname,
void *dev_id);
如果共享中斷,irqflags設(shè)置SA_SHIRQ屬性,這樣就允許別的設(shè)備申請同一個(gè)中斷。需
要注意所有用到這個(gè)中斷的設(shè)備在調(diào)用request_irq()都必須設(shè)置這個(gè)屬性。系統(tǒng)在回調(diào)
每個(gè)中斷處理程序時(shí),可以用dev_id這個(gè)參數(shù)找到相應(yīng)的設(shè)備。一 般dev_id就設(shè)為dev
ice結(jié)構(gòu)本身。系統(tǒng)處理共享中斷是用各自的dev_id參數(shù)依次調(diào)用每一個(gè)中斷處理程序。
3.2 硬件發(fā)送忙時(shí)的處理
主CPU的處理能力一般比網(wǎng)絡(luò)發(fā)送要快,所以經(jīng)常會(huì)遇到系統(tǒng)有數(shù)據(jù)要發(fā),但上一包數(shù)據(jù)
網(wǎng)絡(luò)設(shè)備還沒發(fā)送完。因?yàn)樵贚inux里網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序一般不做數(shù)據(jù)緩存,不能發(fā)送的
數(shù)據(jù)都是通知系統(tǒng)發(fā)送不成功,所以必須要有一個(gè)機(jī)制在硬件不忙時(shí)及時(shí)通知系統(tǒng)接著
發(fā)送下面的數(shù)據(jù)。
一般對發(fā)送忙的處理在前面設(shè)備的發(fā)送方法(hard_start_xmit)里已經(jīng)描述過,即如果發(fā)
送忙,置tbusy為1。處理完發(fā)送數(shù)據(jù)后,在發(fā)送結(jié)束中斷里清tbusy,同時(shí)用mark_bh()
調(diào)用通知系統(tǒng)繼續(xù)發(fā)送。
但在具體實(shí)現(xiàn)我的驅(qū)動(dòng)程序時(shí)發(fā)現(xiàn),這樣的處理系統(tǒng)好象并不能及時(shí)地知道硬件已經(jīng)空
閑了,即在mark_bh()以后,系統(tǒng)要等一段時(shí)間才會(huì)接著發(fā)送。造成發(fā)送效率很低。2M線
路只有10%不到的使用率。內(nèi)核版本為2.0.35。
我最后的實(shí)現(xiàn)是不把tbusy置1,讓系統(tǒng)始終認(rèn)為硬件空閑,但是報(bào)告發(fā)送不成功。系統(tǒng)
會(huì)一直嘗試重發(fā)。這樣處理就運(yùn)行正常了。但是遍循內(nèi)核源碼中的網(wǎng)絡(luò)驅(qū)動(dòng)程序,似乎
沒有這樣處理的。不知道癥結(jié)在哪里。
3.3 流量控制(flow control)
網(wǎng)絡(luò)數(shù)據(jù)的發(fā)送和接收都需要流量控制。這些控制是在系統(tǒng)里實(shí)現(xiàn)的,不需要驅(qū)動(dòng)程序
做工作。每個(gè)設(shè)備數(shù)據(jù)結(jié)構(gòu)里都有一個(gè)參數(shù)dev-》tx_queue_len,這個(gè)參數(shù)標(biāo)明發(fā)送時(shí)最
多緩存的數(shù)據(jù)包。在Linux系統(tǒng)里以太網(wǎng)設(shè)備(10/100Mbps)tx_queue_len一般設(shè)置為100
,串行線路(異步串口)為10。實(shí)際上如果看源碼可以知道,設(shè)置了dev-》tx_queue_len并
不是為緩存這些數(shù)據(jù)申請了空間。這個(gè)參數(shù)只是在收到協(xié)議層的數(shù)據(jù)包時(shí)判斷發(fā)送隊(duì)列
里的數(shù)據(jù)是不是到了tx_queue_len的限度,以決定這一包數(shù)據(jù)加不加進(jìn)發(fā)送隊(duì)列。發(fā)送
時(shí)另一個(gè)方面的流控是更高層協(xié)議的發(fā)送窗口(TCP協(xié)議里就有發(fā)送窗口)。達(dá)到了窗口大
小,高層協(xié)議就不會(huì)再發(fā)送數(shù)據(jù)。
接收流控也分兩個(gè)層次。netif_rx()緩存的數(shù)據(jù)包有限制。另外高層協(xié)議也會(huì)有一個(gè)最
大的等待處理的數(shù)據(jù)量。
發(fā)送和接收流控處理在net/core/dev.c的do_dev_queue_xmit()和netif_rx()中。
3.4 調(diào)試
很多Linux的驅(qū)動(dòng)程序都是編譯進(jìn)內(nèi)核的,形成一個(gè)大的內(nèi)核文件。但對調(diào)試來說,這是
相當(dāng)麻煩的。調(diào)試驅(qū)動(dòng)程序可以用module方式加載。支持模塊方式的驅(qū)動(dòng)程序必須提供
兩個(gè)函數(shù):int init_module(void)和void cleanup_module(void)。init_module()在加
載此模塊時(shí)調(diào)用,在這個(gè)函數(shù)里可以register_netdev()注冊設(shè)備。init_module()返回
0表示成功,返回負(fù)表示失敗。cleanup_module()在驅(qū)動(dòng)程序被卸載時(shí)調(diào)用,清除占用的
資源,調(diào)用unregister_netdev()。
模塊可以動(dòng)態(tài)地加載、卸載。在2.0.xx版本里,還有kerneld自動(dòng)加載模塊,但是2.2.x
x中已經(jīng)取消了kerneld。手工加載使用insmod命令,卸載用rmmod命令,看內(nèi)核中的模塊
用lsmod命令。
編譯驅(qū)動(dòng)程序用gcc,主要命令行參數(shù)-DKERNEL -DMODULE。并且作為模塊加載的驅(qū)動(dòng)程
序,只編譯成obj形式(加-c參數(shù))。編譯好的目標(biāo)文件放在/lib/modules/2.x.xx/misc下
,在啟動(dòng)文件里用insmod加載。
四。進(jìn)一步的閱讀
Linux程序設(shè)計(jì)資料可以從網(wǎng)上獲得。這就是開放源代碼的好處。?
評論