如何理解Linux調(diào)度器設(shè)計和實現(xiàn)

一、前言

隨著內(nèi)核版本的演進(jìn)，其源代碼的膨脹速度也在遞增，這讓Linux的學(xué)習(xí)曲線變得越來越陡峭了。這對初識內(nèi)核的同學(xué)而言當(dāng)然不是什么好事情，滿腔熱情很容易被當(dāng)頭澆滅。我有一個循序漸進(jìn)的方法，那就是先不要看最新的內(nèi)核，首先找到一個古老版本的內(nèi)核（一般都會比較簡單），將其吃透，然后一點點的迭代，理解每個版本變更背后的緣由和目的，最終推進(jìn)到最新內(nèi)核版本。

本文就是從2.4時代的任務(wù)調(diào)度器開始，詳細(xì)描述其實現(xiàn)并慢慢向前遞進(jìn)。當(dāng)然，為了更好的理解Linux調(diào)度器設(shè)計和實現(xiàn)，我們在第二章給出了一些通用的概念。之后，我們會在第四章講述O（1）調(diào)度器如何改進(jìn)并提升調(diào)度器性能。真正有劃時代意義的是CFS調(diào)度器，在2.6.23版本的內(nèi)核中并入主線。它的設(shè)計思想是那么的眩目，即便是目前最新的內(nèi)核中，完全公平的設(shè)計思想仍然沒有太大變化，這些我們會在第六章描述。第五章是關(guān)于公平調(diào)度思想的引入，通過這一章可以了解Con Kolivas的RSDL調(diào)度器，它是開啟公平調(diào)度的先鋒，通過這一章的鋪墊，我們可以更順暢的理解CFS。

二、任務(wù)調(diào)度器概述

為了不引起混亂，我們一開始先澄清幾個概念。進(jìn)程調(diào)度器是傳統(tǒng)的說法，但是實際上進(jìn)程是資源管理的單位，線程才是調(diào)度的單位，但是線程調(diào)度器的說法讓我覺得很不舒服，因此最終采用進(jìn)程調(diào)度器或者任務(wù)調(diào)度器的說法。為了節(jié)省字，本文有些地方也直接簡稱調(diào)度器，此外，除非特別說明，本文中的“進(jìn)程”指的是task struct代表的那個實體，畢竟這是一篇講調(diào)度器的文檔。

任務(wù)調(diào)度器是操作系統(tǒng)一個很重要的部件，它的主要功能就是把系統(tǒng)中的task調(diào)度到各個CPU上去執(zhí)行滿足如下的性能需求：

1、對于time-sharing的進(jìn)程，調(diào)度器必須是公平的

2、快速的進(jìn)程響應(yīng)時間

3、系統(tǒng)的throughput要高

4、功耗要小

當(dāng)然，不同的任務(wù)有不同的需求，因此我們需要對任務(wù)進(jìn)行分類：一種是普通進(jìn)程，另外一種是實時進(jìn)程。對于實時進(jìn)程，毫無疑問快速響應(yīng)的需求是最重要的，而對于普通進(jìn)程，我們需要兼顧前三點的需求。相信你也發(fā)現(xiàn)了，這些需求是互相沖突的，對于這些time-sharing的普通進(jìn)程如何平衡設(shè)計呢？這里需要進(jìn)一步將普通進(jìn)程細(xì)分為交互式進(jìn)程（interactive processs）和批處理進(jìn)程（batch process）。交互式進(jìn)程需要和用戶進(jìn)行交流，因此對調(diào)度延遲比較敏感，而批處理進(jìn)程屬于那種在后臺默默干活的，因此它更注重throughput的需求。當(dāng)然，無論如何，分享時間片的普通進(jìn)程還是需要兼顧公平，不能有人大魚大肉，有人連湯都喝不上。功耗的需求其實一直以來都沒有特別被調(diào)度器重視，當(dāng)然在linux大量在手持設(shè)備上應(yīng)用之后，調(diào)度器不得不面對這個問題了，當(dāng)然限于篇幅，本文就不展開了。

為了達(dá)到這些設(shè)計目標(biāo)，調(diào)度器必須要考慮某些調(diào)度因素，比如說“優(yōu)先級”、“時間片”等。很多RTOS的調(diào)度器都是priority-based的，官大一級壓死人，調(diào)度器總是選擇優(yōu)先級最高的那個進(jìn)程執(zhí)行。而在Linux內(nèi)核中，優(yōu)先級就是實時進(jìn)程調(diào)度的主要考慮因素。而對于普通進(jìn)程，如何細(xì)分時間片則是調(diào)度器的核心思考點。過大的時間片會嚴(yán)重?fù)p傷系統(tǒng)的響應(yīng)延遲，讓用戶明顯能夠感知到延遲，卡頓，從而影響用戶體驗。較小的時間片雖然有助于減少調(diào)度延遲，但是頻繁的切換對系統(tǒng)的throughput會造成嚴(yán)重的影響。因為這時候大部分的CPU時間用于進(jìn)程切換，而忘記了它本來的功能其實就是推動任務(wù)的執(zhí)行。

由于Linux是一個通用操作系統(tǒng)，它的目標(biāo)是星辰大海，既能運行在嵌入式平臺上，又能在服務(wù)器領(lǐng)域中獲得很好的性能表現(xiàn)，此外在桌面應(yīng)用場景中，也不能讓用戶有較差的用戶體驗。因此，Linux任務(wù)調(diào)度器的設(shè)計是一個極具挑戰(zhàn)性的工作，需要在各種有沖突的需求中維持平衡。還好，經(jīng)過幾十年內(nèi)核黑客孜孜不倦的努力，Linux內(nèi)核正在向著最終目標(biāo)邁進(jìn)。

三、2.4時代的O（n）調(diào)度器

網(wǎng)上有很多的linux內(nèi)核考古隊，挖掘非常古老內(nèi)核的設(shè)計和實現(xiàn)。雖然我對進(jìn)程調(diào)度器歷史感興趣，但是我只對“近代史”感興趣，因此，讓我們從2.4時代開始吧，具體的內(nèi)核版本我選擇的是2.4.18版本，該版本的調(diào)度器相關(guān)軟件結(jié)構(gòu)可以參考下面的圖片：

本章所有的描述都是基于上面的軟件結(jié)構(gòu)圖。

1、進(jìn)程描述符

struct task_struct {
volatile long need_resched;
long counter;
long nice;
unsigned long policy;
int processor;
unsigned long cpus_runnable, cpus_allowed;
struct list_head run_list;
unsigned long rt_priority;
......
};

對于2.4內(nèi)核，進(jìn)程切換有兩種，一種是當(dāng)進(jìn)程由于需要等待某種資源而無法繼續(xù)執(zhí)行下去，這時候只能是主動將自己掛起（調(diào)用schedule函數(shù)），引發(fā)一次任務(wù)調(diào)度過程。另外一種是進(jìn)程歡快執(zhí)行，但是由于各種調(diào)度事件的發(fā)生（例如時間片用完）而被迫讓出CPU，被其他進(jìn)程搶占。這時候的調(diào)度并不是立刻發(fā)送，而是延遲執(zhí)行，具體的方法是設(shè)定當(dāng)前進(jìn)程的need_resched等于1，然后靜靜的等待最近一個調(diào)度點的來臨，當(dāng)調(diào)度點到來的時候，內(nèi)核會調(diào)用schedule函數(shù)，搶占當(dāng)前task的執(zhí)行。

nice成員就是普通進(jìn)程的靜態(tài)優(yōu)先級，通過NICE_TO_TICKS宏可以將一個進(jìn)程的靜態(tài)優(yōu)先級映射成缺省時間片，保存在counter成員中。因此在一次調(diào)度周期開始的時候，counter其實就是該進(jìn)程分配的CPU時間額度（對于睡眠的進(jìn)程還有些獎勵，后面會描述），以tick為單位，并且在每個tick到來的時候減一，直到耗盡其時間片，然后等待下一個調(diào)度周期從頭再來。

Policy是調(diào)度策略，2.4內(nèi)核主要支持三種調(diào)度策略，SCHED_OTHER是普通進(jìn)程，SCHED_RR和SCHED_FIFO是實時進(jìn)程。SCHED_RR和SCHED_FIFO的調(diào)度策略在rt_priority不同的時候，都是誰的優(yōu)先級高誰先執(zhí)行，唯一的不同是相同優(yōu)先級的處理：SCHED_RR采用時間片輪轉(zhuǎn)，而SCHED_FIFO采用的策略是先到先得，先占有CPU的進(jìn)程會持續(xù)執(zhí)行，直到退出或者阻塞的時候才會讓出CPU。也只有這時候，其他同優(yōu)先級的實時進(jìn)程才有機會執(zhí)行。如果進(jìn)程是實時進(jìn)程，那么rt_priority表示該進(jìn)程的靜態(tài)優(yōu)先級。這個成員對普通進(jìn)程是無效的，可以設(shè)定為0。除了上面描述的三種調(diào)度策略，policy成員也可以設(shè)定SCHED_YIELD的標(biāo)記，當(dāng)然它和調(diào)度策略無關(guān)，主要處理sched_yield系統(tǒng)調(diào)用的。

Processor、cpus_runnable和cpus_allowed這三個成員都是和CPU相關(guān)。Processor說明了該進(jìn)程正在執(zhí)行（或者上次執(zhí)行）的邏輯CPU號；cpus_allowed是該task允許在那些CPU上執(zhí)行的掩碼；cpus_runnable是為了計算一個指定的進(jìn)程是否適合調(diào)度到指定的CPU上去執(zhí)行而引入的，如果該進(jìn)程沒有被任何CPU執(zhí)行，那么所有的bit被設(shè)定為1，如果進(jìn)程正在被某個CPU執(zhí)行，那么正在執(zhí)行的CPU bit設(shè)定為1，其他設(shè)定為0。具體如何使用cpus_runnable可以參考can_schedule函數(shù)。

run_list成員是鏈接入各種鏈表的節(jié)點，下一小節(jié)會描述內(nèi)核如何組織task，這里不再贅述。

2、如何組織task

Linux2.4版本的進(jìn)程調(diào)度器使用了非常簡陋的方法來管理可運行狀態(tài)的進(jìn)程。調(diào)度器模塊定義了一個runqueue_head的鏈表頭變量，無論進(jìn)程是普通進(jìn)程還是實時進(jìn)程，只要進(jìn)程狀態(tài)變成可運行狀態(tài)的時候，它會被掛入這個全局runqueue鏈表中。隨著系統(tǒng)的運行，runqueue鏈表中的進(jìn)程會不斷的插入或者移除。例如當(dāng)fork進(jìn)程的時候，新鮮出爐的子進(jìn)程會掛入這個runqueue。當(dāng)阻塞或者退出的時候，進(jìn)程會從這個runqueue中刪除。但是無論如何變遷，調(diào)度器始終只是關(guān)注這個全局runqueue鏈表中的task，并把最適合的那個任務(wù)丟到CPU上去執(zhí)行。由于整個系統(tǒng)中的所有CPU共享一個runqueue，為了解決同步問題，調(diào)度器模塊定義了一個自旋鎖來保護(hù)對這個全局runqueue的并發(fā)訪問

除了這個runqueue隊列，系統(tǒng)還有一個囊括所有task（不管其進(jìn)程狀態(tài)為何）的鏈表，鏈表頭定義為init_task，在一個調(diào)度周期結(jié)束后，重新為task賦初始時間片值的時候會用到該鏈表。此外，進(jìn)入sleep狀態(tài)的進(jìn)程分別掛入了不同的等待隊列中。當(dāng)然，由于這些進(jìn)程鏈表和調(diào)度關(guān)系不是那么密切，因此上圖中并沒有標(biāo)識出來。

3、動態(tài)優(yōu)先級和靜態(tài)優(yōu)先級

所謂靜態(tài)優(yōu)先級就是task固有的優(yōu)先級，不會隨著進(jìn)程的行為而改變。對于實時進(jìn)程，靜態(tài)優(yōu)先級就是rt_priority，而對于普通進(jìn)程，靜態(tài)優(yōu)先級就是（20 – nice）。然而實際上調(diào)度器在進(jìn)行調(diào)度的時候，并沒有采用靜態(tài)優(yōu)先級，而是比對動態(tài)優(yōu)先級來決定誰更有資格獲得CPU資源，當(dāng)然動態(tài)優(yōu)先級的計算是基于靜態(tài)優(yōu)先級的。

在計算動態(tài)優(yōu)先級（goodness函數(shù)）的時候，我們可以分成兩種情況：實時進(jìn)程和普通進(jìn)程。對于實時進(jìn)程而言，動態(tài)優(yōu)先級等于靜態(tài)優(yōu)先級加上一個固定的偏移：

weight = 1000 + p->rt_priority;

之所以這么做是為了將實時進(jìn)程和普通進(jìn)程區(qū)別開，這樣的操作也保證了實時進(jìn)程會完全優(yōu)先于普通進(jìn)程的調(diào)度。而對于普通進(jìn)程，動態(tài)優(yōu)先級的計算稍微有些復(fù)雜，我們可以摘錄部分代碼如下：

weight = p->counter;
if (!weight)
goto out;
weight += 20 - p->nice;

對于普通進(jìn)程，計算動態(tài)優(yōu)先級的策略如下：

（1）如果該進(jìn)程的時間片已經(jīng)耗盡，那么動態(tài)優(yōu)先級是0，這也意味著在本次調(diào)度周期中該進(jìn)程已經(jīng)再也沒有機會獲取CPU資源了。

（2）如果該進(jìn)程的時間片還有剩余，那么其動態(tài)優(yōu)先級等于該進(jìn)程剩余的時間片和靜態(tài)優(yōu)先級之和。之所以用（20-nice value）表示靜態(tài)優(yōu)先級，主要是為了讓靜態(tài)優(yōu)先級變成單調(diào)上升。之所以要考慮剩余時間片是為了獎勵睡眠的進(jìn)程，因為睡眠的進(jìn)程剩余的時間片較多，因此動態(tài)優(yōu)先級也就會高一些，更容易被調(diào)度器調(diào)度執(zhí)行。

調(diào)度器是根據(jù)動態(tài)優(yōu)先級來進(jìn)行調(diào)度，誰大就先執(zhí)行誰。我們可以用普通進(jìn)程作為例子：如果進(jìn)程靜態(tài)優(yōu)先級高（即nice value小），剩余時間片多，那么必定是優(yōu)先執(zhí)行。如果靜態(tài)優(yōu)先級高，但是所剩時間片無幾，那么可能會讓位給其他剩余時間片較多，優(yōu)先級適中的任務(wù)。靜態(tài)優(yōu)先級低的任務(wù)毫無疑問是受到雙重打擊，因為本來它的缺省時間片就不多，而且優(yōu)先級也很低。不過，無論靜態(tài)優(yōu)先級如何高，只要時間片用完，那么低優(yōu)先級的任務(wù)總是能夠有機會執(zhí)行，不至于餓死。

在計算普通進(jìn)程的動態(tài)優(yōu)先級的時候，除了考慮進(jìn)程剩余時間片信息和靜態(tài)優(yōu)先級，調(diào)度器也會酌情考慮cache和TLB的性能問題。例如，例如A和B進(jìn)程優(yōu)先級相同，剩余的時間片都是3個tick，但是A進(jìn)程上一次就是運行在本CPU上，如果選擇A，可能會有更好的cache和TLB的命中率，從而提高性能。在這種情況下，調(diào)度器會提升A進(jìn)程的動態(tài)優(yōu)先級。此外，如果備選進(jìn)程和當(dāng)前進(jìn)程共享同一個地址空間，那么在計算調(diào)度指數(shù)的時候也會做小小的傾斜。這里有兩種可能的情況：一種是備選進(jìn)程和當(dāng)前進(jìn)程在一個線程組中（即是進(jìn)程中的兩個線程），另外一種情況是備選進(jìn)程是內(nèi)核線程，這時候，它往往會借用上一個進(jìn)程地址空間。不論是哪一種情況，在進(jìn)程切換的時候，由于不需要進(jìn)行進(jìn)程地址空間的切換，因此也會有性能的優(yōu)勢。

3、調(diào)度時機

對于2.4內(nèi)核，產(chǎn)生調(diào)度的時機主要包括：

（1）進(jìn)程主動發(fā)起調(diào)度。

（2）在timer中斷處理中發(fā)現(xiàn)當(dāng)前進(jìn)程耗盡其時間片

（3）進(jìn)程喚醒的時候（例如喚醒一個RT進(jìn)程）。更詳細(xì)的信息可以參考下一個小節(jié)。

（4）父進(jìn)程在fork的時候，其時間片會均分到父子進(jìn)程，但是如果只剩下一個tick，這個tick會分配給子進(jìn)程，而父進(jìn)程的時間片則被清零，這時候，進(jìn)程遭遇的場景等同與在timer中斷處理中發(fā)現(xiàn)當(dāng)前進(jìn)程耗盡其時間片。如果父進(jìn)程在fork的時候，其時間片較大，父子進(jìn)程的時間片都不為0，這時候的場景類似于喚醒進(jìn)程。因為這兩個場景都是向runqueue中添加了一個task node，從而引發(fā)的調(diào)度。

（5）進(jìn)程切換的時候。當(dāng)在系統(tǒng)中的某個CPU上發(fā)生了進(jìn)程切換，例如A任務(wù)切換到了B任務(wù)，這時候是否A任務(wù)就失去了執(zhí)行的機會了呢？當(dāng)然也未必，因為雖然競爭本CPU失敗，但是也許其他的CPU上運行的task動態(tài)優(yōu)先級還不如A呢，抑或正好其他CPU有進(jìn)入idle狀態(tài)，正等待著新進(jìn)程入駐。

（6）用戶進(jìn)程主動讓出CPU的時候

（7）用戶進(jìn)程修改調(diào)度參數(shù)的時候

上面的種種場景，除了進(jìn)程主動調(diào)度之外，其他的場景都不是立刻調(diào)度schedule函數(shù)，而是設(shè)定need_resched標(biāo)記，然后等待調(diào)度點的到來。由于2.4內(nèi)核不是preemptive kernel，因此調(diào)度點總是在返回用戶空間的時候才會到來。當(dāng)調(diào)度點到來的時候，進(jìn)程調(diào)度就會在該CPU上啟動。搶占的場景太多，我們選擇進(jìn)程喚醒的場景來詳細(xì)描述，其他場景大家自行分析吧。

4、進(jìn)程喚醒的處理

當(dāng)進(jìn)程被喚醒的時候（try_to_wake_up），該task會被加入到那個全局runqueue中，但是是否啟動調(diào)度還需要進(jìn)行一系列的判斷。為了能清楚的描述這個場景，我們定義執(zhí)行喚醒的那個進(jìn)程是waker，而被喚醒的進(jìn)程是wakee。Wakeup有兩種，一種是sync wakeup，另外一種是non-sync wakeup。所謂sync wakeup就是waker在喚醒wakee的時候就已經(jīng)知道自己很快就進(jìn)入sleep狀態(tài)，而在調(diào)用try_to_wake_up的時候最好不要進(jìn)行搶占，因為waker很快就主動發(fā)起調(diào)度了。此外，一般而言，waker和wakee會有一定的親和性（例如它們通過share memory進(jìn)行通信），在SMP場景下，waker和wakee調(diào)度在一個CPU上執(zhí)行的時候往往可以獲取較佳的性能。而如果在try_to_wake_up的時候就進(jìn)行調(diào)度，這時候wakee往往會調(diào)度到系統(tǒng)中其他空閑的CPU上去。這時候，通過sync wakeup，我們往往可以避免不必要的CPU bouncing。對于non-sync wakeup而言，waker和wakee沒有上面描述的同步關(guān)系，waker在喚醒wakee之后，它們之間是獨立運作，因此在喚醒的時候就可以嘗試去觸發(fā)一次調(diào)度。

當(dāng)然，也不是說sync wakeup就一定不調(diào)度，假設(shè)waker在CPU A上喚醒wakee，而根據(jù)wakee進(jìn)程的cpus_allowed成員發(fā)現(xiàn)它根本不能在CPU A上調(diào)度執(zhí)行，那么管他sync不sync，這時候都需要去嘗試調(diào)度（調(diào)用reschedule_idle函數(shù)），反正waker和wakee命中注定是天各一方（在不同的CPU上執(zhí)行）。

我們首先看看UP上的情況。這時候waker和wakee在同一個CPU上運行（當(dāng)然系統(tǒng)中也只有一個CPU，哈哈），這時候誰能搶占CPU資源完全取決于waker和wakee的動態(tài)優(yōu)先級，如果wakee的動態(tài)優(yōu)先級大于waker，那么就標(biāo)記waker的need_resched標(biāo)志，并在調(diào)度點到來的時候調(diào)用schedule函數(shù)進(jìn)行調(diào)度。

SMP情況下，由于系統(tǒng)的CPU資源比較多，waker和wakee沒有必要爭個你死我活，wakee其實也可以選擇去其他CPU執(zhí)行，相關(guān)的算法大致如下：

（1）優(yōu)先調(diào)度wakee去系統(tǒng)其他空閑的CPU上執(zhí)行，如果wakee上次運行的CPU恰好處于idle狀態(tài)的時候，可以考慮優(yōu)先將wakee調(diào)度到那個CPU上執(zhí)行。如果不是，那么需要掃描系統(tǒng)中所有的CPU找到最合適的idle CPU。所謂最合適就是指最近才進(jìn)入idle的那個CPU。

（2）如果所有的CPU都是busy的，那么需要遍歷所有CPU上當(dāng)前運行的task，比對它們的動態(tài)優(yōu)先級，找到動態(tài)優(yōu)先級最低的那個CPU。

（3）如果動態(tài)優(yōu)先級最低的那個task的優(yōu)先級仍然高于wakee，那么沒有必要調(diào)度，runqueue中的wakee需要耐心等待下一次機會。如果wakee的動態(tài)優(yōu)先級高于找到的那個動態(tài)優(yōu)先級最低的task，那么標(biāo)記其need_resched標(biāo)志。如果不是搶占waker，那么我們還需要發(fā)送IPI去觸發(fā)該CPU的調(diào)度。

當(dāng)然，這是2.4內(nèi)核調(diào)度器的設(shè)計選擇，實際上這樣的操作值得商榷。限于篇幅，本文就不再展開敘述，如果有機會寫負(fù)載均衡的文章就可以好好的把這些關(guān)系梳理一下。

5、主調(diào)度器算法

主調(diào)度器（schedule函數(shù)）核心代碼如下：

list_for_each(tmp, &runqueue_head) {
p = list_entry(tmp, struct task_struct, run_list);
int weight = goodness(p, this_cpu, prev->active_mm);
if (weight > c)
c = weight, next = p;
}

list_for_each用來遍歷runqueue_head鏈表上的所有的進(jìn)程，臨時變量p就是本次需要檢查的進(jìn)程描述符。如何判斷哪一個進(jìn)程是最適合調(diào)度執(zhí)行的進(jìn)程呢？我們需要計算進(jìn)程的動態(tài)優(yōu)先級（對應(yīng)上面程序中的變量weight），它是通過goodness函數(shù)實現(xiàn)的。動態(tài)優(yōu)先級最大的那個進(jìn)程就是當(dāng)前最適合調(diào)度到CPU執(zhí)行的進(jìn)程。一旦選中，調(diào)度器會啟動進(jìn)程切換，運行該進(jìn)程以替換之前的那個進(jìn)程。

根據(jù)代碼可知：即便鏈表第一個節(jié)點就是最合的下一個要調(diào)度執(zhí)行的進(jìn)程，調(diào)度器算法仍然會遍歷全局runqueue鏈表，一一比對。由此我們可以判斷2.4內(nèi)核中的調(diào)度器的算法復(fù)雜度是O（n）。一旦選中了下一個要執(zhí)行的進(jìn)程，進(jìn)程切換模塊就會在該CPU上執(zhí)行具體的進(jìn)程切換。

對于SCHED_RR的實時進(jìn)程，優(yōu)先級相等的情況下還需要有一個時間片輪轉(zhuǎn)的概念。因此，在遍歷鏈表之前我們就先處理該進(jìn)程的時間片處理：

if (unlikely(prev->policy == SCHED_RR))
if (!prev->counter) {
prev->counter = NICE_TO_TICKS(prev->nice);
move_last_runqueue(prev);
}

如果時間片（對應(yīng)上面程序中的prev->counter）用完，SCHED_RR的實時進(jìn)程會被移到runqueue鏈表的尾部。通過這樣的處理，優(yōu)先級相等的SCHED_RR在遍歷runqueue鏈表的時候會命中鏈表中的第一個task，從而實現(xiàn)時間片輪轉(zhuǎn)的概念。這里有一個比較奇葩的事情就是SCHED_RR的時間片是根據(jù)其nice value設(shè)定，而實際上nice value應(yīng)該只適用于普通進(jìn)程的。

6、時間片處理

普通進(jìn)程的時間片處理思路是這樣：

（1）每個進(jìn)程根據(jù)其靜態(tài)優(yōu)先級可以固定分配一個缺省的時間片，靜態(tài)優(yōu)先級越大，分配的時間片就越大。

（2）一旦Runqueue中的進(jìn)程被調(diào)度執(zhí)行，那么其時間片就會在tick到來的時候遞減，如果進(jìn)程時間片耗盡，那么該進(jìn)程將失去分配CPU資源的資格。

（3）Runqueue中的進(jìn)程的時間片全部被用完之后，我們稱一個調(diào)度周期結(jié)束，這時候需要為runqueue中的進(jìn)程重新設(shè)定其缺省時間片，這樣，一個新的調(diào)度周期又開始了。

如何確定每個進(jìn)程的缺省時間片呢？由于時間片是按照tick來分配的，那么最小的時間片也是1個tick，也就是說最低優(yōu)先級（nice value等于19）的缺省時間片就是1個tick。對于中間優(yōu)先級（nice value等于0）的時間片，我們將其設(shè)定為50ms左右，具體的算法大家可以自行參考NICE_TO_TICKS的代碼實現(xiàn)。不得不承認(rèn)這個根據(jù)nice value計算缺省時間片的過程還是很丑陋的，不同的HZ設(shè)定，計算得到的缺省時間片是不一樣的。也就是說系統(tǒng)的調(diào)度行為和HZ的設(shè)定有關(guān)，這叫有代碼潔癖的同學(xué)如何能夠接受。不論如何，我們還是給出實際的例子來感受一下：

?	－20	－10	0	10	19
HZ=100	11個tick 110ms	8個tick 80ms	6個tick 60ms	3個tick 30ms	1個tick 10ms
HZ=1000	81個tick 81ms	61個tick 61ms	41個tick 41ms	21tick 21ms	3個tick 3ms

當(dāng)runqueue中所有進(jìn)程的時間片耗盡之后，這時候就會開啟一次重新加載進(jìn)程缺省時間片的過程，代碼如下（在schedule函數(shù)中）：

if (unlikely(!c)) {
struct task_struct *p;
for_each_task(p)
p->counter = (p->counter >> 1) + NICE_TO_TICKS(p->nice);
goto repeat_schedule;
}

這里c就是遍歷runqueue鏈表之后找到的最大動態(tài)優(yōu)先級，如果它等于0則說明：首先，系統(tǒng)中沒有處于可運行狀態(tài)的實時進(jìn)程，其次，所有的處于可運行狀態(tài)的普通進(jìn)程都已經(jīng)消耗完了它們的時間片，這時候是需要重新“充值”了。for_each_task這個宏是遍歷所有系統(tǒng)中的進(jìn)程描述符，不論是否是可運行狀態(tài)的。對于掛入runqueue鏈表中的普通進(jìn)程而言，其當(dāng)前的時間片p->counter已經(jīng)是等于0了，因此它獲得的新的時間片就是NICE_TO_TICKS(p->nice)，也就是根據(jù)nice value計算得到的缺省時間片。對于掛入等待隊列中處于睡眠狀態(tài)的進(jìn)程而言，其時間片p->counter還有剩余，當(dāng)然會累積到進(jìn)程時間片配額中，這也算是對睡眠進(jìn)程的一種獎勵吧。為了防止經(jīng)常睡眠的交互式進(jìn)程獲得過于龐大的時間片，這里并不是累積其全部存留時間片，而是打了個對折(p->counter >> 1)。

新的一個周期開始了，當(dāng)前進(jìn)程已經(jīng)在CPU上奔跑了，消耗其時間片的代碼位于timer中斷處理中，如下：

if (--p->counter <= 0) {
p->counter = 0;
p->need_resched = 1;
}

每一個tick到來的時候，進(jìn)程的時間片都會減一，當(dāng)時間片是0的時候，調(diào)度器剝奪其執(zhí)行的權(quán)力，從而從而引發(fā)一次調(diào)度，選擇其他時間片不是0的進(jìn)程運行，直到runqueue中的所有進(jìn)程時間片耗盡，又會重新賦值，開始一個新的周期。調(diào)度器就這樣周而復(fù)始，推動整個系統(tǒng)的運作。

四、2.6時代的O（1）調(diào)度器

1、Why O（1）調(diào)度器

如果簡單是判斷調(diào)度器好壞的唯一標(biāo)準(zhǔn)，那么無疑O（n）調(diào)度器是最優(yōu)秀的調(diào)度器。雖然它非常的簡單，容易理解，但是存在嚴(yán)重的擴展性問題和性能問題。下面讓我們一起來控訴O（n）調(diào)度器的“七宗罪”，同時這也是Ingo Molnar發(fā)起O（1）調(diào)度器項目背后的原因。

（1）算法復(fù)雜度問題

讓人最不爽的就是對runqueue隊列的遍歷，當(dāng)系統(tǒng)中runnable進(jìn)程不多的時候，遍歷鏈表的開銷還可以接受，但是隨著系統(tǒng)中runnable狀態(tài)的進(jìn)程數(shù)目增多，那么調(diào)度器select next的運算量也隨之呈線性的增長，這也是我們?yōu)槭裁唇兴麿（n）調(diào)度器的原因。

此外，調(diào)度周期結(jié)束后，調(diào)度器會為所有進(jìn)程的時間片進(jìn)行“充值“的動作。在大型系統(tǒng)中，同時存在的進(jìn)程（包括睡眠的進(jìn)程）可能會有數(shù)千個，為每一個進(jìn)程計算其時間片的過程太耗費時間。

（2）SMP擴展性問題

2.4內(nèi)核的O（n）調(diào)度器有非常差的SMP擴展性。我們知道，O（n）調(diào)度器是通過一個鏈表來管理系統(tǒng)中的所有的等待調(diào)度的進(jìn)程，訪問這個runqueue鏈表的場景很多：進(jìn)行調(diào)度的時候，我們需要遍歷runqueue，找到合適的next task；wakeup或者block進(jìn)程的時候，我們需要從runqueue中增加節(jié)點或者刪除節(jié)點……在訪問runqueue這個鏈表的時候，我們都會首先會上自旋鎖，同時disable本地CPU中斷，然后訪問鏈表執(zhí)行相應(yīng)的動作，完成之后釋放鎖，開中斷。通過這樣的內(nèi)核同步機制，我們可以保證來自多個CPU對runqueue鏈表的并發(fā)訪問。當(dāng)系統(tǒng)中的CPU數(shù)目比較少的時候，自旋鎖的開銷還可以接受，但是在大型系統(tǒng)中，CPU數(shù)目非常多，這時候runqueue spin lock就成為系統(tǒng)的性能瓶頸。

（3）CPU空轉(zhuǎn)問題

每當(dāng)runqueue鏈表中的所有進(jìn)程耗盡了其時間片，這時候就需要啟動對系統(tǒng)中所有進(jìn)程時間片重新計算的過程。這個計算過程異常丑陋，需要遍歷系統(tǒng)中的所有進(jìn)程（注意：是所有進(jìn)程?。瑸檫M(jìn)程描述符的counter成員賦一個新值。而這個操作足以把該CPU上的L1 cache全部干掉。當(dāng)完成了時間片重新計算過程后，你幾乎面對的就是一個全空的L1 cache（當(dāng)然不是全空，主要是cache中的數(shù)據(jù)沒有任何意義，這時候L1 cache的命中率急劇下降）。除此之外，時間片重新計算過程會帶來CPU資源的浪費，我們用下面的圖片來描述：

在runqueue隊列中的全部進(jìn)程時間片被耗盡之前，系統(tǒng)總會處于這樣一個狀態(tài)：最后的一組尚存時間片的進(jìn)程分分別調(diào)度到各個CPU上去。我們以4個CPU為例，T0～T3分別運行在CPU0~CPU3上。隨著系統(tǒng)的運行，CPU2上的T2首先耗盡了其時間片，但是這時候，其實CPU2上也是無法進(jìn)行調(diào)度的，因為遍歷runqueue鏈表，找不到適合的進(jìn)程調(diào)度運行，因此它只能是處于idle狀態(tài)。也許隨后T0和T3也耗盡其時間片，從而導(dǎo)致CPU0和CPU3也進(jìn)入了idle狀態(tài)。現(xiàn)在只剩下最后一個進(jìn)程T1仍然在CPU1上運行，而其他系統(tǒng)中的處理器處于idle狀態(tài)，白白的浪費資源。唯一能改變這個狀態(tài)的是T1耗盡其時間片，從而啟動一個重新計算時間片的過程，這時候，正常的調(diào)度就可以恢復(fù)了。隨著系統(tǒng)中CPU數(shù)目的加大，資源浪費會越來越嚴(yán)重。

（4）task bouncing issue

一般而言，一個進(jìn)程最好是從一而終，假如它運行在系統(tǒng)中的某個CPU中，那么在其處于可運行狀態(tài)的過程中，最好是一直保持在該CPU上運行。不過在O（n）調(diào)度器下，很多人都反映有進(jìn)程在CPU之間跳來跳去的現(xiàn)象。其根本的原因也是和時間片算法相關(guān)。在一個新的周期開后，runqueue中的進(jìn)程時間片都是滿滿的，在各個CPU上調(diào)度進(jìn)程的時候，它可選擇的比較多，再加上調(diào)度器傾向于調(diào)度上次運行在本CPU的進(jìn)程，因此調(diào)度器有很大的機會把上次運行的進(jìn)程調(diào)度到同一個處理器上。但是隨著runqueue中的進(jìn)程一個個的耗盡其時間片，cpu可選擇的余地在不斷的壓縮，從而導(dǎo)致進(jìn)程執(zhí)行在一個和它親和性不大的處理器（例如上次該進(jìn)程運行在CPU0，但是這個將其調(diào)度到CPU1執(zhí)行，但是實際上該進(jìn)程和CPU0的親和性更大些）。

（5）RT進(jìn)程調(diào)度性能問題

實時調(diào)度的性能一般。通過上一節(jié)的介紹，我們知道，實時進(jìn)程和普通進(jìn)程掛在一個鏈表中。當(dāng)調(diào)度實時進(jìn)程的時候，我們需要遍歷整個runqueue列表，掃描并計算所有進(jìn)程的調(diào)度指數(shù)，從而選擇出心儀的那個實時進(jìn)程。按理說實時進(jìn)程和普通進(jìn)程位于不同的調(diào)度空間，兩不相干，但是現(xiàn)在調(diào)度實時進(jìn)程還需要掃描計算普通進(jìn)程，這樣糟糕的算法讓那些關(guān)注實時性的工程師不能忍受。

當(dāng)然，上面的這些還不是關(guān)鍵，最重要的是整個linux內(nèi)核不是搶占式內(nèi)核，在整個內(nèi)核態(tài)都不能被搶占。對于一些比較耗時（可能幾個毫秒）的系統(tǒng)調(diào)用或者中斷處理，必須返回用戶空間才啟動調(diào)度是不可接受的。除了內(nèi)核搶占性之外，優(yōu)先級翻轉(zhuǎn)問題也需要引起調(diào)度器的重視，否則即便一個rt進(jìn)程變成runnable狀態(tài)了，但是也只能眼睜睜的看著比它優(yōu)先級低的進(jìn)程運行，直到該rt進(jìn)程等待的資源被釋放。

（6）交互式普通進(jìn)程的調(diào)度延遲問題

O（n）并不區(qū)分交互式進(jìn)程和批處理進(jìn)程，它只是獎勵經(jīng)常睡眠的那些進(jìn)程。但是有些批處理進(jìn)程也屬于IO-bound進(jìn)程，例如數(shù)據(jù)庫服務(wù)進(jìn)程，它本身是一個后臺進(jìn)程，對調(diào)度延遲不敏感，但是由于它需要和磁盤打交道，因此也會經(jīng)常阻塞在disk IO上。對這樣的后臺進(jìn)程進(jìn)行動態(tài)優(yōu)先級的升高其實是沒有意義的，會增大其他交互式進(jìn)程的調(diào)度延遲。另外一方面，用戶交互式進(jìn)程也可能是CPU-bound的，而這時候調(diào)度器不會正確的了解到該進(jìn)程的調(diào)度需求并對其進(jìn)行補償。

（7）時間片粒度問題。

用戶感知到的響應(yīng)延遲是和系統(tǒng)負(fù)載相關(guān)，我們可以用runnable進(jìn)程數(shù)目來粗略的描述系統(tǒng)的負(fù)載。當(dāng)系統(tǒng)負(fù)載高的時候，runqueue中的進(jìn)程數(shù)目會比較多，一次調(diào)度周期的時間就會比較長，例如在HZ=100的情況下，runqueue上有5個runnable進(jìn)程，nice value是0，每個時間片配額是60ms，那么一個調(diào)度周期就是300ms。隨著runnable進(jìn)程增大，調(diào)度周期也變大。當(dāng)一個進(jìn)程耗盡其時間片之后，只能等待下一個調(diào)度周期到來。因此隨著調(diào)度周期變大，系統(tǒng)響應(yīng)也會變的較差。

雖然O（n）調(diào)度器存在不少的issue，但是社區(qū)的人還是基本認(rèn)可這套算法的，因此在設(shè)計新的調(diào)度器的時候并不是完全推翻O（n）調(diào)度器的設(shè)計，而是針對O（n）調(diào)度器的問題進(jìn)行改進(jìn)。在本章中我們選擇2.6.11版本的內(nèi)核來描述O（1）調(diào)度器如何運作。鑒于O（1）調(diào)度器和O（n）調(diào)度器沒有本質(zhì)區(qū)別，因此我們只是描述它們之間不同的地方。

2、O（1）調(diào)度器的軟件功能劃分

下圖是一個O（1）調(diào)度器的軟件框架：

O（n）調(diào)度器中只有一個全局的runqueue，嚴(yán)重影響了擴展性，因此在O（1）調(diào)度器中引入了per-CPU runqueue的概念。系統(tǒng)中所有的可運行狀態(tài)的進(jìn)程首先經(jīng)過負(fù)載均衡模塊掛入各個CPU的runqueue，然后由主調(diào)度器和tick調(diào)度器驅(qū)動該CPU上的調(diào)度行為。由于篇幅的原因，我們在本文中不講解負(fù)載均衡模塊，把重點放在單個CPU上的任務(wù)調(diào)度算法。

由于引入了per-CPU runqueue，O（1）調(diào)度器刪除了全局runqueue的spin lock，而是把這個spin lock放入到per-CPU runqueue數(shù)據(jù)結(jié)構(gòu)中（rq->lock），通過把一個大鎖細(xì)分成小鎖，可以大大降低調(diào)度延遲，提升系統(tǒng)響應(yīng)時間。這種方法在內(nèi)核中經(jīng)常使用，是一個比較通用的性能優(yōu)化方法。

通過上面的軟件結(jié)構(gòu)劃分可以解決O（n）調(diào)度的SMP擴展性問題和CPU空轉(zhuǎn)問題。此外，好的復(fù)雜均衡算法也可以解決O（n）調(diào)度器的task bouncing 問題。

3、O（1）調(diào)度器的runqueue結(jié)構(gòu)

O（1）調(diào)度器的基本優(yōu)化思路就是把原來runqueue上的單鏈表變成多個鏈表，即每一個優(yōu)先級的進(jìn)程被掛入不同鏈表中。相關(guān)的軟件結(jié)構(gòu)可以參考下面的圖片：

在調(diào)度器中，runqueue是一個很重要的數(shù)據(jù)結(jié)構(gòu)，它最重要的作用是管理那些處于可運行狀態(tài)的進(jìn)程。O（1）調(diào)度器引入了優(yōu)先級隊列的概念來管理task，具體由struct prio_array抽象：

struct prio_array {
unsigned int nr_active;
unsigned long bitmap[BITMAP_SIZE];
struct list_head queue[MAX_PRIO];
};

由于支持140個優(yōu)先級，因此queue成員中有140個分別表示各個優(yōu)先級的鏈表頭，不同優(yōu)先級的進(jìn)程掛入不同的鏈表中。bitmap 是表示各個優(yōu)先級進(jìn)程鏈表是空還是非空。nr_active表示這個隊列中有多少個task。在這些隊列中，100～139是普通進(jìn)程的優(yōu)先級，其他的是實時進(jìn)程的優(yōu)先級。因此，在O（1）調(diào)度器中，RT進(jìn)程和普通進(jìn)程被區(qū)分開了，普通進(jìn)程根本不會影響RT進(jìn)程的調(diào)度。

Runqueue中有兩個優(yōu)先級隊列（struct prio_array）分別用來管理active（即時間片還有剩余）和expired（時間片耗盡）的進(jìn)程。Runqueue中有兩個優(yōu)先級隊列的指針，分別指向這兩個優(yōu)先級隊列。隨著系統(tǒng)的運行，active隊列的task一個個的耗盡其時間片，掛入到expired隊列。當(dāng)active隊列的task為空的時候，切換active和expired隊列，開始一輪新的調(diào)度過程。

雖然在O（1）調(diào)度器中task組織的形式發(fā)生了變化，但是其核心思想仍然和O（n）調(diào)度器一致的，都是把CPU資源分成一個個的時間片，分配給每一個runnable的進(jìn)程。進(jìn)程用完其額度后被搶占，等待下一個調(diào)度周期的到來。

4、核心調(diào)度算法

主調(diào)度器（就是schedule函數(shù)）的主要功能是從該CPU的runqueue找到一個最合適的進(jìn)程調(diào)度執(zhí)行。其基本的思路就是從active優(yōu)先級隊列中尋找，代碼如下：

idx = sched_find_first_bit(array->bitmap);
queue = array->queue + idx;
next = list_entry(queue->next, task_t, run_list);

首先在當(dāng)前active優(yōu)先級隊列的bitmap尋找第一個非空的進(jìn)程鏈表，然后從該鏈表中找到的第一個節(jié)點就是最適合下一個調(diào)度執(zhí)行的進(jìn)程。由于沒有遍歷整個鏈表的操作，因此這個調(diào)度器的算法復(fù)雜度是一個常量，從而解決了O（n）算法復(fù)雜度的issue。

如果當(dāng)前active優(yōu)先級隊列中“空無一人”（nr_active等于0），那么這時候就需要切換active和expired優(yōu)先級隊列了：

if (unlikely(!array->nr_active)) {
rq->active = rq->expired;
rq->expired = array;
array = rq->active;
}

切換很快，并沒有一個遍歷所有進(jìn)程重新賦default時間片的操作（大大縮減了runqueue臨界區(qū)的size）。這些都避免了O（n）調(diào)度器帶來的種種問題，從而提高了調(diào)度器的性能。

5、靜態(tài)優(yōu)先級和動態(tài)優(yōu)先級

在前面的小節(jié)中，我們有意的忽略了優(yōu)先級隊列中“優(yōu)先級”的具體含義，現(xiàn)在是需要澄清的時候了。其實優(yōu)先級隊列中“優(yōu)先級”指的是動態(tài)優(yōu)先級，從這個角度看，O（1）和O（n）調(diào)度器的調(diào)度算法又統(tǒng)一了，都是根據(jù)動態(tài)優(yōu)先級進(jìn)行調(diào)度。

O（1）的靜態(tài)優(yōu)先級的概念和O（n）是類似的，對于實時進(jìn)程保存在進(jìn)程描述符的rt_priority成員中，取值范圍是1（優(yōu)先級最低）～99（優(yōu)先級最高）。對于普通進(jìn)程，靜態(tài)優(yōu)先級則保存在static_prio成員中，取值范圍是100（優(yōu)先級最高）～139（優(yōu)先級最低），分別對應(yīng)nice value的-20 ～ 19。

了解了靜態(tài)優(yōu)先級之后，我們一起來看看動態(tài)優(yōu)先級（保存在進(jìn)程描述符的prio成員中）。鑒于在實際調(diào)度的時候使用的是動態(tài)優(yōu)先級，我們必須要保證它是單調(diào)的（靜態(tài)優(yōu)先級未能保持單調(diào)，rt的99和普通進(jìn)程的100都是靜態(tài)優(yōu)先級的最高點，也就是說在靜態(tài)優(yōu)先級數(shù)軸上，rt段是單調(diào)上升，而在普通進(jìn)程段是單調(diào)下降的）。為了解決這個問題，在計算實時進(jìn)程動態(tài)優(yōu)先級的時候進(jìn)行了一個簡單的映射：

p->prio = MAX_USER_RT_PRIO-1 - p->rt_priority;

通過這樣的轉(zhuǎn)換，rt的動態(tài)優(yōu)先級在數(shù)軸上也是單調(diào)下降的了。普通進(jìn)程的動態(tài)優(yōu)先級計算沒有那么簡單，除了靜態(tài)優(yōu)先級，還需要考慮進(jìn)程的平均睡眠時間（保存在進(jìn)程描述符的sleep_avg成員中），并根據(jù)該值對進(jìn)程進(jìn)行獎懲。具體代碼可以參考effective_prio函數(shù)，這里不再詳述，最終普通進(jìn)程的動態(tài)優(yōu)先級是100（優(yōu)先級最高）～139（優(yōu)先級最低），和靜態(tài)優(yōu)先級的取值范圍是一致的。

在本小節(jié)的最后，我們一起來對比普通進(jìn)程在O（1）和O（n）調(diào)度器的動態(tài)優(yōu)先級算法。這個兩個調(diào)度器的基本思路是一致的：考慮靜態(tài)優(yōu)先級，輔以對該進(jìn)程的“用戶交互指數(shù)”的評估，用戶交互指數(shù)高的，調(diào)升其動態(tài)優(yōu)先級，反之則降低。不過在評估用戶交互指數(shù)上，O（1）顯然做的更好。O（n）調(diào)度器僅僅考慮了睡眠進(jìn)程的剩余時間片，而O（1）的“平均睡眠時間”算法顯然考慮更多的因素：在cpu上的執(zhí)行時間、在runqueue中的等待時間、睡眠時間、睡眠時候的進(jìn)程狀態(tài)（是否可被信號打斷），什么上下文喚醒（中斷上下文喚醒還是在進(jìn)程上下文中喚醒）……因此O（1）調(diào)度器更好的判斷了進(jìn)程是屬于interactive process還是batch process，從而精準(zhǔn)的為interactive process打call。

6、時間片處理

缺省時間片的計算是通過task_timeslice完成的，在O（1）調(diào)度器中，缺省時間片已經(jīng)和HZ無關(guān)了，無論如何設(shè)置HZ，靜態(tài)優(yōu)先級為[ -20 ... 0 ... 19 ]的普通進(jìn)程其缺省時間片為[800ms ... 100ms ... 5ms]。

在tick到來的時候，當(dāng)前task的時間片會遞減（--p->time_slice），當(dāng)時間片等于0的時候，會將該task從active優(yōu)先級列表中摘下，設(shè)定resched標(biāo)記，并且重置時間片，代碼如下：

dequeue_task(p, rq->active);
set_tsk_need_resched(p);
p->time_slice = task_timeslice(p);

task_timeslice函數(shù)就是用來計算進(jìn)程時間片的配額的。對于O（1）調(diào)度器，時間片的重新賦值是分散處理的，在各個task耗盡其時間片之后立刻進(jìn)行的。這樣的改動也修正了O（n）調(diào)度器一次性的遍歷系統(tǒng)所有進(jìn)程，重新為時間片賦值的過程。

6、識別用戶交互式進(jìn)程

一般而言，時間片耗盡之后，該task會被掛入到expired優(yōu)先級隊列，這時候如果想要被調(diào)度只能等到下次active和expired切換了。不過，有些特殊的場景需要特殊處理：

if (!TASK_INTERACTIVE(p) || EXPIRED_STARVING(rq)) {
enqueue_task(p, rq->expired);
if (p->static_prio < rq->best_expired_prio)
rq->best_expired_prio = p->static_prio;
} else
enqueue_task(p, rq->active);

這里TASK_INTERACTIVE是用來判斷一個進(jìn)程是否是一個用戶交互式進(jìn)程（也是和平均睡眠時間相關(guān)，由此可見，平均睡眠時間不僅用于計算動態(tài)優(yōu)先級，還用來決定一個進(jìn)程是否回插入active隊列），如果是的話，說明該進(jìn)程對用戶響應(yīng)比較敏感，這時候不能粗暴的掛入expired隊列，而是重新掛入active隊列，繼續(xù)有機會獲取調(diào)度執(zhí)行的機會。由此可見，O（1）調(diào)度器真是對用戶交互式進(jìn)程非常的照顧，一旦被判斷是用戶交互型進(jìn)程，那么它將獲取連續(xù)執(zhí)行的機會。當(dāng)然，調(diào)度器也不能太過分，如果用戶交互型進(jìn)程持續(xù)占用CPU，那么在expired隊列中苦苦等待進(jìn)程怎么辦？這時候就要看看expired隊列中的進(jìn)程的饑餓狀態(tài)了，這也就是EXPIRED_STARVING這個宏定義的功能。如果expired隊列中的進(jìn)程等待了太長的時間，那么說明調(diào)度器已經(jīng)出現(xiàn)嚴(yán)重不公平的現(xiàn)象，因此這時候即便是判斷當(dāng)前耗盡時間片的進(jìn)程是用戶交互型進(jìn)程，也把它掛入expired隊列，盡快的完成本次調(diào)度周期，讓active和expired發(fā)生切換。

O（1）調(diào)度器使用非常復(fù)雜的算法來判斷進(jìn)程的用戶交互指數(shù)以及進(jìn)程是否是交互式進(jìn)程，hardcode了很多的不知其所以然的常數(shù)，估計也是通過各種大量的實驗場景總結(jié)出來的。這部分的設(shè)計概念我是在是沒有勇氣去探索，因此這里就略過了。但是無論如何，它總是比僅僅考慮睡眠時間的O（n）調(diào)度器性能要好。

7、搶占式內(nèi)核

2.4時代，大部分的Linux應(yīng)用都集中在服務(wù)器領(lǐng)域，因此非搶占式內(nèi)核的設(shè)計選擇也無可厚非。不過隨著Linux在桌面和嵌入式上的滲透，系統(tǒng)響應(yīng)慢慢的稱為用戶投訴的主要方面，因此，在2.5的開發(fā)過程中，Linux引入了搶占式內(nèi)核的概念（CONFIG_PREEMPT），如果沒有配置該選項，那么一切和2.4內(nèi)核保持一致，如果配置了該選項，那么不需要在返回用戶空間的時候才苦苦等到調(diào)度點，大部分的內(nèi)核執(zhí)行路徑都是可以被搶占的。同樣的，限于篇幅，這里不再展開描述。

五、公平調(diào)度思想的引入

1、傳統(tǒng)調(diào)度器時間片悖論

在O（n）和O（1）調(diào)度器中，時間片是固定分配的，靜態(tài)優(yōu)先級高的進(jìn)程獲取更大的time slice。例如nice value等于20的進(jìn)程獲取的default timeslice是5ms，而nice value等于0的進(jìn)程獲取的是100ms。直觀上，這樣的策略沒有毛病（高優(yōu)先級的獲取更多的執(zhí)行時間），但是，這樣的設(shè)定潛臺詞就是：高優(yōu)先級的進(jìn)程會獲得更多的連續(xù)執(zhí)行的機會，這是CPU-bound進(jìn)程期望的，但是實際上，CPU-bound進(jìn)程往往在后臺執(zhí)行，其優(yōu)先級都是比較低的。

因此，假設(shè)我們調(diào)度策略就是根據(jù)進(jìn)程靜態(tài)優(yōu)先級確定一個固定大小的時間片，這時候我們在如何分配時間片上會遇到兩難的狀況：想要給用戶交互型進(jìn)程設(shè)定高優(yōu)先級，以便它能有更好的用戶體驗，但是分配一個大的時間片是毫無意義的，因為這種進(jìn)程多半是處于阻塞態(tài)，等待用戶的輸入。而后臺進(jìn)程的優(yōu)先級一般不高，但是根據(jù)其優(yōu)先級分配一個較小的時間片往往會影響其性能，這種類型的進(jìn)程最好是趁著cache hot的時候狂奔。

怎么辦？或者傳統(tǒng)調(diào)度器固定分配時間片這個設(shè)計概念就是錯誤的。

2、傳統(tǒng)調(diào)度器的卡頓問題

在Linux 2.5版本的開發(fā)過程中，Ingo Molnar設(shè)計的O（1）調(diào)度器替換掉了原始的、簡陋的O（n）調(diào)度器，從而解決了擴展性很差，性能不佳的問題。在大部分的場景中，該調(diào)度器都獲得了滿意的性能，在商用的Linux 2.4發(fā)行版中，O（1）調(diào)度器被很多廠商反向移植到Linux 2.4中，由此可見O（1）調(diào)度器性能還是優(yōu)異的。

然而O（1）并非完美，在實際的使用過程中，還是有不少的桌面用戶在抱怨用戶交互性比較差。當(dāng)一個相當(dāng)消耗CPU資源的進(jìn)程啟動的時候，現(xiàn)存的那些用戶交互程序（例如你在通過瀏覽器查看網(wǎng)頁）都可以感覺到明顯的延遲。針對這些issue，很多天才工程師試圖通過對用戶交互指數(shù)算法的的修改來解決問題，這里面就包括公平調(diào)度思想的提出者Con Kolivas。不過無論如何調(diào)整算法，總是有點拆東墻補西墻的感覺，一個場景的issue修復(fù)了，另外一個場景又冒出來交互性不好的issue，刁鉆的客戶總是能夠在邊邊角角的場景中找到讓用戶感覺到的響應(yīng)延遲。

在反反復(fù)復(fù)修復(fù)用戶卡頓issue的過程中，工程師最容易煩躁，而往往這時候最需要冷靜的思考。Con Kolivas仔細(xì)的檢視了調(diào)度器代碼，他發(fā)現(xiàn)出問題的是評估進(jìn)程用戶交互指數(shù)的代碼。為何調(diào)度器要根據(jù)進(jìn)程的行為猜測其對交互性的需求？這根本是一項不可能完成的任務(wù)，因為你總是不會100％全部猜中，就好像你去猜測你喜歡的女孩子的心事一樣，你細(xì)心的收集了關(guān)于這個女孩子的性格特點，業(yè)余愛好，做事風(fēng)格，邏輯思維水平，星座……甚至生理周期，并期望著能總是正確的猜中其心中所想，坦率的講這是不可能的。在進(jìn)程調(diào)度這件事情上為何不能根據(jù)實實在在確定的東西來調(diào)度呢？一個進(jìn)程的靜態(tài)優(yōu)先級已經(jīng)完成的說明了其調(diào)度需求了，這就足夠了，不需要猜測進(jìn)程對交互性的需求，只要維持公平就OK了，而所謂的公平就是進(jìn)程獲取和其靜態(tài)優(yōu)先級匹配的CPU執(zhí)行時間。在這樣的思想指導(dǎo)下，Con Kolivas提出了RSDL（Rotating Staircase Deadline）調(diào)度器。

3、RSDL調(diào)度器

RSDL調(diào)度器仍然沿用了O（1）調(diào)度的數(shù)據(jù)結(jié)構(gòu)和軟件結(jié)構(gòu)，當(dāng)然刪除了那些令人毛骨悚然的評估進(jìn)程交互指數(shù)的代碼。我們這一小節(jié)不可能詳細(xì)描述RSDL算法，不過只要講清楚Rotating、Staircase和Deadline這三個基本概念，大家就應(yīng)該對RSDL有基本的了解了。

首先看Staircase概念，它更詳細(xì)表述應(yīng)該是priority staircase，即在進(jìn)程調(diào)度過程中，其優(yōu)先級會象下樓梯那樣一點點的降低。在傳統(tǒng)的調(diào)度概念中，一個進(jìn)程有一個和其靜態(tài)優(yōu)先級相匹配的時間片，在RSDL中，同樣也存在這樣的時間片，但是時間片是散布在很多優(yōu)先級中。例如如果一個進(jìn)程的優(yōu)先級是120，那么整個時間片散布在120～139的優(yōu)先級中，在一個調(diào)度周期，進(jìn)程開始是掛入120的優(yōu)先級隊列，并在其上運行6ms（這是一個可調(diào)參數(shù)，我們假設(shè)每個優(yōu)先級的時間配額是6ms），一旦在120級別的時間配額使用完畢之后，該進(jìn)程會轉(zhuǎn)入121的隊列中（優(yōu)先級降低一個level），發(fā)生一次Rotating，更準(zhǔn)確的說是Priority minor rotating。之后，該進(jìn)程沿階而下，直到139的優(yōu)先級，在這個優(yōu)先級上如果耗盡了6ms的時間片，這時候，該進(jìn)程所有的時間片就都耗盡了，就會被掛入到expired隊列中去等待下一個調(diào)度周期。這次rotating被稱為major rotating。當(dāng)然，這時候該進(jìn)程會掛入其靜態(tài)優(yōu)先級對應(yīng)的expired隊列，即一切又回到了調(diào)度的起點。

Deadline是指在RSDL算法中，任何一個進(jìn)程可以準(zhǔn)確的預(yù)估其調(diào)度延遲。一個簡單的例子，假設(shè)runqueue中有兩個task，靜態(tài)優(yōu)先級分別是130的A進(jìn)程和139的B進(jìn)程。對于A進(jìn)程，只有在進(jìn)程沿著優(yōu)先級樓梯從130走到139的時候，B進(jìn)程才有機會執(zhí)行，其調(diào)度延遲是9 x 6ms ＝ 54ms。

多么簡潔的算法，只需要維持公平，沒有對進(jìn)程睡眠/運行時間的統(tǒng)計，沒有對用戶交互指數(shù)的計算，沒有那些奇奇怪怪的常數(shù)……調(diào)度，就是這么簡單。

六、CFS調(diào)度器

Con Kolivas的RSDL調(diào)度器始終沒有能夠進(jìn)入kernel mainline，取而代之的是同樣基于公平調(diào)度思想的CFS調(diào)度器，在CFS調(diào)度器并入主線的同時，仍然提供了模塊化的設(shè)計，為RSDL或者其他的調(diào)度器可以進(jìn)入內(nèi)核提供了方便。然而Con Kolivas帶著對內(nèi)核開發(fā)模式的不滿永遠(yuǎn)的退出了社區(qū)，正所謂有人的地方就有江湖，其中的是非留給后人評說吧。

CFS的設(shè)計理念就是一句話：在真實的硬件上實現(xiàn)理想的、精準(zhǔn)、完全公平的多任務(wù)調(diào)度。當(dāng)然，這樣的調(diào)度器不存在，在實際設(shè)計和實現(xiàn)的時候還是需要做一些折衷。其實CFS調(diào)度器的所有的設(shè)計思想在上一章都已經(jīng)非常明晰，本章我們唯一需要描述的是Ingo Molnar如何把完全公平調(diào)度的理想照進(jìn)現(xiàn)實。

1、模塊化思想的引入

從2.6.23內(nèi)核開始，調(diào)度器采用了模塊化設(shè)計的思想，從而把進(jìn)程調(diào)度的軟件分成了兩個層次，一個是core scheduler layer，另外一個是specific scheduler layer：

從功能層面上看，進(jìn)程調(diào)度仍然分成兩個部分，第一個部分是通過負(fù)載均衡模塊將各個runnable task根據(jù)負(fù)載情況平均分配到各個CPU runqueue上去。第二部分的功能是在各個CPU的Main scheduler和Tick scheduler的驅(qū)動下進(jìn)行單個CPU上的調(diào)度。調(diào)度器處理的task各不相同，有RT task，有normal task，有Deal line task，但是無論哪一種task，它們都有共同的邏輯，這部分被抽象成Core scheduler layer，同時各種特定類型的調(diào)度器定義自己的sched_class，并以鏈表的形式加入到系統(tǒng)中。這樣的模塊化設(shè)計可以方便用戶根據(jù)自己的場景定義specific scheduler，而不需要改動Core scheduler layer的邏輯。

2、關(guān)于公平

和RSDL調(diào)度器一樣，CFS調(diào)度器追求的公平是CPU資源分配的公平，即CPU的運算資源被精準(zhǔn)的平均分配給在其上運行的task。例如：如果有2個靜態(tài)優(yōu)先級一樣的task運行在某一個CPU上，那么每一個task都消耗50％的CPU計算資源。如果靜態(tài)優(yōu)先級不一樣，那么，CPU資源是根據(jù)其靜態(tài)優(yōu)先級來具體分配。具體如何根據(jù)優(yōu)先級來分配CPU資源呢？這里就需要引入一個load weight的概念。

在CFS中，我們是通過一個常量數(shù)組（sched_prio_to_weight）可以把進(jìn)程靜態(tài)優(yōu)先級映射成進(jìn)程權(quán)重，而所謂的權(quán)重就是進(jìn)程應(yīng)該占有cpu資源的比重。例如：系統(tǒng)中有3個runnable thread A、B和C，權(quán)重分別是a、b、c，那么A thread應(yīng)該分配到的CPU資源是a/(a+b+c)。因此CFS調(diào)度器的公平就是保證所有的可運行狀態(tài)的進(jìn)程按照權(quán)重分配其CPU資源。

3、時間粒度

CPU資源分配是一個抽象的概念，最終在實現(xiàn)調(diào)度器的時候，我們需要把它具體化。一個最簡單的方法就是把CPU資源的分配變成CPU時間片的分配?？吹健皶r間片”這個術(shù)語，你可能本能的覺得CFS和O（1）也沒有什么不同，不都是分配時間片嗎？其實不然，Linux內(nèi)核的CFS調(diào)度器已經(jīng)摒棄了傳統(tǒng)的固定時間片的概念了。O（1）調(diào)度器會為每一個進(jìn)程分配一個缺省的時間片，當(dāng)進(jìn)程使用完自己的時間片之后就會被掛入expire隊列，當(dāng)系統(tǒng)中的所有進(jìn)程都耗光了自己的時間片，那么一切從來，所有的進(jìn)程又恢復(fù)了自己的時間片，進(jìn)入active隊列。CFS調(diào)度器沒有傳統(tǒng)的靜態(tài)時間片的概念，她的時間片是動態(tài)的，和當(dāng)前CPU的可運行狀態(tài)的進(jìn)程以及它們的優(yōu)先級相關(guān)，因此CFS調(diào)度器中，時間片是動態(tài)變化的。

對于理想的完全公平調(diào)度算法，無論觀察的時間段多么短，CPU的時間片都是公平分配的。以100ms的粒度來觀察，那么兩個可運行狀態(tài)的進(jìn)程A和B（靜態(tài)優(yōu)先級一樣）各分50ms。當(dāng)然，也不是一定是A執(zhí)行50ms，切換到B，然后再執(zhí)行50ms，在觀察過程中，A和B可能切換了很多次，但是A進(jìn)程總共占用CPU的時間和就是50ms，B進(jìn)程亦然。如果用1ms的粒度來觀察呢？是否A和B個運行500us？如果繼續(xù)縮減觀察時間，在一個微秒的時間段觀察呢？顯然，不太可能每個進(jìn)程運行500ns，如果那樣的話，CPU的時間大量的消耗在了進(jìn)程切換上，真正做事情的CPU時間變得越來越少了。因此，CFS調(diào)度器是有一個時間粒度的定義，我們稱之調(diào)度周期。也就是說，在一個調(diào)度周期內(nèi)，CFS調(diào)度器可以保證所有的可運行狀態(tài)的進(jìn)程平均分配CPU時間。下一小節(jié)我們會詳細(xì)描述調(diào)度周期的概念。

4、如何保證有界的調(diào)度延遲？

傳統(tǒng)的調(diào)度器無法保證調(diào)度延遲，為了說明這個問題我們設(shè)想這樣一個場景：CPU runqueue中有兩個nice value等于0的runnable進(jìn)程A和B，傳統(tǒng)調(diào)度器會為每一個進(jìn)程分配一個固定的時間片100ms，這時候A先運行，直到100ms的時間片耗盡，然后B運行。這兩個進(jìn)程會交替運行，調(diào)度延遲就是100ms。隨著系統(tǒng)負(fù)荷的加重，例如又有兩個兩個nice value等于0的runnable進(jìn)程C和D掛入runqueue，這時候，A、B、C、D交替運行，調(diào)度延遲就是300ms。因此，傳統(tǒng)調(diào)度器的調(diào)度延遲是和系統(tǒng)負(fù)載相關(guān)的，當(dāng)系統(tǒng)負(fù)載增加的時候，用戶更容易觀察到卡頓現(xiàn)象。

CFS調(diào)度器設(shè)計之初就確定了調(diào)度延遲的參數(shù)，我們稱之targeted latency，這個概念類似傳統(tǒng)調(diào)度器中的調(diào)度周期的概念，只不過在過去，一個調(diào)度周期中的時間片被固定分配給了runnable的進(jìn)程，而在CFS中，調(diào)度器會不斷的檢查在一個targeted latency中，公平性是否得到了保證。下面的代碼說明了targeted latency的計算過程：

static u64 __sched_period(unsigned long nr_running)
{
if (unlikely(nr_running > sched_nr_latency))
return nr_running * sysctl_sched_min_granularity;
else
return sysctl_sched_latency;
}

當(dāng)runqueue中的runnable進(jìn)程的數(shù)目小于sched_nr_latency（8個）的時候，targeted latency就是sysctl_sched_latency（6ms），當(dāng)runqueue中的runnable進(jìn)程的數(shù)目大于等于sched_nr_latency的時候，targeted latency等于runnable進(jìn)程數(shù)目乘以sysctl_sched_min_granularity（0.75ms）。顯然sysctl_sched_min_granularity這個參數(shù)就是一段一個進(jìn)程被調(diào)度執(zhí)行，它需要至少執(zhí)行的時間片大小，設(shè)立這個參數(shù)是為了防止overscheduling而產(chǎn)生的性能下降。

CFS調(diào)度器保證了在一個targeted latency中，所有的runnable進(jìn)程都會至少執(zhí)行一次，從而保證了有界的、可預(yù)測的調(diào)度延遲。

5、為何引入虛擬時間？

雖然Con Kolivas提出了精采絕倫的設(shè)計思想，但是在具體實現(xiàn)的時候相對保守。CFS調(diào)度器則不然，它采用了相對激進(jìn)的方法，把runqueue中管理task的優(yōu)先級鏈表變成了紅黑樹結(jié)構(gòu)。有了這樣一顆runnable進(jìn)程的紅黑樹，在插入操作的時候如何確定進(jìn)程在紅黑樹中的位置？也就是說這棵樹的“key”是什么？

CFS的紅黑樹使用vruntime（virtual runtime）作為key，為了理解vruntime，這里需要引入一個虛擬時間軸的概念。在上一章中，我們已經(jīng)清楚的表述了公平的含義：按照進(jìn)程的靜態(tài)優(yōu)先級來分配CPU資源，當(dāng)然，CPU資源也就是CPU的時間片，因此在物理世界中，公平就是分配和靜態(tài)優(yōu)先級匹配的CPU時間片。但是紅黑樹需要一個單一數(shù)軸上的量進(jìn)行比對，而這里有兩個度量因素：靜態(tài)優(yōu)先級和物理時間片，因此我們需要把它們映射到一個虛擬的時間軸上，屏蔽掉靜態(tài)優(yōu)先級的影響，具體的計算公式如下：

Virtual runtime ＝（physical runtime） X （nice value 0的權(quán)重）/進(jìn)程的權(quán)重

通過上面的公式，我們構(gòu)造了一個虛擬的世界。二維的（load weight，physical runtime）物理世界變成了一維的virtual runtime的虛擬世界。在這個虛擬的世界中，各個進(jìn)程的vruntime可以比較大小，以便確定其在紅黑樹中的位置，而CFS調(diào)度器的公平也就是維護(hù)虛擬世界vruntime的公平，即各個進(jìn)程的vruntime是相等的。

根據(jù)上面的公式，我們可以看出：實際上對于靜態(tài)優(yōu)先級是120（即nice value等于0）的進(jìn)程，其物理時間軸等于虛擬時間軸，而其他的靜態(tài)優(yōu)先級的虛擬時間都是根據(jù)其權(quán)重和nice 0的權(quán)重進(jìn)行尺度縮放。對于更高優(yōu)先級的進(jìn)程，其虛擬時間軸過的比較慢，而對于優(yōu)先級比較低的進(jìn)程，其虛擬時間軸過的比較快。

我們可以舉一個簡單的例子來描述虛擬世界的公平性：例如在時間點a到b之間（虛擬時間軸），如果有兩個可運行狀態(tài)的進(jìn)程A和B，那么從a到b這個時間段上去觀察，CPU的時間是平均分配到每個一個進(jìn)程上，也就是說A和B進(jìn)程各自運行了（b-a）/2的時間，也就是各占50％的時間片。在b時間點，一個新的可運行狀態(tài)的進(jìn)程C產(chǎn)生了，直到c時間點。那么從b到c這個時間段上去觀察，進(jìn)程A、B和進(jìn)程C都是執(zhí)行了（c-b）/3的時間，也就是各占1/3的CPU資源。再強調(diào)一次，上面說的時間都是虛擬時間。

6、如何計算virtual runtime

想要計算時間我們必須有類似手表這樣的計時工具，對于CFS調(diào)度器，這個“手表”保存在runqueue中（clock和clock_task成員）。Runqueue戴兩塊表，一塊記錄實際的物理時間，另外一塊則是記錄執(zhí)行task的時間（clock_task）。之所以有clock_task是為了更準(zhǔn)確的記錄進(jìn)程執(zhí)行時間。實際上一個task執(zhí)行過程中不免會遇到一些異步事件，例如中斷。這時候，進(jìn)程的執(zhí)行被打斷從而轉(zhuǎn)入到對異步事件的處理過程。如果把這些時間也算入該進(jìn)程的執(zhí)行時間會有失偏頗，因此clock_task會把這些異步事件的處理時間去掉，只有在真正執(zhí)行任務(wù)的時候，clock_task的counter才會不斷累加計時。

有了clock進(jìn)程計時變得比較簡單了，當(dāng)進(jìn)程進(jìn)入執(zhí)行狀態(tài)的時候，看一下clock_task這塊“手表”，記錄數(shù)值為A。在需要統(tǒng)計運行時間的時候，再次看一下clock_task這塊“手表”，記錄數(shù)值為B。B-A就是該進(jìn)程已經(jīng)運行的物理時間。當(dāng)然，CFS關(guān)心的是虛擬時間，這時候還需要通過calc_delta_fair函數(shù)將這個物理時間轉(zhuǎn)換成虛擬時間，然后累積的該進(jìn)程的virtual runtime中（sched_entity中的vruntime），而這個vruntime就是紅黑樹的key。

7、CFS調(diào)度器的運作

對于CFS調(diào)度器，沒有固定分配時間片的概念，只有一個固定權(quán)重的概念，是根據(jù)進(jìn)程靜態(tài)優(yōu)先級計算出來的。CFS調(diào)度器一旦選擇了一個進(jìn)程進(jìn)入執(zhí)行狀態(tài)，會立刻開啟對其virtual runtime的跟蹤過程，并且在tick到來時會更新這個virtual runtime。有了這個virtual runtime信息，調(diào)度器就可以不斷的檢查目前系統(tǒng)的公平性（而不是檢查是否時間片用完），具體的方法是：根據(jù)當(dāng)前系統(tǒng)的情況計算targeted latency（調(diào)度周期），在這個調(diào)度周期中計算當(dāng)前進(jìn)程應(yīng)該獲得的時間片（物理時間），然后計算當(dāng)前進(jìn)程已經(jīng)累積執(zhí)行的物理時間，如果大于當(dāng)前應(yīng)該獲得的時間片，那么更新本進(jìn)程的vruntime并標(biāo)記need resched flag，并在最近的一個調(diào)度點發(fā)起調(diào)度。

在進(jìn)行進(jìn)程調(diào)度時候，調(diào)度器需要選擇下一個占用CPU資源的那個next thread。對于CFS而言，其算法就是從紅黑樹中找到left most的那個task并調(diào)度其運行。這時候，失去CPU執(zhí)行權(quán)的那個task會被重新插入紅黑樹，其在紅黑樹中的位置是由task的vruntime值決定的。

閱讀全文

cpu(206161) cpu(206161)
Linux(206513) Linux(206513)
調(diào)度器(5148) 調(diào)度器(5148)

一文了解Linux調(diào)度器開放給用戶空間的接口

相）。通過外部接口的定義，其實我們也可以收獲百分之六七十的該模塊的內(nèi)部信息。因此，本文主要描述Linux調(diào)度器開放給用戶空間的接口，希望可以通過用戶空間的調(diào)度器接口來理解Linux調(diào)度器的行為。二、nice函數(shù) nice函數(shù)用來修改調(diào)用進(jìn)程的nice

2020-09-18 15:53:15

797

Linux內(nèi)核進(jìn)程管理與調(diào)度：策略優(yōu)化與實踐分析

今天給大家上點硬貨，關(guān)于Linux的進(jìn)程管理和調(diào)度是學(xué)習(xí)和理解Linux的必學(xué)知識。為協(xié)調(diào)多個進(jìn)程 "同時" 運行，現(xiàn)代操作系統(tǒng)通常使用進(jìn)程優(yōu)先級這一基本手段。每個進(jìn)程都有

2023-05-08 09:42:11

542

Linux

”模型。這樣既可以滿足多處理器系統(tǒng)的需要，也可以最大限度地減少調(diào)度開銷。使用線程機制大大加快了上下文切換速度，而且節(jié)省了很多資源。但是因為在用戶態(tài)和內(nèi)核態(tài)均要實現(xiàn)調(diào)度管理，所以會增加實現(xiàn)的復(fù)雜度

2013-08-01 10:09:06

Linux 實時技術(shù)與典型實現(xiàn)分析（一）

任務(wù)將永遠(yuǎn)無法運行，搶占延遲將是無窮大。因此，如果這種機制不改，實時Linux將永遠(yuǎn)無法實現(xiàn)。6．調(diào)度算法和調(diào)度點在Linux 2.4和以前的版本，調(diào)度器的時間復(fù)雜度是O(n)的，而且在SMP

2008-10-06 13:42:20

Linux2.4與Linux2.6內(nèi)核調(diào)度器的比較研究

Linux2.6的調(diào)度機制新的調(diào)度器都實現(xiàn)了這些目標(biāo)，具體方法是?；诿總€CPU來分布時間片，并且取消了全局同步和重算循環(huán)。每個進(jìn)程有兩個數(shù)組，活動就緒進(jìn)程隊列數(shù)組和不活躍就緒進(jìn)程隊列數(shù)組。每個

2008-06-17 12:04:46

Linux2.4和Linux2.6的調(diào)度器對比分析，Linux2.6對調(diào)度器的改進(jìn)有哪些方面？

Linux2.4和Linux2.6的調(diào)度器對比分析，Linux2.6對調(diào)度器的改進(jìn)有哪些方面？Linux2.4調(diào)度器性能低下的原因是什么

2021-04-27 06:42:00

Linux中TCP的通信過程以及實現(xiàn)方法

【嵌入式】Web1.操作內(nèi)容2.操作步驟1.操作內(nèi)容理解Linux中TCP的通信過程以及實現(xiàn)方法。掌握Linux下socket()函數(shù)在TCP通信中的使用。在Linux系統(tǒng)中設(shè)置NFS服務(wù)，在開發(fā)板

2021-12-16 08:01:00

Linux基礎(chǔ)

一：嵌入式c語言：Linux基礎(chǔ)　　Linux操作系統(tǒng)的概念、安裝方法，詳細(xì)了解Linux下的目錄結(jié)構(gòu)、基本命令、編輯器VI ,編譯器GCC，調(diào)試器GDB和 Make 項目管理工具, Shell

2017-08-03 09:46:54

Linux的進(jìn)程、線程以及調(diào)度

報名：《Linux的進(jìn)程、線程以及調(diào)度》4節(jié)系列微課(522-25)

2020-05-15 14:44:24

Linux系統(tǒng)調(diào)度是實現(xiàn)特性的關(guān)鍵部分

1、綜述　　Linux作為多任務(wù)、多用戶的操作系統(tǒng)，其進(jìn)程/線程調(diào)度管理是實現(xiàn)這些特性的關(guān)鍵部分。調(diào)度管理決定系統(tǒng)中的眾多線程中哪個線程獲得執(zhí)行、什么時候開始執(zhí)行、執(zhí)行多久。一個好的調(diào)度算法能優(yōu)化

2019-07-05 07:05:08

Linux系統(tǒng)調(diào)度簡介

2017-01-18 14:12:37

調(diào)度器的原理及其任務(wù)調(diào)度代碼實現(xiàn)

、超級循環(huán)2、時間片與時標(biāo)3、調(diào)度算法介紹1）時間片輪轉(zhuǎn)調(diào)度2）強制試調(diào)度4、注意事項所有任務(wù)的執(zhí)行時間不能超過時標(biāo)的時間三、任務(wù)調(diào)度代碼實現(xiàn)這里拿linux來測試schduler.c//~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~//頭文件

2022-02-17 07:07:16

調(diào)度器運行的過程是怎樣的？它的應(yīng)用有哪些？

調(diào)度器是由哪幾部分組成的？調(diào)度器運行的過程是怎樣的？調(diào)度器的應(yīng)用有哪些？

2021-04-27 07:12:35

ATK-Mini Linux開發(fā)板-EMMC

ATK-Mini Linux開發(fā)板-EMMC

2023-03-28 13:05:54

ATK-Mini Linux開發(fā)板-NAND

ATK-Mini Linux開發(fā)板-NAND

2023-03-28 13:05:54

C語言或Matlab如何實現(xiàn)FF鏈路調(diào)度器仿真？

C語言或Matlab如何實現(xiàn)FF鏈路調(diào)度器仿真

2023-10-18 06:12:23

LoRa供水調(diào)度遠(yuǎn)程無線聯(lián)網(wǎng)監(jiān)測

找到GIS地圖中出故障的地點。調(diào)度室計算機利用軟件讀取傳感器參數(shù)，在調(diào)度室監(jiān)控計算機可通過畫面和曲線實現(xiàn)對現(xiàn)場的監(jiān)測。供水調(diào)度人員可以根據(jù)采集的數(shù)據(jù)進(jìn)行水廠的生產(chǎn)調(diào)度和指揮，還可打印各種報表。較大

2018-11-21 15:09:50

Mini Linux

Mini Linux EMMC

2023-03-28 13:06:25

RT-Thread的內(nèi)核調(diào)度算法實現(xiàn)

位的查表法軟件實現(xiàn)，是整個位圖調(diào)度算法的核心。ARM公司提供專門的指令獲取寄存器最低位，只要幾條匯編語句就可以完成同樣的功能，而且性能更好。rt-thread作為一款成熟商用的RTOS內(nèi)核，也支持

2022-04-20 11:54:59

RT-Thread系統(tǒng)線程調(diào)度器的設(shè)計實現(xiàn)

優(yōu)先級的系統(tǒng)配置)。在系統(tǒng)中，當(dāng)有比當(dāng)前線程優(yōu)先級更高的線程就緒時，當(dāng)前線程將立刻被換出，高優(yōu)先級線程搶占處理器運行。如圖線程就緒優(yōu)先級隊列所示，在RT-Thread調(diào)度器的實現(xiàn)中,包含了一個共256

2022-08-23 15:24:19

STM32操作系統(tǒng)內(nèi)核調(diào)度原理是什么？如何實現(xiàn)？

STM32操作系統(tǒng)內(nèi)核調(diào)度原理是什么？如何實現(xiàn)？

2021-11-29 06:30:00

UCOSIII延時函數(shù)會引發(fā)幾次調(diào)度？

原子哥，你好，問下，使用OSTimeDlyHMSM（）或者OSTimeDly()延時函數(shù)，會引發(fā)幾次調(diào)度？我的理解是兩次，一次是剛進(jìn)入延時函數(shù)時，另一次是當(dāng)延時函數(shù)結(jié)束時，不知這樣理解是否正確？

2020-04-21 04:35:55

[分享資料]Linux Kernel Development Third Edition （Linux內(nèi)核設(shè)計與實現(xiàn)）

、進(jìn)程調(diào)度、時間管理和定時器、系統(tǒng)調(diào)用接口、內(nèi)存尋址、內(nèi)存管理和頁緩存、VFS、內(nèi)核同步以及調(diào)試技術(shù)等。同時《Linux內(nèi)核設(shè)計與實現(xiàn)(原書第3版)》也涵蓋了Linux 2.6內(nèi)核中頗具特色的內(nèi)容，包括

2015-09-12 00:17:20

tms320跑linux操作系統(tǒng)時如何實現(xiàn)多核通訊

硬件環(huán)境：tms320c6678EVM 軟件環(huán)境：CCS5.5.0 tms320跑linux操作系統(tǒng)時如何實現(xiàn)多核通訊，從論壇一些帖子知道它不支持SMP，我的理解是不能由操作系統(tǒng)自動分配調(diào)度多個核完成一個復(fù)雜任務(wù)。那么如何實現(xiàn)多核通訊呢？OMP等等可以嗎？

2018-06-21 06:55:36

【安富萊】【RTX操作系統(tǒng)教程】第10章任務(wù)調(diào)度-搶占式，時間片和合作式

第10章任務(wù)調(diào)度-搶占式，時間片和合作式本章教程為大家將介紹RTX操作系統(tǒng)支持的任務(wù)調(diào)度方式，搶占式，時間片和合作式，這部分算是RTX操作系統(tǒng)的核心了。對于初學(xué)者來說，要一下子就能夠理解這些比較

2016-01-25 13:57:02

任務(wù)調(diào)度、內(nèi)存分配和網(wǎng)絡(luò)協(xié)議棧的基礎(chǔ)原理和代碼實現(xiàn)

進(jìn)互聯(lián)網(wǎng)公司操作系統(tǒng)和網(wǎng)絡(luò)庫是基礎(chǔ)技能，面試過不去的看，這里基于嵌入式操作系統(tǒng)分幾章來總結(jié)一下任務(wù)調(diào)度、內(nèi)存分配和網(wǎng)絡(luò)協(xié)議棧的基礎(chǔ)原理和代碼實現(xiàn)。處理器上電時會產(chǎn)生一個復(fù)位中斷，接下來會...

2021-12-22 06:45:30

內(nèi)核態(tài)是如何對task進(jìn)行調(diào)度的呢

調(diào)度器在runqueue里的算法是如何去實現(xiàn)的？內(nèi)核態(tài)是如何對task進(jìn)行調(diào)度的呢？

2021-12-24 07:59:16

如何理解ucosIII中斷調(diào)度void OSIntExit(void)的概念？

小弟最近在看ucosIII,對其中的中斷調(diào)度不是很理解,下面是小弟的理解,懇請大神指教~我在OSInitExit()函數(shù)中發(fā)現(xiàn)如下語句:[C] 純文本查看復(fù)制代碼OSPrioHighRdy

2019-11-07 04:35:41

如何使用Tracealyzer理解多任務(wù)調(diào)度？

調(diào)試器視圖的補充。我們今天來了解一下如何通過Tracealyzer記錄的數(shù)據(jù)獲取任務(wù)優(yōu)先級及執(zhí)行時間相關(guān)的信息。優(yōu)先級決定何時調(diào)度大多數(shù)RTOS使用固定優(yōu)先級調(diào)度策略，開發(fā)人員為每個任務(wù)分配一個靜態(tài)

2021-12-17 16:01:39

嵌入式Linux操作系統(tǒng)調(diào)度算法的相關(guān)資料分享

嵌入式Linux操作系統(tǒng)調(diào)度算法研究嵌入式操作系統(tǒng)在互聯(lián)網(wǎng)時代的今天得到廣泛應(yīng)用。Linux系統(tǒng)本身并不是嚴(yán)格的實時操作系統(tǒng)。為了提高它對實時任務(wù)的處理能力,國內(nèi)外對Linux進(jìn)行了不斷的實時性能

2021-11-05 08:15:04

嵌入式工程師必會的 Linux 進(jìn)程調(diào)度所有知識點

算法 [td]字段版本O(n) 調(diào)度器linux0.11 - 2.4O(1) 調(diào)度器linux2.6CFS調(diào)度器linux2.6至今 O(n)O(n) 調(diào)度器是在內(nèi)核2.4以及更早期版本采用的算法，O

2021-08-01 07:00:00

干貨分享：基于嵌入式Linux中進(jìn)程調(diào)度實現(xiàn)方法

調(diào)度策略，實現(xiàn)了高效、靈活的進(jìn)程調(diào)度。 2.Linux 進(jìn)程調(diào)度分析2.1　Linux 進(jìn)程狀態(tài)的描述Linux 將進(jìn)程狀態(tài)描述為如下五種： TASK_RUNNING：可運行狀態(tài)。處于該狀態(tài)的進(jìn)程可以

2019-12-10 14:17:58

怎樣利用時間片輪轉(zhuǎn)調(diào)度算法去實現(xiàn)同步時間調(diào)度的程序呢

怎樣利用時間片輪轉(zhuǎn)調(diào)度算法去實現(xiàn)同步時間調(diào)度的程序呢？

2021-12-20 06:16:11

怎樣去寫一個可以用在STM32F4上的線程調(diào)度器呢

為什么要寫這個線程調(diào)度器呢？這個線程調(diào)度器實現(xiàn)的功能有哪些？怎樣去寫一個可以用在STM32F4上的線程調(diào)度器呢？

2021-11-26 06:09:15

怎樣設(shè)計電子控制系統(tǒng)混合調(diào)度器？

本文應(yīng)用時間觸發(fā)模式設(shè)計了液壓式制動能量再生系統(tǒng)的電子控制系統(tǒng)混合調(diào)度器，實現(xiàn)了HBRS的基本功能。

2021-05-13 07:07:06

操作系統(tǒng)是怎樣通過一個調(diào)度程序來實現(xiàn)調(diào)度功能的

操作系統(tǒng)是怎樣通過一個調(diào)度程序來實現(xiàn)調(diào)度功能的？任務(wù)調(diào)度的時機有哪幾種情況？

2021-12-23 07:56:38

深入理解和實現(xiàn)RTOS_連載

，其中的每個任務(wù)都專注自己處理的問題，而這些任務(wù)間則需要處理一下彼此的溝通問題......深入理解和實現(xiàn)RTOS_連載3_多任務(wù)機制設(shè)計前面我們已經(jīng)介紹過了在單核處理器上的多任務(wù)機制的基本知識。如果讀者

2014-05-30 01:02:26

深入理解和實現(xiàn)RTOS_連載

，那里有更詳細(xì)的注釋，而且是全中文的。深入理解和實現(xiàn)RTOS_連載5_多任務(wù)機制應(yīng)用演示本節(jié)我們通過在評估板上的實例來演示有關(guān)線程調(diào)度和管理的API。因為每個例子中都包括了線程的創(chuàng)建，所以這里就不單獨再介紹如何創(chuàng)建線程。示例程序盡量設(shè)計的簡單，主要依靠評估板上的LED 燈來演示代碼的執(zhí)行路徑。

2014-05-29 11:20:54

第10章任務(wù)調(diào)度-搶占式，時間片和合作式

基本概念搞清楚，然后閱讀下源碼，深入理解實現(xiàn)方法。本章教程配套的例子含Cortex-M3內(nèi)核的STM32F103和Cortex-M4內(nèi)核的STM32F407。10.1 RTX支持的調(diào)度方式10.2

2016-10-04 18:11:12

精選Linux入門教材之設(shè)備驅(qū)動程序+內(nèi)核設(shè)計與實現(xiàn)

運行起來的背景知識的指導(dǎo)。在你學(xué)習(xí)編寫驅(qū)動時，你通常會發(fā)現(xiàn)大量有關(guān) Linux 內(nèi)核的東西。這也許會幫助你理解你的機器是如何工作的，以及為什么事情不是如你所愿的快，或者不是如你所要的進(jìn)行

2018-10-16 15:29:15

線程調(diào)度器啟動前執(zhí)行的流程是怎樣的？

線程調(diào)度器啟動前執(zhí)行的流程是怎樣的？線程調(diào)度器初始化和啟動得步驟是怎樣的？

2021-12-13 06:42:35

編譯器優(yōu)化的靜態(tài)調(diào)度介紹

　　指令調(diào)度簡介　　指令調(diào)度是指對程序塊或過程中的操作進(jìn)行排序以有效利用處理器資源的任務(wù)。指令調(diào)度的目的就是通過重排指令，提高指令級并行性，使得程序在擁有指令流水線的CPU上更高效的運行。指令調(diào)度

2023-03-17 17:07:47

裸奔單片機的靈魂“類OS調(diào)度器”

本帖最后由 binlan125 于 2013-9-14 08:00 編輯特性：本調(diào)度器是集時間觸發(fā)、支持消息、支持非搶占優(yōu)先級調(diào)度，借鑒了protothread思想，而使得其實現(xiàn)

2013-09-14 07:51:10

詳解Linux內(nèi)核搶占實現(xiàn)機制

本文詳解了Linux內(nèi)核搶占實現(xiàn)機制。首先介紹了內(nèi)核搶占和用戶搶占的概念和區(qū)別，接著分析了不可搶占內(nèi)核的特點及實時系統(tǒng)中實現(xiàn)內(nèi)核搶占的必要性。然后分析了禁止內(nèi)核搶占的情況和內(nèi)核搶占的時機，最后介紹了實現(xiàn)搶占內(nèi)核所做的改動以及何時需要重新調(diào)度。

2019-08-06 06:16:22

請問FreeRTOS是如何實現(xiàn)調(diào)度的？

最近入門RTOS，首先看書了解了合作式調(diào)度器的應(yīng)用，其基本思想是在主循環(huán)中不斷執(zhí)行調(diào)度函數(shù)，在SysTick中斷中更新任務(wù)狀態(tài)，程序我也大致看懂了。之后到了入門FreeRTOS遇到了困難，利用

2020-07-30 07:40:49

轉(zhuǎn)：第14章任務(wù)調(diào)度—搶占式，時間片和合作式

這些基本概念搞清楚，然后閱讀下源碼，深入理解實現(xiàn)方法。本章教程配套的例子含Cortex-M3內(nèi)核的STM32F103和Cortex-M4內(nèi)核的STM32F407以及F429。14.1 關(guān)于合作式調(diào)度器

2016-08-30 09:55:28

阿爾法Linux

阿爾法Linux ATK-IMX6F800E8GD512M-B 6~24V

2023-03-28 13:06:25

（轉(zhuǎn)）HarmonyOS(鴻蒙OS)發(fā)布，聊聊操作系統(tǒng)的調(diào)度

取決于代碼是怎么寫的，所以實時任務(wù)即便就緒，它被調(diào)度的時間也是不可預(yù)期的。 Linux內(nèi)核的調(diào)度機制并沒有規(guī)定開發(fā)者必須如何如何寫代碼，更沒有規(guī)定不可搶占的區(qū)間的最長執(zhí)行時間，所以Linux內(nèi)核調(diào)度器

2019-08-20 08:00:00

EPA通信調(diào)度測試方法與實現(xiàn)技術(shù)

介紹了EPA通信協(xié)議模型和EPA通信調(diào)度規(guī)程，根據(jù)通信調(diào)度的原理和要求，研究了EPA協(xié)議確定性調(diào)度的測試原理，提出了測試EPA確定性調(diào)度的方法和系統(tǒng)結(jié)構(gòu)，對調(diào)度偏差和調(diào)度順序

2009-03-16 17:42:23

Linux與VxWorks任務(wù)調(diào)度機制分析

Linux與VxWorks任務(wù)調(diào)度機制分析

2009-03-28 09:52:34

Linux的內(nèi)核教程

本章學(xué)習(xí)目標(biāo)掌握LINUX內(nèi)核版本的含義理解并掌握進(jìn)程的概念掌握管道的概念及實現(xiàn)了解內(nèi)核的數(shù)據(jù)結(jié)構(gòu)了解LINUX內(nèi)核的算法掌握LINUX內(nèi)核升級的方法

2009-04-10 16:59:19

linux處理機調(diào)度與死鎖

linux處理機調(diào)度與死鎖掌握處理機的三級調(diào)度 掌握作業(yè)調(diào)度及進(jìn)程調(diào)度的概念 理解調(diào)度算法的評價準(zhǔn)則掌握并靈活運用常用的幾種作業(yè)調(diào)度、

2009-04-28 14:59:49

Linux 2.6進(jìn)程調(diào)度

分析了與Linux 2.6 進(jìn)程調(diào)度密切相關(guān)的一些重要數(shù)據(jù)結(jié)構(gòu),詳細(xì)描述了進(jìn)程調(diào)度的時機、調(diào)度的策略和調(diào)度器的工作流程,并從算法分析和HackBench 測試兩個方面對Linux 2.4和2.6 進(jìn)程調(diào)

2009-06-13 10:13:09

RTLinux調(diào)度策略的研究

RTLinux 是Linux 的嵌入式實時內(nèi)核，本文首先分析了RTLinux 的工作原理和兩種典型的實時調(diào)度算法（RMS 和EDF），然后深入分析了RTLinux 下的動態(tài)調(diào)度器EDF 和它的實現(xiàn)方法，并通過編

2009-08-31 10:59:22

Li nux與VxWorks任務(wù)調(diào)度機制分析

分析了Linux和VxWorks兩種多任務(wù)操作系統(tǒng)任務(wù)調(diào)度機制的異同，從任務(wù)控制塊、調(diào)度的時機、調(diào)度的優(yōu)先級和調(diào)度的策略方面進(jìn)行了詳細(xì)的分析和對比。分析了VxWorks和Linux在POSIX1003．1b

2009-11-13 17:54:12

調(diào)度算法實現(xiàn)描述

調(diào)度算法實現(xiàn)描述先假設(shè)在一個時頻資源單元內(nèi)信道是平坦的，不同單元之間的衰落服從獨立的瑞利分布，不同用戶的單元間衰落是獨立

2009-03-01 16:51:47

781

Linux超線程感知的調(diào)度算法研究

Linux超線程感知的調(diào)度算法研究隨著計算機應(yīng)用的日益普及，用戶對計算機的處理能力的需求成指數(shù)級增長。為了滿足用戶的需求，處理器生產(chǎn)廠商采用了諸如超流水

2009-10-26 14:06:56

694

基于Linux的居民用電管理解決方案

本文提出了一種基于嵌入式Linux系統(tǒng)的居民用電管理解決方案,管理終端操作系統(tǒng)選用嵌入式Linux，同時搭配單片機實現(xiàn)與采集終端之間的無線通信

2011-05-13 11:02:25

598

深入理解Linux虛擬內(nèi)存管理_愛爾蘭/戈爾曼著

電子發(fā)燒友網(wǎng)站提供《深入理解Linux虛擬內(nèi)存管理_愛爾蘭/戈爾曼著.txt》資料免費下載

2015-02-09 15:19:27

深入理解LINUX內(nèi)核（中文版）_ 陳莉君/馮銳/牛欣源譯

電子發(fā)燒友網(wǎng)站提供《深入理解LINUX內(nèi)核（中文版）_ 陳莉君/馮銳/牛欣源譯.txt》資料免費下載

2015-02-11 11:16:33

一種多核混合分區(qū)調(diào)度算法設(shè)計與實現(xiàn)

一種多核混合分區(qū)調(diào)度算法設(shè)計與實現(xiàn)_郝繼鋒

2017-01-07 19:00:39

Linux進(jìn)程調(diào)度的原理解析

進(jìn)程調(diào)度依據(jù) 調(diào)度程序運行時，要在所有可運行狀態(tài)的進(jìn)程中選擇最值得運行的進(jìn)程投入運行。選擇進(jìn)程的依據(jù)是什么呢？在每個進(jìn)程的task_strUCt結(jié)構(gòu)中有以下四項：policy、priority

2017-11-02 11:01:23

uClinux進(jìn)程調(diào)度器的實現(xiàn)分析

了uClinux中進(jìn)程調(diào)度器的實現(xiàn)原理，展示了uClinux中獨具特色的進(jìn)程調(diào)度機制。關(guān)鍵詞：uClinux；調(diào)度策略；進(jìn)程調(diào)度器 0. 引言 uClinux是針對控制領(lǐng)域的嵌入式Linux操作系統(tǒng)，它從

2017-11-06 14:30:37

深入理解Linux內(nèi)核(第三版)中文版

深入理解Linux內(nèi)核(第三版)中文版

2017-11-28 11:54:15

Linux內(nèi)核的DL調(diào)度器的細(xì)節(jié)和怎么樣使用DL調(diào)度器？

Linux內(nèi)核的DL調(diào)度器是一個全局EDF調(diào)度器，它主要針對有deadline限制的sporadic任務(wù)。注意：這些術(shù)語已經(jīng)在本系列文章的第一部分中說明了，這里不再贅述。在這本文中，我們將一起

2018-07-16 10:54:46

5050

如何更改 Linux 的 I/O 調(diào)度器

Linux 的 I/O 調(diào)度器是一個以塊式 I/O 訪問存儲卷的進(jìn)程，有時也叫磁盤調(diào)度器。Linux I/O 調(diào)度器的工作機制是控制塊設(shè)備的請求隊列：確定隊列中哪些 I/O 的優(yōu)先級更高以及何時下發(fā) I/O 到塊設(shè)備，以此來減少磁盤尋道時間，從而提高系統(tǒng)的吞吐量。

2019-05-15 15:54:52

708

在linux系統(tǒng)中I/O 調(diào)度的選擇

I/O 調(diào)度算法再各個進(jìn)程競爭磁盤I/O的時候擔(dān)當(dāng)了裁判的角色。他要求請求的次序和時機做最優(yōu)化的處理，以求得盡可能最好的整體I/O性能。在linux下面列出4種調(diào)度算法CFQ

2019-04-02 14:33:24

348

Linux 組調(diào)度淺析

原文出處： ctthuangcheng???cgroup 與組調(diào)度linux內(nèi)核實現(xiàn)了control group功能（cgroup，since linux 2.6.24），可以支持

2019-04-02 14:40:01

285

Linux 進(jìn)程調(diào)度淺析

，各個進(jìn)程應(yīng)該是根據(jù)其優(yōu)先級公平地占有CPU。而不會出現(xiàn)“誰運氣好誰占得多”這樣的不可控的情況。linux實現(xiàn)公平調(diào)度基本上是兩種思路：1、給處于可執(zhí)行狀態(tài)的進(jìn)程分配時間片（按照優(yōu)先級），用完時間

2019-04-02 14:40:46

238

嵌入式Linux實時進(jìn)程調(diào)度算法改進(jìn)

。Linux進(jìn)程調(diào)度時機[1]：調(diào)度時機是指在什么情況下運行調(diào)度程序來選擇進(jìn)程運行。在Linux系統(tǒng)中調(diào)度程序是通過函數(shù)schedule（）來實現(xiàn)的，這個函數(shù)被調(diào)用的頻率很高，由它來決定要運行的進(jìn)程

2019-04-02 14:43:07

298

linux組調(diào)度淺析

cgroup與組調(diào)度linux內(nèi)核實現(xiàn)了control group功能（cgroup，since linux 2.6.24），可以支持將進(jìn)程分組，然后按組來劃分各種資源。比如

2019-04-02 14:45:09

293

linux進(jìn)程調(diào)度淺析

情況下，各個進(jìn)程應(yīng)該是根據(jù)其優(yōu)先級公平地占有CPU。而不會出現(xiàn)“誰運氣好誰占得多”這樣的不可控的情況。linux實現(xiàn)公平調(diào)度基本上是兩種思路：1、給處于可執(zhí)行狀態(tài)的進(jìn)程分配時間片（按照優(yōu)先級），用完

2019-04-02 14:45:10

251

更改 Linux I/O 調(diào)度器來改善服務(wù)器性能

為了從?Linux?服務(wù)器榨取盡可能多的性能，請了解如何更改 I/O 調(diào)度器以滿足你的需求。Linux I/O 調(diào)度器控制內(nèi)核提交讀寫請求給磁盤的方式。自從 2.6 內(nèi)核以來，管理員

2019-04-02 14:46:29

182

英創(chuàng)信息技術(shù)Linux系統(tǒng)調(diào)度簡介

1、綜述 Linux作為多任務(wù)、多用戶的操作系統(tǒng)，其進(jìn)程/線程調(diào)度管理是實現(xiàn)這些特性的關(guān)鍵部分。調(diào)度管理決定系統(tǒng)中的眾多線程中哪個線程獲得執(zhí)行、什么時候開始執(zhí)行、執(zhí)行多久。一個好的調(diào)度算法能優(yōu)化

2020-02-05 10:31:01

1001

米爾科技深入理解LINUX內(nèi)核簡介

為了透徹理解Linux的工作機理，以及為何它在各種系統(tǒng)上能順暢運行，你需要深入到內(nèi)核的心臟。

2019-11-25 09:34:06

1520

Linux進(jìn)程調(diào)度時機概念分析

Linux在眾多進(jìn)程中是怎么進(jìn)行調(diào)度的，這個牽涉到Linux進(jìn)程調(diào)度時機的概念，由Linux內(nèi)核中Schedule（）的函數(shù)來決定是否要進(jìn)行進(jìn)程的切換，如果要切換的話，切換到哪個進(jìn)程等等。

2020-01-23 17:14:00

2495

快速理解什么是Linux內(nèi)核以及Linux內(nèi)核的內(nèi)容

01 前言本文主要講解什么是Linux內(nèi)核，以及通過多張圖片展示Linux內(nèi)核的作用與功能，以便于讀者能快速理解什么是Linux內(nèi)核，能看懂Linux內(nèi)核。擁有超過1300萬行的代碼，Linux

2020-10-21 12:02:53

3873

Linux內(nèi)核進(jìn)程調(diào)度schedule深入理解的詳細(xì)資料說明

本文以 linux-2.4.10為例主要分析 Linux進(jìn)程調(diào)度模塊中的 schedule函數(shù)及其相關(guān)的函數(shù)。另外相關(guān)的前提知識也會說明。默認(rèn)系統(tǒng)平臺是自己的i386架構(gòu)的pc。

2021-02-26 16:17:03

操作系統(tǒng)的靈魂Linux調(diào)度系統(tǒng)講解

本文主要是講Linux的調(diào)度系統(tǒng)，由于全部內(nèi)容太多，分三部分來講，調(diào)度可以說是操作系統(tǒng)的靈魂，為了讓CPU資源利用最大化，Linux設(shè)計了一套非常精細(xì)的調(diào)度系統(tǒng)，對大多數(shù)場景都進(jìn)行了很多優(yōu)化，系統(tǒng)

2021-03-11 17:05:13

1493

如何理解Linux的工作原理

介紹了運行Linux系統(tǒng)的PC機的硬件組成結(jié)構(gòu)、編制內(nèi)核使用的匯編語言和C語言擴展部分，并且重點說明了80X86處理器在保護(hù)模式下運行的編程方法。接著我們詳細(xì)介紹了Linux內(nèi)核源代碼目錄樹組織結(jié)構(gòu)

2021-03-26 11:04:30

帶大家看看Linux內(nèi)核如何調(diào)度進(jìn)程的

部分，打開調(diào)度器的黑匣子，來看看Linux內(nèi)核如何調(diào)度進(jìn)程的。實際上，進(jìn)程調(diào)度器主要做兩件事：選擇下一個進(jìn)程，然后進(jìn)行上下文切換。而何時調(diào)用主調(diào)度器調(diào)度進(jìn)程那是調(diào)度時機所關(guān)注的問題，而調(diào)度時機在之前的內(nèi)核搶占文章已經(jīng)做了詳細(xì)講解，在此不在贅述，而本文關(guān)注的調(diào)度時機是真正調(diào)用主調(diào)度器的時機

2021-07-26 15:14:57

1760

linux嵌入式系統(tǒng)算法,嵌入式Linux操作系統(tǒng)調(diào)度算法研究

2021-11-02 10:36:06

c語言實現(xiàn)任務(wù)調(diào)度器

二、原理1、超級循環(huán)2、時間片與時標(biāo)3、調(diào)度算法介紹1）時間片輪轉(zhuǎn)調(diào)度2）強制試調(diào)度4、注意事項所有任務(wù)的執(zhí)行時間不能超過時標(biāo)的時間三、任務(wù)調(diào)度代碼實現(xiàn)這里拿linux來測試schduler.c//~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~// 頭文件

2021-12-22 18:51:45

一文深入理解操作系統(tǒng)的進(jìn)程調(diào)度

想深入理解操作系統(tǒng)的進(jìn)程調(diào)度，需要先獲得一些準(zhǔn)備知識，這樣后面就不懵圈啦：

2022-03-16 10:58:03

1952

如何實現(xiàn)JMobile軟件的調(diào)度器功能

JMobile軟件提供了一個調(diào)度器引擎，通過設(shè)定的時間計劃表自動執(zhí)行特定動作，從而賦予HMI/網(wǎng)關(guān)調(diào)度器功能，減少現(xiàn)場操作人員的工作壓力。本文主要介紹如何實現(xiàn)JMobile軟件的調(diào)度器功能。

2022-11-16 18:07:47

812

智能調(diào)度模式是什么智能調(diào)度的優(yōu)缺點

智能調(diào)度模式是一種通過先進(jìn)的信息技術(shù)和智能算法實現(xiàn)電力系統(tǒng)智能化調(diào)度的方式。智能調(diào)度模式可以是中央調(diào)度模式，區(qū)域調(diào)度模式，分布式調(diào)度模式等。　　1. 中央調(diào)度模式：　　中央調(diào)度模式

2023-04-11 15:35:15

2691

Quartz任務(wù)調(diào)度基本實現(xiàn)原理

Quartz是一個完全由Java編寫的開源作業(yè)調(diào)度框架，為在Java應(yīng)用程序中進(jìn)行作業(yè)調(diào)度提供了簡單卻強大的機制。Quartz允許開發(fā)人員根據(jù)時間間隔來調(diào)度作業(yè)。它實現(xiàn)了作業(yè)和觸發(fā)器的多對多的關(guān)系，還能把多個作業(yè)與不同的觸發(fā)器關(guān)聯(lián)。簡單地創(chuàng)建一個org.quarz.Job接口的Java類。

2023-04-12 10:48:26

671

什么是Linux進(jìn)程調(diào)度器

1、背景知識 1.1 什么是調(diào)度器通常來說，操作系統(tǒng)是應(yīng)用程序和可用資源之間的媒介。典型的資源有內(nèi)存和物理設(shè)備。但是CPU也可以認(rèn)為是一個資源，調(diào)度器可以臨時分配一個任務(wù)在上面執(zhí)行（單位是時間

2023-11-09 09:05:44

230

兆芯正引入Linux首選內(nèi)核調(diào)度技術(shù)，優(yōu)化性能

近期，兆芯工程團隊亦在致力于將首選內(nèi)核調(diào)度技術(shù)引進(jìn)Linux系統(tǒng)中。他們試圖通過提議的Linux內(nèi)核補丁，利用已有的ACPI功能來辨別每個核心的特性。這項補丁將在ACPI CPUFreq驅(qū)動程序中體現(xiàn)。這意味著調(diào)度程序能自動在首要核心上運行任務(wù)，使得整體性能更佳。

2023-12-29 14:30:23

180

已全部加載完成

搜索歷史

如何理解Linux調(diào)度器設(shè)計和實現(xiàn)

評論