chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺談vhost的數(shù)據(jù)路徑硬件化 DPDK中的vDPA實(shí)現(xiàn)方案

454398 ? 來源: Chinaunix ? 作者:lvyilong316 ? 2020-09-25 15:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

vDPA就是VHOST DATA PATH ACCELERATION,即將vhost的數(shù)據(jù)路徑硬件化,如下圖所示。

只把dataplane硬件化對于網(wǎng)卡廠商要相對容易實(shí)現(xiàn),否則如果要求dataplane和controlplane都需要硬件支持,這就要求硬件的dataringlayout需要和virtio一致,還需要controlplane的PCIbar和virtiospec一致,而硬件廠商通常有自己定制的pcibar。不過在智能網(wǎng)卡的裸金屬服務(wù)器場景,廠商也在做full emulation,即控制面也相對硬件化的方案,我們這只討論正常的dataplane硬件化。

對于kernel的vDPA方案如下圖所示。

這里面有幾個(gè)關(guān)鍵組件需要介紹一下。

vhost-mdev

在介紹vhost-mdev前需要先介紹virtio-mdev框架,說起virtio-mdev又不得不先講vfio-mdev。

vfio-mdev

先快速對vfio的概念進(jìn)行掃盲。這個(gè)掃盲的目的不是詳細(xì)介紹什么是VFIO,而是給對沒有vfio的讀者一個(gè)入門的指引。

vfio是Linux Kernel UIO特性的升級(jí)版本。UIO的作用是把一個(gè)設(shè)備的IO和中斷能力暴露給用戶態(tài),從而實(shí)現(xiàn)在用戶態(tài)對硬件的直接訪問。它的基本實(shí)現(xiàn)方法是,當(dāng)我們probe一個(gè)設(shè)備的時(shí)候,通過uio_register_device()注冊為一個(gè)字符設(shè)備/dev/uioN,用戶程序通過對這個(gè)設(shè)備mmap訪問它的IO空間,通過read/select等接口等待中斷。

UIO的缺點(diǎn)在于,用戶態(tài)的虛擬地址無法直接用于做設(shè)備的DMA地址(因?yàn)樵谟脩魬B(tài)無法知道DMA內(nèi)存的物理地址),這樣限制了UIO的使用范圍。我們有人通過UIO設(shè)備自己的ioctl來提供求物理地址的機(jī)制,從而實(shí)現(xiàn)DMA,但這種方案是有風(fēng)險(xiǎn)的。這里提到的UIO的缺點(diǎn),基本上拒絕了大流量IO設(shè)備使用該機(jī)制提供用戶空間訪問的能力了。

vfio通過IOMMU的能力來解決這個(gè)問題。IOMMU可以為設(shè)備直接翻譯虛擬地址,這樣我們在提供虛擬地址給設(shè)備前,把地址映射提供給vfio,vfio就可以為這個(gè)設(shè)備提供頁表映射,從而實(shí)現(xiàn)用戶程序的DMA操作。背負(fù)提供DMA操作這個(gè)使命,VFIO要解決一個(gè)更大的問題,就是要把設(shè)備隔離掉。在Linux的概念中,內(nèi)核是可信任的,用戶程序是不可信任的,如果我們允許用戶程序?qū)υO(shè)備做DMA,那么設(shè)備也是不可信任的,我們不能允許設(shè)備訪問程序的全部地址空間(這會(huì)包括內(nèi)核),所以,每個(gè)設(shè)備,針對每個(gè)應(yīng)用,必須有獨(dú)立的頁表。這個(gè)頁表,通過iommu_group承載(iommu_group.domain),和進(jìn)程的頁表相互獨(dú)立。進(jìn)程必須主動(dòng)做DMA映射,才能把對應(yīng)的地址映射寫進(jìn)去。

所以vfio的概念空間是container和group,前者代表設(shè)備iommu的格式,后者代表一個(gè)獨(dú)立的iommu_group(vfio中用vfio_group代表),我們先創(chuàng)建container,然后把物理的iommu_group綁定到container上,讓container解釋group,之后我們基于group訪問設(shè)備(IO,中斷,DMA等等)即可。

這個(gè)邏輯空間其實(shí)是有破綻的,iommu_group是基于設(shè)備來創(chuàng)建的,一個(gè)設(shè)備有一個(gè)iommu_group(或者如果這個(gè)設(shè)備和其他設(shè)備共享同一個(gè)IOMMU硬件,是幾個(gè)設(shè)備才有一個(gè)iommu_group),那如果我兩個(gè)進(jìn)程要一起使用同一個(gè)設(shè)備呢?基于現(xiàn)在的架構(gòu),你只能通過比如VF(Virtual Function,虛擬設(shè)備),在物理上先把一個(gè)設(shè)備拆成多個(gè),然后還是一個(gè)進(jìn)程使用一個(gè)設(shè)備。這用于虛擬機(jī)還可以,但如果用于其他功能,基本上是沒戲了。

再說,VF功能基本都依賴SR-IOV這樣的實(shí)現(xiàn),也不是你想用就能用的。這我們就要引出vfio-mdev(以下簡稱mdev)了。

mdev本質(zhì)上是在vfio層面實(shí)現(xiàn)VF功能。在mdev的模型中,通過mdev_register_device()注冊到mdev中的設(shè)備稱為父設(shè)備(parent_dev),但你用的時(shí)候不使用父設(shè)備,而是通過父設(shè)備提供的機(jī)制(在sysfs中,后面會(huì)詳細(xì)談這個(gè))創(chuàng)建一個(gè)mdev,這個(gè)mdev自帶一個(gè)iommu_group,這樣,你有多個(gè)進(jìn)程要訪問這個(gè)父設(shè)備的功能,每個(gè)都可以有獨(dú)立的設(shè)備頁表,而且互相不受影響。

所以,整個(gè)mdev框架包括兩個(gè)基本概念,一個(gè)是pdev(父設(shè)備),一個(gè)是mdev(注意,我們這里mdev有時(shí)指整個(gè)vfio-mdev的框架,有時(shí)指基于一個(gè)pdev的device,請注意區(qū)分上下文)。前者提供設(shè)備硬件支持,后者支持針對一個(gè)獨(dú)立地址空間的請求。

兩者都是device(struct device),前者的總線是真實(shí)的物理總線,后者屬于虛擬總線mdev,mdev上只有一個(gè)驅(qū)動(dòng)vfio_mdev,當(dāng)你通過pdev創(chuàng)建一個(gè)mdev的時(shí)候,這個(gè)mdev和vfio_mdev驅(qū)動(dòng)匹配,從而給用戶態(tài)暴露一個(gè)普通vfio設(shè)備的接口(比如platform_device或者pci_device)的接口。

換句話說,如果一個(gè)設(shè)備需要給多個(gè)進(jìn)程提供用戶態(tài)驅(qū)動(dòng)的訪問能力,這個(gè)設(shè)備在probe的時(shí)候可以注冊到mdev框架中,成為一個(gè)mdev框架的pdev。之后,用戶程序可以通過sysfs創(chuàng)建這個(gè)pdev的mdev。

pdev注冊需要提供如下參數(shù):

點(diǎn)擊(此處)折疊或打開

struct mdev_parent_ops{

struct module*owner;

conststruct attribute_group**dev_attr_groups;

conststruct attribute_group**mdev_attr_groups;

struct attribute_group**supported_type_groups;

int(*create)(struct kobject*kobj,struct mdev_device*mdev);

int(*remove)(struct mdev_device*mdev);

int(*open)(struct mdev_device*mdev);

void(*release)(struct mdev_device*mdev);

ssize_t(*read)(struct mdev_device*mdev,char __user*buf,

size_t count,loff_t*ppos);

ssize_t(*write)(struct mdev_device*mdev,constchar __user*buf,

size_t count,loff_t*ppos);

long(*ioctl)(struct mdev_device*mdev,unsignedintcmd,

unsigned long arg);

int(*mmap)(struct mdev_device*mdev,struct vm_area_struct*vma);

};

其中三個(gè)attribute_group都用于在sysfs中增加一組屬性。device本身根據(jù)它的bus_type,就會(huì)產(chǎn)生一個(gè)sysfs的屬性組(所謂屬性組就是sysfs中的一個(gè)目錄,里面每個(gè)文件就是一個(gè)“屬性”,文件名就是屬性名,內(nèi)容就是屬性的值),假設(shè)你的pdev是/sys/bus/platform/devices/abc.0,那么這三個(gè)attribute_group產(chǎn)生的屬性分別在:

dev_attr_groups:/sys/bus/platform/devices/abc.0下

mdev_attr_groups:/sys/bus/platform/devices/abc.0/下,/sys/bus/mdev/devices中有這個(gè)設(shè)備的鏈接

supported_type_groups:/sys/bus/platform/devices/abc.0/mdev_supported_types/下,里面有什么屬性是框架規(guī)定的,包括:

1)name:設(shè)備名稱

2)available_instances:還可以創(chuàng)建多少個(gè)實(shí)例

3)device_api:設(shè)備對外的接口API標(biāo)識(shí)

這些參數(shù)支持具體用戶態(tài)驅(qū)動(dòng)如何訪問這個(gè)設(shè)備,pdev的驅(qū)動(dòng)當(dāng)然可以增加更多。mdev框架在這個(gè)目錄中還增加如下屬性:

1)devices:這是一個(gè)目錄,鏈接向所有被創(chuàng)建的mdev

2)create:向這個(gè)文件中寫入一個(gè)uuid就可以創(chuàng)建一個(gè)新的mdev,實(shí)際上產(chǎn)生對mdev_parent_ops.create()的回調(diào);

mdev這個(gè)模型建得最不好的地方是,create的時(shí)候只能傳進(jìn)去一個(gè)uuid,不能傳進(jìn)去參數(shù),這樣如果我創(chuàng)建的設(shè)備需要參數(shù)怎么辦呢?那就只能創(chuàng)建以后再設(shè)置了,這增加了“創(chuàng)建以后沒有足夠資源提供”的可能性),不過看起來,大部分情況我們是可以接受這個(gè)限制的。

virtio-mdev

說完了vfio-mdev再來看看virtio-mdev。我們?yōu)槭裁匆雟fio-mdev,因?yàn)闉榱似帘尾煌瑥S商的配置接口差異需要一個(gè)中間層,而這個(gè)中間層就是基于vfio-mdev的virtio-mdev。virtio-mdev框架的主要目的是提供給不同的vDPA網(wǎng)卡廠家一個(gè)標(biāo)準(zhǔn)的API來實(shí)現(xiàn)他們自己的控制路徑。mdev提供的框架可以支持vDPA實(shí)現(xiàn)數(shù)據(jù)和控制路徑的分離。數(shù)據(jù)路徑硬化,控制路徑在軟件實(shí)現(xiàn)。

這個(gè)驅(qū)動(dòng)可以是用戶態(tài)基于VFIO,也可以是內(nèi)核態(tài)基于virtio的。在目前這個(gè)系列,主要關(guān)注基于vfio的用戶態(tài)驅(qū)動(dòng),但是在未來也會(huì)討論基于virtio的內(nèi)核態(tài)驅(qū)動(dòng),比如支持AF_VIRTIO。

這個(gè)驅(qū)動(dòng)的實(shí)現(xiàn)也比較簡單,本質(zhì)上就是一些列的virtio-mdev的API。主要包含:

1)set/get設(shè)備的配置空間

2)set/get virtqueue的元數(shù)據(jù):vring地址,大小和基地址

3)kick一個(gè)特定的virtqueue

4)為一個(gè)特定的virtqueue注冊回調(diào)中斷

5)協(xié)商功能

6)set/get臟頁日志

7)啟動(dòng)/重置設(shè)備

可以看到這就是virtio消息處理的功能,所以virtio-mdev就是一個(gè)抽象層,對上提供統(tǒng)一的接口來支持virtio的配置,對下屏蔽不同廠商的差異,每個(gè)廠商實(shí)現(xiàn)自己的這些接口注冊進(jìn)來。

vhost-mdev

vhost-mdev是一個(gè)kernel的模塊,主要功能是:

(1)轉(zhuǎn)發(fā)用戶空間的virtio命令到virtio mdev的API(這里看出vhost-mdev是在virtio-mdev之上的);

(2)復(fù)用VFIO的框架來準(zhǔn)備DMA映射和解映射的用戶空間請求。

vhost-mdev相當(dāng)于一個(gè)直接和qemu對接的,類似于vhost-net的角色,不過它只是一個(gè)轉(zhuǎn)換的作用,將qemu發(fā)過來的virtio命令轉(zhuǎn)換為virtio mdev的標(biāo)準(zhǔn)API調(diào)用(如set_feature,get_feature)。

vhost-mdev通常的工作流程如下:

(1)把自己注冊成一個(gè)新類型的mdev驅(qū)動(dòng)

(2)對外提供和vhost-net兼容的ioctl接口,用戶空間的VFIO驅(qū)動(dòng)可以傳遞virtio的命令

(3)翻譯好的virtio命令以virtio mdev API的形式通過mdev bus傳遞給virtio-mdev設(shè)備。

(4)當(dāng)一個(gè)新的mdev設(shè)備創(chuàng)建時(shí),kernel總是廠商去加載驅(qū)動(dòng)

(5)在加載過程中,vhost-mdev會(huì)把virtio mdev設(shè)備連接在VFIO的群組,因此DMA請求就可以通過VFIO的文件描述符。

vhost-mdev是連接用戶空間驅(qū)動(dòng)和virtio-mdev設(shè)備的關(guān)鍵。它為用戶空間驅(qū)動(dòng)提供兩個(gè)文件描述符:

1)vhost-mdev FD:從用戶空間接受vhost的控制命令

2)VFIO container FD:用戶空間驅(qū)動(dòng)用來設(shè)置DMA

vhost-vfio

vhost-vfio從QEMU的觀點(diǎn)來看,vhost-vfio就是一個(gè)新類型的QEMU網(wǎng)路后端用來支持virtio-net的設(shè)備。(注意,vhost-vfio是在qemu側(cè)工作的)它的主要作用是:

(1)設(shè)置vhost-mdev設(shè)備:打開vhost-mdev的設(shè)備文件,用來傳遞vhost的命令到設(shè)備去,得到vhost-mdev設(shè)備的container,用來傳遞DMAsetup的命令到VFIO container。

(2)從virtio-net設(shè)備接收數(shù)據(jù)路徑卸載的命令(set/get virtqueue狀態(tài),set臟頁日志,功能協(xié)商等等),并把他們翻譯vhost-mdev的ioctl。

(3)接受vIOMMU map和umap的命令并同VFIO DMA的ioctl執(zhí)行。

最后我們再以下圖總結(jié)一下vDPA實(shí)現(xiàn)的關(guān)鍵,vDPA只將dataplan硬件化,所以重點(diǎn)要考慮的是control plan。設(shè)備的PCI配置空間等還是有qemu模擬,但qemu收到Guest寫寄存器的中斷時(shí)的處理不能再像對待vhost-net一樣了,所以qemu引入了vhost-vfio模塊用來和后端協(xié)商。

而vhost-mdev則作為kernel處理后端協(xié)商的代理,接收來自qemu的控制消息,并將消息轉(zhuǎn)文化virtio-mdev的標(biāo)準(zhǔn)接口調(diào)用。Virtio-mdev是一個(gè)抽象層,抽象了virtio的常用處理函數(shù)接口,同時(shí)又基于vfio-mdev框架對接不同硬件設(shè)備,而不同的硬件廠商只需要實(shí)現(xiàn)virtio-mdev的標(biāo)準(zhǔn)接口,同時(shí)支持vfio-mdev即可。這樣控制通道就從qemu到廠商硬件打通了。

DPDK中的vDPA實(shí)現(xiàn)

下面我們看一下在DPDK中是如何實(shí)現(xiàn)對vDPA的支持的,我們的分析代碼是基于DPDK release 20.02版本的,因?yàn)檎窃谶@個(gè)版本增加了基于Mellanox設(shè)備的vDPA PMD(回想當(dāng)初寫第一篇關(guān)于DPDK的文章還是release 16.07)。Mellanox支持vDPA的網(wǎng)卡有ConnectX-6,Mellanox ConnectX-6 Dx以及Mellanox BlueField。在DPDK的example中有一個(gè)vDPA的使用例子,這個(gè)是在18.11版本加入的,其使用方式可以參考https://mp.weixin.qq.com/s/YspEKL5fRmoJJbHlyPz9IA。這里我們就從這個(gè)example入手分析下DPDK中關(guān)于vDPA的實(shí)現(xiàn)。

這個(gè)程序的啟動(dòng)命令是類似如下的方式:

./ vdpa -c 0x2 -n 4 --socket-mem 1024,1024 -w 0000:06:00.3,vdpa=1 -w 0000:06:00.4,vdpa=1

vDPA的設(shè)備初始化

所以首先一定是通過-w指定的PCI設(shè)備加載對應(yīng)的驅(qū)動(dòng),我們以Mellanox的vDPA驅(qū)動(dòng)(mlx5_vdpa_driver)為例分析,注意其相關(guān)代碼和Mellanox正常mlx5驅(qū)動(dòng)不在一起,而是在drivers/vdpa的專門路徑中。

下面就看一下mlx5_vdpa_driver的注冊過程。

點(diǎn)擊(此處)折疊或打開

static struct rte_pci_driver mlx5_vdpa_driver={

.driver={

.name="mlx5_vdpa",

},

.id_table=mlx5_vdpa_pci_id_map,

.probe=mlx5_vdpa_pci_probe,

.remove=mlx5_vdpa_pci_remove,

.drv_flags=0,

};

其核心是驅(qū)動(dòng)加載函數(shù):mlx5_vdpa_pci_probe

lmlx5_vdpa_pci_probe

點(diǎn)擊(此處)折疊或打開

/**

*DPDK callbacktoregister a PCI device.

*

*Thisfunctionspawns vdpa device out of a given PCI device.

*

*@param[in]pci_drv

*PCI driver structure(mlx5_vpda_driver).

*@param[in]pci_dev

*PCI device information.

*

*@return

*0onsuccess,1toskip this driver,a negative errno value otherwise

*andrte_errnoisset.

*/

staticint

mlx5_vdpa_pci_probe(struct rte_pci_driver*pci_drv __rte_unused,

struct rte_pci_device*pci_dev __rte_unused)

{

struct ibv_device*ibv;

struct mlx5_vdpa_priv*priv=NULL;

struct ibv_context*ctx=NULL;

struct mlx5_hca_attr attr;

intret;

/*......*/

ctx=mlx5_glue->dv_open_device(ibv);

priv=rte_zmalloc("mlx5 vDPA device private",sizeof(*priv),

RTE_CACHE_LINE_SIZE);

ret=mlx5_devx_cmd_query_hca_attr(ctx,&attr);

if(ret){

DRV_LOG(ERR,"Unable to read HCA capabilities.");

rte_errno=ENOTSUP;

gotoerror;

}else{

if(!attr.vdpa.valid||!attr.vdpa.max_num_virtio_queues){

DRV_LOG(ERR,"Not enough capabilities to support vdpa,"

" maybe old FW/OFED version?");

rte_errno=ENOTSUP;

gotoerror;

}

priv->caps=attr.vdpa;

priv->log_max_rqt_size=attr.log_max_rqt_size;

}

priv->ctx=ctx;

priv->dev_addr.pci_addr=pci_dev->addr;

priv->dev_addr.type=PCI_ADDR;

priv->id=rte_vdpa_register_device(&priv->dev_addr,&mlx5_vdpa_ops);

if(priv->id

DRV_LOG(ERR,"Failed to register vDPA device.");

rte_errno=rte_errno?rte_errno:EINVAL;

gotoerror;

}

SLIST_INIT(&priv->mr_list);

SLIST_INIT(&priv->virtq_list);

pthread_mutex_lock(&priv_list_lock);

TAILQ_INSERT_TAIL(&priv_list,priv,next);

pthread_mutex_unlock(&priv_list_lock);

return 0;

error:

if(priv)

rte_free(priv);

if(ctx)

mlx5_glue->close_device(ctx);

return-rte_errno;

}

這個(gè)函數(shù)首先分配mlx的vDPA設(shè)備私有結(jié)構(gòu)struct mlx5_vdpa_priv,然后通過mlx5_devx_cmd_query_hca_attr函數(shù)獲取當(dāng)前設(shè)備的屬性并初始化這個(gè)vDPA私有結(jié)構(gòu)。其中關(guān)鍵的一步是通過rte_vdpa_register_device函數(shù)申請vDPA通用結(jié)構(gòu)struct rte_vdpa_device,并將mlx的vDPA ops函數(shù)結(jié)合mlx5_vdpa_ops設(shè)置為其ops。

lrte_vdpa_register_device

點(diǎn)擊(此處)折疊或打開

int

rte_vdpa_register_device(struct rte_vdpa_dev_addr*addr,

struct rte_vdpa_dev_ops*ops)

{

struct rte_vdpa_device*dev;

char device_name[MAX_VDPA_NAME_LEN];

inti;

if(vdpa_device_num>=MAX_VHOST_DEVICE||addr==NULL||ops==NULL)

return-1;

for(i=0;i

dev=vdpa_devices[i];

if(dev&&is_same_vdpa_device(&dev->addr,addr))

return-1;

}

for(i=0;i

if(vdpa_devices[i]==NULL)

break;

}

if(i==MAX_VHOST_DEVICE)

return-1;

snprintf(device_name,sizeof(device_name),"vdpa-dev-%d",i);

dev=rte_zmalloc(device_name,sizeof(struct rte_vdpa_device),

RTE_CACHE_LINE_SIZE);

if(!dev)

return-1;

memcpy(&dev->addr,addr,sizeof(struct rte_vdpa_dev_addr));

dev->ops=ops;/*設(shè)置ops為設(shè)備廠商的具體實(shí)現(xiàn)*/

vdpa_devices[i]=dev;

vdpa_device_num++;/*全局變量,記錄vDPA設(shè)備的個(gè)數(shù)*/

return i;

}

rte_vdpa_register_device中關(guān)鍵工作就是分配一個(gè)vDPA通用結(jié)構(gòu)struct rte_vdpa_device,并將mlx vDPA的實(shí)現(xiàn)操作mlx5_vdpa_ops關(guān)聯(lián)上。而rte_vdpa_device結(jié)構(gòu)又是一個(gè)全局?jǐn)?shù)組,其數(shù)組index就是vDPA的設(shè)備id,也就是struct mlx5_vdpa_priv中的id。

另外mlx5_vdpa_ops的具體成員和實(shí)現(xiàn)結(jié)合如下??梢钥吹竭@里的函數(shù)和vhost-user的消息處理函數(shù)很多是對應(yīng)的。

點(diǎn)擊(此處)折疊或打開

static struct rte_vdpa_dev_ops mlx5_vdpa_ops={

.get_queue_num=mlx5_vdpa_get_queue_num,

.get_features=mlx5_vdpa_get_vdpa_features,

.get_protocol_features=mlx5_vdpa_get_protocol_features,

.dev_conf=mlx5_vdpa_dev_config,

.dev_close=mlx5_vdpa_dev_close,

.set_vring_state=mlx5_vdpa_set_vring_state,

.set_features=mlx5_vdpa_features_set,

.migration_done=NULL,

.get_vfio_group_fd=NULL,

.get_vfio_device_fd=NULL,

.get_notify_area=NULL,

};

這樣就完成了Mellanox側(cè)的vDPA設(shè)備初始化,產(chǎn)生的相關(guān)數(shù)據(jù)結(jié)構(gòu)如下圖所示。

vDPA和vhost-uesr關(guān)聯(lián)

廠商定制化的vDPA部分以及初始化完畢,下面我們看下vhost-user和vDPA是怎么關(guān)聯(lián)的。參考的是vDPA example中的start_vdpa函數(shù),具體如下

lstart_vdpa

點(diǎn)擊(此處)折疊或打開

staticint

start_vdpa(struct vdpa_port*vport)

{

intret;

char*socket_path=vport->ifname;

intdid=vport->did;/*vDPA設(shè)備id*/

if(client_mode)

vport->flags|=RTE_VHOST_USER_CLIENT;

if(access(socket_path,F_OK)!=-1&&!client_mode){

RTE_LOG(ERR,VDPA,

"%s exists, please remove it or specify another file and try again. ",

socket_path);

return-1;

}

ret=rte_vhost_driver_register(socket_path,vport->flags);/*初始化vsocket結(jié)構(gòu),創(chuàng)建vhost-user后端重連線程*/

if(ret!=0)

rte_exit(EXIT_FAILURE,

"register driver failed: %s ",

socket_path);

ret=rte_vhost_driver_callback_register(socket_path,

&vdpa_sample_devops);/*注冊自定義的vsocket->notify_ops*/

if(ret!=0)

rte_exit(EXIT_FAILURE,

"register driver ops failed: %s ",

socket_path);

ret=rte_vhost_driver_attach_vdpa_device(socket_path,did);/*將vsocket結(jié)構(gòu)和vDPA設(shè)備關(guān)聯(lián)*/

if(ret!=0)

rte_exit(EXIT_FAILURE,

"attach vdpa device failed: %s ",

socket_path);

if(rte_vhost_driver_start(socket_path)

rte_exit(EXIT_FAILURE,

"start vhost driver failed: %s ",

socket_path);

return 0;

}

這個(gè)函數(shù)關(guān)鍵執(zhí)行了4步操作:

(1)rte_vhost_driver_register:初始化vsocket結(jié)構(gòu),創(chuàng)建vhost-user后端重連線程;

(2)rte_vhost_driver_callback_register:注冊自定義的vsocket->notify_ops;

(3)rte_vhost_driver_attach_vdpa_device:將vsocket結(jié)構(gòu)和vDPA設(shè)備關(guān)聯(lián)

(4)rte_vhost_driver_start:創(chuàng)建vhost控制面消息處理線程,將vsocket加入重連鏈表;

其中(1)(2)(4)都是vhost-user設(shè)備的常規(guī)操作,這里不再展開,其中關(guān)鍵的是(3)。

lrte_vhost_driver_attach_vdpa_device

點(diǎn)擊(此處)折疊或打開

int

rte_vhost_driver_attach_vdpa_device(constchar*path,intdid)

{

struct vhost_user_socket*vsocket;

if(rte_vdpa_get_device(did)==NULL||path==NULL)

return-1;

pthread_mutex_lock(&vhost_user.mutex);

vsocket=find_vhost_user_socket(path);

if(vsocket)

vsocket->vdpa_dev_id=did;

pthread_mutex_unlock(&vhost_user.mutex);

return vsocket?0:-1;

}

這個(gè)函數(shù)將vDPA的deviceid記錄在vsocket結(jié)構(gòu)中,這樣就將vhost和vDPA設(shè)備關(guān)聯(lián)起來了。

vhost控制面的vDPA初始化

前面說到通過vhost-user的vsocket結(jié)構(gòu)中的vDPA deviceid將vhost-user和vDPA關(guān)聯(lián)起來,那么下面就來看一下vhost-user進(jìn)行初始化時(shí)怎么將對應(yīng)vDPA設(shè)備初始化的。

首先,vhost-user前后端建立連接后會(huì)調(diào)用vhost_user_add_connection,而vhost_user_add_connection中則會(huì)調(diào)用vhost_new_device()分配struct virtio_net結(jié)構(gòu),而virtio_net中也有一個(gè)vdpa_dev_id,在調(diào)用vhost_attach_vdpa_device時(shí)將vsocket的vdpa_dev_id賦值給virtio_net的vdpa_dev_id。

點(diǎn)擊(此處)折疊或打開

static void

vhost_user_add_connection(intfd,struct vhost_user_socket*vsocket)

{

intvid;

size_t size;

struct vhost_user_connection*conn;

intret;

/*......*/

vid=vhost_new_device();

if(vid==-1){

gotoerr;

}

/*......*/

vhost_attach_vdpa_device(vid,vsocket->vdpa_dev_id);

/*......*/

}

有了這個(gè)關(guān)聯(lián)以后,后續(xù)所有vhost-user的消息處理就可以找到對應(yīng)的vDPA設(shè)備,進(jìn)而找到廠商關(guān)聯(lián)的vDPA ops函數(shù)?;貞浨懊嬖O(shè)備初始化時(shí)將Mellanox的mlx5_vdpa_ops注冊到的vDPA設(shè)備上,其實(shí)這是一個(gè)struct rte_vdpa_dev_ops結(jié)構(gòu),如下所示:

點(diǎn)擊(此處)折疊或打開

/**

*vdpa device operations

*/

struct rte_vdpa_dev_ops{

/**Getcapabilities of this device*/

int(*get_queue_num)(intdid,uint32_t*queue_num);

/**Getsupported features of this device*/

int(*get_features)(intdid,uint64_t*features);

/**Getsupported protocol features of this device*/

int(*get_protocol_features)(intdid,uint64_t*protocol_features);

/**Driver configure/close the device*/

int(*dev_conf)(intvid);

int(*dev_close)(intvid);

/**Enable/disable this vring*/

int(*set_vring_state)(intvid,intvring,intstate);

/**Setfeatures when changed*/

int(*set_features)(intvid);

/**Destination operations when migration done*/

int(*migration_done)(intvid);

/**Getthe vfio group fd*/

int(*get_vfio_group_fd)(intvid);

/**Getthe vfio device fd*/

int(*get_vfio_device_fd)(intvid);

/**Getthe notify area info of the queue*/

int(*get_notify_area)(intvid,intqid,

uint64_t*offset,uint64_t*size);

/**Reservedforfuture extension*/

void*reserved[5];

};

可以看到他和我們的vhost-user消息處理函數(shù)很多都是對應(yīng)的,這也是前面我們提到過的virtio-mdev在DPDK的表現(xiàn)。所以很自然的相當(dāng)在vhost-user處理后端消息時(shí)會(huì)調(diào)用對應(yīng)的vDPA處理函數(shù)。以vhost_user_set_features為例,其中調(diào)用了rte_vdpa_get_device通過virtio-net的vdpa_dev_id獲取到對應(yīng)的vDPA設(shè)備,并調(diào)用對應(yīng)的vDPA的set_features函數(shù)。

點(diǎn)擊(此處)折疊或打開

staticint

vhost_user_set_features(struct virtio_net**pdev,struct VhostUserMsg*msg,

intmain_fd __rte_unused)

{

/*......*/

did=dev->vdpa_dev_id;

vdpa_dev=rte_vdpa_get_device(did);

if(vdpa_dev&&vdpa_dev->ops->set_features)

vdpa_dev->ops->set_features(dev->vid);

return RTE_VHOST_MSG_RESULT_OK;

}

其他函數(shù)也是類似的,我們可以搜索一下vdpa_dev_id關(guān)鍵字確認(rèn)。

整個(gè)vDPA在DPDK的工作方式可以用下圖來表示。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    13

    文章

    10000

    瀏覽量

    90128
  • dma
    dma
    +關(guān)注

    關(guān)注

    3

    文章

    576

    瀏覽量

    104717
  • 數(shù)據(jù)路徑
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    6435
  • DPDK
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    1916
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    自動(dòng)擴(kuò)縮容Jtti美國VPS的實(shí)現(xiàn)路徑與技術(shù)解析

    在瞬息萬變的互聯(lián)網(wǎng)環(huán)境,業(yè)務(wù)流量往往難以預(yù)測,手動(dòng)管理服務(wù)器資源不僅效率低下且成本高昂。對于部署在美國VPS上的應(yīng)用與服務(wù),實(shí)現(xiàn)智能的自動(dòng)擴(kuò)縮容已成為提升穩(wěn)定性、降低成本的關(guān)鍵策
    的頭像 發(fā)表于 10-16 17:29 ?275次閱讀

    智慧水務(wù)物聯(lián)網(wǎng)監(jiān)測解決方案設(shè)計(jì) ——以數(shù)據(jù)驅(qū)動(dòng)全流程水務(wù)管理,實(shí)現(xiàn)智能、精細(xì)化、可持續(xù)運(yùn)營

    智慧水務(wù)解決方案通過物聯(lián)網(wǎng)技術(shù)整合分散的水務(wù)系統(tǒng),構(gòu)建"感知-傳輸-分析-決策"一體平臺(tái)。方案采用分層架構(gòu),以御控工業(yè)網(wǎng)關(guān)為核心,實(shí)現(xiàn)供水、排水、污水處理全流程
    的頭像 發(fā)表于 09-11 12:10 ?281次閱讀

    突破傳統(tǒng)桎梏,PPEC Workbench 開啟電源智能設(shè)計(jì)新路徑

    庫,接入器件商城,新硬件接入能快速推薦適配方案,極大加快產(chǎn)品落地速度。 二、 平臺(tái)優(yōu)勢:全生命周期智能閉環(huán) PPEC Workbench 電力電子智能設(shè)計(jì)平臺(tái)重構(gòu)了電源設(shè)計(jì)的全流程
    發(fā)表于 08-26 11:40

    復(fù)雜裝備研發(fā)設(shè)計(jì)利用數(shù)據(jù)實(shí)現(xiàn)大規(guī)模個(gè)性定制

    在復(fù)雜裝備研發(fā)設(shè)計(jì),利用數(shù)據(jù)實(shí)現(xiàn)大規(guī)模個(gè)性定制已成為提升企業(yè)競爭力、滿足多樣市場需求的關(guān)鍵路徑。其核心在于通過
    的頭像 發(fā)表于 08-06 17:17 ?461次閱讀

    免費(fèi)分享:一個(gè)低成本8電1光+5G|+WI-FI6+ SATA3.0+DPDK融合網(wǎng)關(guān)方案

    本帖最后由 jf_83141691 于 2025-7-21 17:59 編輯 硬件特色:1、RK3568 4核2.0G CPU主控方案,默認(rèn)8G內(nèi)存,16G板載存儲(chǔ);2、RTL8370M三層
    發(fā)表于 07-21 17:56

    車機(jī)交互測試自動(dòng)實(shí)現(xiàn)路徑與案例分析

    測試設(shè)備是車機(jī)交互測試自動(dòng)實(shí)現(xiàn)的核心支撐,通過合理選型、部署和應(yīng)用北京沃華慧通測控技術(shù)有限公司汽車測試設(shè)備,結(jié)合科學(xué)的實(shí)現(xiàn)路徑和豐富的案例經(jīng)驗(yàn),能夠有效提高車機(jī)交互測試的效率和質(zhì)量,
    的頭像 發(fā)表于 07-10 09:24 ?987次閱讀
    車機(jī)交互測試自動(dòng)<b class='flag-5'>化</b><b class='flag-5'>實(shí)現(xiàn)</b><b class='flag-5'>路徑</b>與案例分析

    替代專用硬件!一文梳理開源VPP+DPDK技術(shù)和產(chǎn)業(yè)界應(yīng)用實(shí)例

    VPP 這一開源技術(shù)在通用 CPU 的基礎(chǔ)上,實(shí)現(xiàn)了傳統(tǒng)上需要專門的網(wǎng)絡(luò)硬件設(shè)備(如路由器)和專業(yè)的網(wǎng)絡(luò)操作系統(tǒng)才能達(dá)到的性能,以極高的性價(jià)比為廣大用戶帶來了開放網(wǎng)絡(luò)技術(shù)的紅利。VPP 集成了DPDK項(xiàng)目,通過它直接訪問
    的頭像 發(fā)表于 07-07 17:17 ?912次閱讀
    替代專用<b class='flag-5'>硬件</b>!一文梳理開源VPP+<b class='flag-5'>DPDK</b>技術(shù)和產(chǎn)業(yè)界應(yīng)用實(shí)例

    AGV小車的動(dòng)態(tài)路徑規(guī)劃算法揭秘

    在現(xiàn)代倉儲(chǔ)、物流和制造業(yè),自動(dòng)導(dǎo)引車(AGV)的身影日益普遍。它們?nèi)缤趧诘墓は?,在?fù)雜的環(huán)境自主穿梭,高效地完成物料搬運(yùn)任務(wù)。而支撐AGV實(shí)現(xiàn)智能導(dǎo)航的核心技術(shù)之一,便是路徑規(guī)劃
    的頭像 發(fā)表于 06-17 15:54 ?878次閱讀
    AGV小車<b class='flag-5'>中</b>的動(dòng)態(tài)<b class='flag-5'>路徑</b>規(guī)劃算法揭秘

    從底層邏輯到架構(gòu)設(shè)計(jì):聚徽解析MES看板的技術(shù)實(shí)現(xiàn)路徑

    在智能制造浪潮下,MES(制造執(zhí)行系統(tǒng))看板作為生產(chǎn)管理的核心工具,通過實(shí)時(shí)數(shù)據(jù)可視推動(dòng)企業(yè)實(shí)現(xiàn)透明化生產(chǎn)與精益管理。其技術(shù)實(shí)現(xiàn)路徑涵蓋
    的頭像 發(fā)表于 06-16 15:23 ?344次閱讀

    芯資訊|基于WT2605C藍(lán)牙語音芯片的電動(dòng)車控智能升級(jí)方案

    問題。用戶期待通過手機(jī)等智能終端實(shí)現(xiàn)遠(yuǎn)程控制、實(shí)時(shí)數(shù)據(jù)監(jiān)控及個(gè)性交互體驗(yàn)。為此,將藍(lán)牙語音芯片集成至電動(dòng)車控系統(tǒng),成為推動(dòng)智能升級(jí)的關(guān)
    的頭像 發(fā)表于 04-18 08:34 ?540次閱讀
    芯資訊|基于WT2605C藍(lán)牙語音芯片的電動(dòng)車<b class='flag-5'>中</b>控智能<b class='flag-5'>化</b>升級(jí)<b class='flag-5'>方案</b>

    從零到一:如何利用非結(jié)構(gòu)數(shù)據(jù)臺(tái)快速部署AI解決方案

    ……這些“非標(biāo)”數(shù)據(jù)量大、來源廣、結(jié)構(gòu)雜,卻恰恰是驅(qū)動(dòng)AI模型的關(guān)鍵燃料。 ? 想要從零到一,快速部署AI解決方案,一個(gè)可行路徑是——構(gòu)建非結(jié)構(gòu)數(shù)
    的頭像 發(fā)表于 04-14 13:50 ?461次閱讀

    智慧養(yǎng)殖場解決方案:智慧轉(zhuǎn)型路徑

    輕松,經(jīng)濟(jì)效益更加可觀,為養(yǎng)豬業(yè)者提供一套全面、可行的智慧轉(zhuǎn)型路徑。 一、定義與優(yōu)勢 智慧養(yǎng)殖場是指運(yùn)用物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、人工智能等現(xiàn)代信息技術(shù),對養(yǎng)殖環(huán)境、飼料管理、疾病防控、生長監(jiān)測等關(guān)鍵環(huán)節(jié)進(jìn)
    的頭像 發(fā)表于 03-11 16:52 ?563次閱讀

    AD轉(zhuǎn)換需要注意電流的回流路徑,這個(gè)電流的回流路徑具體指的是什么呢?

    AD轉(zhuǎn)換需要注意 電流的回流路徑 這個(gè)電流的回流路徑具體指的是什么呢 是不是單片機(jī)和AD轉(zhuǎn)換芯片之間的數(shù)據(jù)線和DGND線構(gòu)成一個(gè)回路輸入信號(hào)和AGND構(gòu)成一個(gè)回路
    發(fā)表于 02-14 07:53

    物聯(lián)網(wǎng)數(shù)據(jù)臺(tái)是什么?可以實(shí)現(xiàn)什么功能?

    物聯(lián)網(wǎng)數(shù)據(jù)臺(tái)是一個(gè)集成和管理大量設(shè)備產(chǎn)生的數(shù)據(jù)的平臺(tái),主要功能包括數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)可視
    的頭像 發(fā)表于 01-10 11:24 ?701次閱讀

    運(yùn)動(dòng)控制如何實(shí)現(xiàn)路徑軌跡預(yù)測

    在運(yùn)動(dòng)控制,軌跡執(zhí)行時(shí)間的預(yù)測對于多軸的協(xié)同、路徑預(yù)處理等方面有著重要的作用。CODESYS系列控制器提供了預(yù)測軌跡執(zhí)行時(shí)間功能塊。要實(shí)現(xiàn)完整的預(yù)測功能,需要使用到以下的功能塊
    的頭像 發(fā)表于 01-05 11:04 ?1391次閱讀
    運(yùn)動(dòng)控制<b class='flag-5'>中</b>如何<b class='flag-5'>實(shí)現(xiàn)</b><b class='flag-5'>路徑</b>軌跡預(yù)測