曰本美女∴一区二区特级A级黄色大片, 国产亚洲精品美女久久久久久2025, 页岩实心砖-高密市宏伟建材有限公司, 午夜小视频在线观看欧美日韩手机在线,国产人妻奶水一区二区,国产玉足,妺妺窝人体色WWW网站孕妇,色综合天天综合网中文伊,成人在线麻豆网观看

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是向量數(shù)據(jù)庫(kù)?關(guān)系數(shù)據(jù)庫(kù)和向量數(shù)據(jù)庫(kù)之間的區(qū)別是什么?

新機(jī)器視覺 ? 來源:新機(jī)器視覺 ? 2023-08-16 10:13 ? 次閱讀

近些年來,向量數(shù)據(jù)庫(kù)引起業(yè)界的廣泛關(guān)注,一個(gè)相關(guān)事實(shí)是許多向量數(shù)據(jù)庫(kù)初創(chuàng)公司在短期內(nèi)就籌集到數(shù)百萬美元的資金。

你很可能已經(jīng)聽說過向量數(shù)據(jù)庫(kù),但也許直到現(xiàn)在才真正關(guān)心向量數(shù)據(jù)庫(kù)——至少,我想這就是你現(xiàn)在閱讀本文的原因…… 如果你閱讀本文只是為了簡(jiǎn)單回答上面的問題,那就讓我們直接進(jìn)入話題吧。

定義:什么是向量數(shù)據(jù)庫(kù)?

向量數(shù)據(jù)庫(kù)是一種以向量嵌入(高維向量)方式存儲(chǔ)和管理非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像或音頻)的數(shù)據(jù)庫(kù),以便于快速查找和檢索類似對(duì)象。

如果這個(gè)定義只會(huì)引起人們更多的理解上的混亂,那么就讓我們一步一步來進(jìn)行解釋。本文的靈感來自WIRED的5級(jí)視頻系列,本文將揭示向量數(shù)據(jù)庫(kù)在以下三個(gè)難度級(jí)別中的內(nèi)容:

最淺顯的解釋

向數(shù)字原住民和技術(shù)愛好者解釋向量數(shù)據(jù)庫(kù)

工程師和數(shù)據(jù)專業(yè)人員解釋向量數(shù)據(jù)庫(kù)

向量數(shù)據(jù)庫(kù):最淺面的解釋

這有點(diǎn)離題,但你知道我不明白的是什么嗎?當(dāng)人們按顏色排列書架時(shí),哎喲!當(dāng)他們不知道書的封面是什么顏色時(shí),他們是如何找到書的?

向量數(shù)據(jù)庫(kù)背后的直覺

如果你想快速找到一本特定的書,那么,按類型和作者排列書架比按顏色排列更有意義。這就是為什么大多數(shù)圖書館都是這樣組織的原因,以便幫助你快速找到你想要的東西。

但是,你如何根據(jù)一個(gè)查詢而不是一個(gè)流派或作者來找到可以閱讀的書籍呢?如果你想讀一本書,例如:類似于《饑餓的毛毛蟲》或關(guān)于一個(gè)和你一樣喜歡吃美食的主角?

如果你沒有時(shí)間瀏覽書架,最快的方法是向圖書管理員征求他們的推薦,因?yàn)樗麄冏x過很多書,會(huì)確切地知道哪本書最適合你的查詢。

在組織書籍的例子中,你可以將圖書管理員視為向量數(shù)據(jù)庫(kù),因?yàn)橄蛄繑?shù)據(jù)庫(kù)旨在存儲(chǔ)關(guān)于對(duì)象(例如書籍)的復(fù)雜信息(例如書籍的情節(jié))。

因此,向量數(shù)據(jù)庫(kù)可以幫助你根據(jù)特定的查詢(例如,一本關(guān)于…的書)而不是一些預(yù)定義的屬性(例如,作者)來查找對(duì)象,就像圖書管理員一樣。

向數(shù)字原住民和技術(shù)愛好者解釋向量數(shù)據(jù)庫(kù)

現(xiàn)在,讓我們繼續(xù)探討圖書館的例子,并獲得更多的技術(shù)知識(shí):當(dāng)然,現(xiàn)在,在圖書館中搜索書籍的技術(shù)比只按類型或作者搜索更先進(jìn)了一些。

如果你去圖書館,通常角落里會(huì)有一臺(tái)電腦,可以幫助你找到一本具有更具體屬性的書,比如書名、國(guó)際標(biāo)準(zhǔn)圖書編號(hào)、出版年份或一些關(guān)鍵詞。根據(jù)輸入的值,就可以查詢存儲(chǔ)可用書籍信息的數(shù)據(jù)庫(kù)。不過,這個(gè)數(shù)據(jù)庫(kù)通常是一個(gè)傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)。

c1f95bca-3b70-11ee-9e74-dac502259ad0.png

關(guān)系數(shù)據(jù)庫(kù)和向量數(shù)據(jù)庫(kù)之間的區(qū)別是什么?

關(guān)系數(shù)據(jù)庫(kù)和向量數(shù)據(jù)庫(kù)之間的主要區(qū)別在于它們存儲(chǔ)的數(shù)據(jù)類型。雖然關(guān)系數(shù)據(jù)庫(kù)是為適合表的結(jié)構(gòu)化數(shù)據(jù)而設(shè)計(jì)的,但是,向量數(shù)據(jù)庫(kù)即是為非結(jié)構(gòu)化數(shù)據(jù)(如文本或圖像)而設(shè)計(jì)的。

存儲(chǔ)的數(shù)據(jù)類型也會(huì)影響數(shù)據(jù)的檢索方式:在關(guān)系數(shù)據(jù)庫(kù)中,查詢結(jié)果基于特定關(guān)鍵字的匹配。在向量數(shù)據(jù)庫(kù)中,查詢結(jié)果是基于相似性進(jìn)行的。

你可以把傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)想象成電子表格。它們非常適合存儲(chǔ)結(jié)構(gòu)數(shù)據(jù),例如關(guān)于一本書的基本信息(例如,標(biāo)題、作者、ISBN等),因?yàn)檫@類信息可以存儲(chǔ)在列中,非常適合過濾和排序。

使用關(guān)系數(shù)據(jù)庫(kù),你可以快速獲取所有書籍,例如兒童書籍,并且標(biāo)題中有“毛蟲”。

但是,如果你喜歡《饑餓的毛毛蟲》是關(guān)于食物的呢?你可以試著搜索關(guān)鍵詞“食物”,但除非在書的摘要中提到關(guān)鍵詞“食品”,否則你甚至找不到“非常饑餓的毛毛蟲”。相反,你可能會(huì)以一堆烹飪書和失望告終。

這是關(guān)系數(shù)據(jù)庫(kù)的一個(gè)限制:你必須添加你認(rèn)為某人可能需要的所有信息才能找到該特定項(xiàng)目。但是,你怎么知道該添加哪些信息以及添加多少信息呢?添加所有這些信息往往非常耗時(shí),并且不能保證完整性。

然而,這正是向量數(shù)據(jù)庫(kù)發(fā)揮作用的地方! 不過,你首先需要先來了解一下一個(gè)叫做向量嵌入(vector embeddings)的概念。

今天的機(jī)器學(xué)習(xí)(ML)算法可以將給定的對(duì)象(例如,單詞或文本)轉(zhuǎn)換為保留該對(duì)象信息的數(shù)字表示。想象一下,你給一個(gè)ML模型一個(gè)詞(例如,“食物”),然后這個(gè)ML模型發(fā)揮了它的魔力,給你返回了一長(zhǎng)串?dāng)?shù)字。這個(gè)長(zhǎng)長(zhǎng)的數(shù)字列表是單詞的數(shù)字表示,即稱為向量嵌入。

因?yàn)檫@些嵌入是一長(zhǎng)串?dāng)?shù)字,所以我們稱之為高維。讓我們假設(shè)這些嵌入只是三維的,以便將它們可視化,如下所示。

c24bb762-3b70-11ee-9e74-dac502259ad0.png ?

你可以看到,類似的單詞,如“饑餓”(hungry)、“口渴”(thirsty)、“食物”(food)和“飲料”(drink),都被分組在一個(gè)相似的角落里,而其他單詞如“自行車”(bicycle)和“汽車”(car),則在這個(gè)向量空間中靠近在一起,但在不同的角落里。

數(shù)字表示使我們能夠?qū)?shù)學(xué)計(jì)算應(yīng)用于通常不適合計(jì)算的對(duì)象,如單詞。例如,除非將單詞替換為其嵌入;否則,以下計(jì)算將不起作用:

drink - food + hungry = thirsty

因?yàn)槲覀兛梢允褂们度脒M(jìn)行計(jì)算,所以我們也可以計(jì)算一對(duì)嵌入對(duì)象之間的距離。兩個(gè)嵌入對(duì)象之間的距離越近,它們就越相似。

正如你所看到的,向量嵌入非???。

讓我們回到前面的例子,假設(shè)我們將每本書的內(nèi)容嵌入到圖書館中,并將這些嵌入存儲(chǔ)在向量數(shù)據(jù)庫(kù)中。現(xiàn)在,當(dāng)你想找到一本“主角喜歡食物的童書”時(shí),你的查詢也會(huì)被嵌入,并返回與你的查詢最相似的書籍,例如《饑餓的毛毛蟲》或《金發(fā)姑娘與三只熊》。

向量數(shù)據(jù)庫(kù)的使用情況是什么?

事實(shí)上,向量數(shù)據(jù)庫(kù)在大型語言模型(LLM)的宣傳開始之前就已經(jīng)存在了。最初,它們被應(yīng)用于推薦系統(tǒng)中,因?yàn)樗鼈兛梢钥焖僬业浇o定查詢的相似對(duì)象。但是,由于它們可以為大型語言模型提供長(zhǎng)期記憶,因此最近也被應(yīng)用于問答應(yīng)用程序中。

向工程師和數(shù)據(jù)專業(yè)人員解釋向量數(shù)據(jù)庫(kù)

如果在打開本文之前,你已經(jīng)猜到向量數(shù)據(jù)庫(kù)可能是存儲(chǔ)向量嵌入的一種方式,并且只想知道向量嵌入的背后是什么,那么,現(xiàn)在讓我們來深入了解并討論一下相關(guān)的算法。

向量數(shù)據(jù)庫(kù)是如何工作的?

向量數(shù)據(jù)庫(kù)能夠快速檢索查詢中的類似對(duì)象,因?yàn)樗鼈円呀?jīng)預(yù)先計(jì)算過了。其基本概念被稱為近似最近鄰(Approximate Nearest Neighbor:ANN)搜索,它使用不同的算法來索引和計(jì)算相似性。

正如你所能想象的,當(dāng)你有數(shù)百萬個(gè)嵌入時(shí),用簡(jiǎn)單的k近鄰(kNN)算法計(jì)算查詢和每個(gè)嵌入對(duì)象之間的相似性可能會(huì)變得相當(dāng)耗時(shí)。而使用ANN搜索算法,你可以以一定的準(zhǔn)確性換取速度,并檢索與查詢近似最相似的對(duì)象。

索引:為此,向量數(shù)據(jù)庫(kù)對(duì)向量嵌入進(jìn)行索引。此步驟將向量映射到數(shù)據(jù)結(jié)構(gòu),從而實(shí)現(xiàn)更快的搜索。

你可以把索引看作是把圖書館里的書分成不同的類別,比如作者或流派。但由于嵌入可以包含更復(fù)雜的信息,進(jìn)一步的分類可能是“主角的性別”或“情節(jié)的主要位置”。因此,索引可以幫助您檢索所有可用向量的較小部分,從而加快檢索速度。

我們不會(huì)討論索引算法的技術(shù)細(xì)節(jié);但是,如果你有興趣進(jìn)一步閱讀,你可能想從查找分層導(dǎo)航小世界(Hierarchical Navigable Small World:HNSW)開始。

相似性度量:為了從索引向量中找到查詢的最近鄰居,向量數(shù)據(jù)庫(kù)應(yīng)用相似性度量。常見的相似性度量包括余弦相似性、點(diǎn)積、歐幾里得距離、曼哈頓距離和漢明距離(Hamming distance)。

向量數(shù)據(jù)庫(kù)相對(duì)于將向量嵌入存儲(chǔ)在NumPy數(shù)組中的優(yōu)勢(shì)是什么?

我經(jīng)常(已經(jīng))遇到的一個(gè)問題是:我們不能只使用NumPy數(shù)組來存儲(chǔ)嵌入嗎?——當(dāng)然,如果你沒有很多嵌入,或者你只是在做一個(gè)有趣的愛好項(xiàng)目,你可以這樣做。但正如你已經(jīng)猜到的,當(dāng)你有很多嵌入時(shí),向量數(shù)據(jù)庫(kù)會(huì)明顯更快,而且你不必把所有東西都保存在內(nèi)存中。

最后,我僅會(huì)簡(jiǎn)短地說一句,因?yàn)橐辽!ち_森塔爾在解釋使用向量數(shù)據(jù)庫(kù)和使用NumPy數(shù)組之間的區(qū)別方面做得比我寫的要好得多。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)器
    +關(guān)注

    關(guān)注

    38

    文章

    7617

    瀏覽量

    166081
  • 向量機(jī)
    +關(guān)注

    關(guān)注

    0

    文章

    166

    瀏覽量

    21106
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8482

    瀏覽量

    133921
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    317

    瀏覽量

    656

原文標(biāo)題:一文帶你全面理解向量數(shù)據(jù)庫(kù)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    大模型卷價(jià)格,向量數(shù)據(jù)庫(kù)“卷”什么?

    被大模型“帶飛”這一年,向量數(shù)據(jù)庫(kù)才剛剛寫下序言
    的頭像 發(fā)表于 05-23 09:24 ?2037次閱讀
    大模型卷價(jià)格,<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫(kù)</b>“卷”什么?

    關(guān)系數(shù)據(jù)庫(kù)與非關(guān)系數(shù)據(jù)庫(kù)區(qū)別淺析

    關(guān)系數(shù)據(jù)庫(kù)的一個(gè)劣勢(shì)就是 阻抗失諧(impedance mismatch):關(guān)系模型和內(nèi)存中的數(shù)據(jù)結(jié)構(gòu)之間存在差異
    發(fā)表于 06-03 06:03

    數(shù)據(jù)庫(kù)原理與應(yīng)用,下載

    第一章   數(shù)據(jù)庫(kù)基礎(chǔ) 第二章   關(guān)系數(shù)據(jù)庫(kù)的基本理論 第三章   數(shù)據(jù)庫(kù)設(shè)計(jì) 第四章   關(guān)系數(shù)據(jù)庫(kù)
    發(fā)表于 05-14 16:55 ?0次下載

    基于WINCC工控組態(tài)軟件的關(guān)系數(shù)據(jù)庫(kù)的研究

    重點(diǎn)介紹了在工控組態(tài)軟件WINCC上的數(shù)據(jù)庫(kù)通信方法和采集過程,基于WINCC組態(tài)軟件的數(shù)據(jù)庫(kù)后臺(tái)是關(guān)系數(shù)據(jù)庫(kù)SQL Server。結(jié)合實(shí)際應(yīng)用來研究關(guān)系數(shù)據(jù)庫(kù)SQL Server及其
    發(fā)表于 11-30 15:02 ?80次下載

    什么是關(guān)系數(shù)據(jù)庫(kù)

    什么是關(guān)系數(shù)據(jù)庫(kù) 關(guān)系數(shù)據(jù)庫(kù)簡(jiǎn)介   關(guān)系數(shù)據(jù)庫(kù)以行和列的形式存儲(chǔ)
    發(fā)表于 06-17 07:38 ?9167次閱讀

    關(guān)系數(shù)據(jù)庫(kù)是什么?

    關(guān)系數(shù)據(jù)庫(kù)是什么? 數(shù)字時(shí)代伊始,數(shù)據(jù)庫(kù)就一直是商業(yè)計(jì)算的核心組成部分。事實(shí)上,關(guān)系數(shù)據(jù)庫(kù)誕生于1970年。那一年,IBM的研究員E.F. Codd撰寫了一篇論文,概述了主
    發(fā)表于 07-31 12:26 ?2268次閱讀

    NoSQL數(shù)據(jù)庫(kù)類型

    節(jié)點(diǎn)都是一個(gè)文檔。 在進(jìn)入不同的NoSQL數(shù)據(jù)庫(kù)之前,讓我們看看與關(guān)系數(shù)據(jù)庫(kù)之間的比較。傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)正在努力的走向規(guī)范化:確保每一個(gè)數(shù)據(jù)
    發(fā)表于 10-12 17:24 ?2次下載
    NoSQL<b class='flag-5'>數(shù)據(jù)庫(kù)</b>類型

    為什么要使用非關(guān)系數(shù)據(jù)庫(kù)

    著互聯(lián)網(wǎng)web2.0網(wǎng)站的興起,非關(guān)系型的數(shù)據(jù)庫(kù)現(xiàn)在成了一個(gè)極其熱門的新領(lǐng)域,非關(guān)系數(shù)據(jù)庫(kù)產(chǎn)品的發(fā)展非常迅速。而傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)在應(yīng)付web2.0網(wǎng)站,特
    發(fā)表于 09-25 17:38 ?10次下載
    為什么要使用非<b class='flag-5'>關(guān)系數(shù)據(jù)庫(kù)</b>

    數(shù)據(jù)庫(kù)系統(tǒng)原理與應(yīng)用教程之關(guān)系數(shù)據(jù)庫(kù)的詳細(xì)資料說明

    關(guān)系數(shù)據(jù)庫(kù)是目前應(yīng)用最為廣泛的數(shù)據(jù)庫(kù)系統(tǒng)。關(guān)系數(shù)據(jù)庫(kù)模型特點(diǎn)是:具有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),用戶接口比較簡(jiǎn)單,可用于并行式數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù)
    發(fā)表于 10-24 16:16 ?4次下載
    <b class='flag-5'>數(shù)據(jù)庫(kù)</b>系統(tǒng)原理與應(yīng)用教程之<b class='flag-5'>關(guān)系數(shù)據(jù)庫(kù)</b>的詳細(xì)資料說明

    數(shù)據(jù)庫(kù)原理的關(guān)系代數(shù)詳細(xì)講解

    關(guān)系代數(shù)與關(guān)系數(shù)據(jù)庫(kù)操作   關(guān)系代數(shù)是關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)查詢語言的理論基礎(chǔ)。
    發(fā)表于 10-31 11:53 ?5次下載

    數(shù)據(jù)庫(kù)和自建數(shù)據(jù)庫(kù)區(qū)別及應(yīng)用

    數(shù)據(jù)庫(kù)是指優(yōu)化和部署在云端的數(shù)據(jù)庫(kù),阿里云和騰訊云都提供云數(shù)據(jù)庫(kù),云數(shù)據(jù)庫(kù)和自己搭建的數(shù)據(jù)庫(kù)有什么區(qū)別
    的頭像 發(fā)表于 11-20 16:26 ?4820次閱讀
    云<b class='flag-5'>數(shù)據(jù)庫(kù)</b>和自建<b class='flag-5'>數(shù)據(jù)庫(kù)</b>的<b class='flag-5'>區(qū)別</b>及應(yīng)用

    向量數(shù)據(jù)庫(kù)是如何工作的?

    向量數(shù)據(jù)庫(kù)和 Embedding 是當(dāng)前 AI 領(lǐng)域的熱門話題。
    的頭像 發(fā)表于 06-18 11:06 ?1058次閱讀
    <b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫(kù)</b>是如何工作的?

    科技云報(bào)到:大模型時(shí)代下,向量數(shù)據(jù)庫(kù)的野望

    科技云報(bào)到:大模型時(shí)代下,向量數(shù)據(jù)庫(kù)的野望
    的頭像 發(fā)表于 10-14 17:18 ?455次閱讀

    數(shù)據(jù)庫(kù)是哪種數(shù)據(jù)庫(kù)類型?

    數(shù)據(jù)庫(kù)是一種部署在虛擬計(jì)算環(huán)境中的數(shù)據(jù)庫(kù),它融合了云計(jì)算的彈性和可擴(kuò)展性,為用戶提供高效、靈活的數(shù)據(jù)庫(kù)服務(wù)。云數(shù)據(jù)庫(kù)主要分為兩大類:關(guān)系
    的頭像 發(fā)表于 01-07 10:22 ?352次閱讀

    關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系區(qū)別

    關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)在多個(gè)方面存在顯著差異,主機(jī)推薦小編為您整理發(fā)布關(guān)系數(shù)據(jù)庫(kù)和非
    的頭像 發(fā)表于 01-10 09:58 ?466次閱讀