chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

字符串匹配算法

算法與數(shù)據(jù)結構 ? 來源:算法與數(shù)據(jù)結構 ? 作者:算法與數(shù)據(jù)結構 ? 2021-01-04 13:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

7d160a46-4e4f-11eb-8b86-12bb97331649.png

為保證代碼嚴謹性,文中所有代碼均在 leetcode 刷題網站 AC ,大家可以放心食用。

皇上生辰之際,舉國同慶,袁記菜館作為天下第一飯店,所以被選為這次慶典的菜品供應方,這次慶典對于袁記菜館是一項前所未有的挑戰(zhàn),畢竟是第一次給皇上慶祝生辰,稍有不慎就是掉腦袋的大罪,整個袁記菜館內都在緊張的布置著。此時突然有一個店小二慌慌張張跑到袁廚面前匯報,到底發(fā)生了什么事,讓店小二如此慌張呢?

袁記菜館內

店小二:不好了不好了,掌柜的,出大事了。

袁廚:發(fā)生什么事了,慢慢說,如此慌張,成何體統(tǒng)。(開店開久了,架子出來了哈)

店小二:皇上按照咱們菜單點了 666 道菜,但是咱們做西湖醋魚的師傅請假回家結婚了,不知道皇上有沒有點這道菜,如果點了這道菜,咱們做不出來,那咱們店可就完了啊。

(袁廚聽了之后,嚇得一屁股坐地上了,緩了半天說道)

袁廚:別說那么多了,快給我找找皇上點的菜里面,有沒有這道菜!

找了很久,并且核對了很多遍,最后確認皇上沒有點這道菜。菜館內的人都松了一口氣

通過上面的一個例子,讓我們簡單了解了字符串匹配,下面我們一起來詳細了解一下吧。

字符串匹配:設 S 和 T 是給定的兩個串,在主串 S 中找到模式串 T 的過程稱為字符串匹配,如果在主串 S 中找到模式串 T ,則稱匹配成功,函數(shù)返回 T 在 S 中首次出現(xiàn)的位置,否則匹配不成功,返回 -1。

例:

7d571252-4e4f-11eb-8b86-12bb97331649.png

在上圖中,我們試圖找到模式串 T = baab,在主串 S = abcabaabcabac中第一次出現(xiàn)的位置,即為紅色陰影部分, T 第一次在 S 中出現(xiàn)的位置下標為 4 ( 字符串的首位下標是 0 ),所以返回 4。如果模式串 T 沒有在主串 S 中出現(xiàn),則返回 -1。

解決上面問題的算法我們稱之為字符串匹配算法,今天我們來介紹三種字符串匹配算法,大家記得打卡呀,說不準面試的時候就問到啦。

BF算法(Brute Force)

這個算法很容易理解,就是我們將模式串和主串進行比較,一致時則繼續(xù)比較下一字符,直到比較完整個模式串。不一致時則將模式串后移一位,重新從模式串的首位開始對比,重復剛才的步驟下面我們看下這個方法的動圖解析,看完肯定一下就能搞懂啦。

通過上面的代碼是不是一下就將這個算法搞懂啦,下面我們用這個算法來解決下面這個經典題目吧。

leetcdoe 28. 實現(xiàn) strStr()

題目描述

給定一個 haystack 字符串和一個 needle 字符串,在 haystack 字符串中找出 needle 字符串出現(xiàn)的第一個位置 (從0開始)。如果不存在,則返回 -1。

示例 1:

輸入: haystack = "hello", needle = "ll" 輸出: 2

示例 2:

輸入: haystack = "aaaaa", needle = "bba" 輸出: -1

題目解析

其實這個題目很容易理解,但是我們需要注意的是一下幾點,比如我們的模式串為 0 時,應該返回什么,我們的模式串長度大于主串長度時,應該返回什么,也是我們需要注意的地方。下面我們來看一下題目代碼吧。

題目代碼

7d794caa-4e4f-11eb-8b86-12bb97331649.png

我們看一下BF算法的另一種算法(顯示回退),其實原理一樣,就是對代碼進行了一下修改,只要看完咱們的動圖,這個也能夠一下就能看懂,大家可以結合下面代碼中的注釋和動圖進行理解。

7dfddb28-4e4f-11eb-8b86-12bb97331649.png

BM算法(Boyer-Moore)

我們剛才說過了 BF 算法,但是 BF 算法是有缺陷的,比如我們下面這種情況

7e87e386-4e4f-11eb-8b86-12bb97331649.png

如上圖所示,如果我們利用 BF 算法,遇到不匹配字符時,每次右移一位模式串,再重新從頭進行匹配,我們觀察一下,我們的模式串 abcdex 中每個字符都不一樣,但是我們第一次進行字符串匹配時,abcde 都匹配成功,到 x 時失敗,又因為模式串每位都不相同,所以我們不需要再每次右移一位,再重新比較,我們可以直接跳過某些步驟。如下圖

7ea77764-4e4f-11eb-8b86-12bb97331649.png

我們可以跳過其中某些步驟,直接到下面這個步驟。那我們是依據(jù)什么原則呢?

7ecf929e-4e4f-11eb-8b86-12bb97331649.png

壞字符規(guī)則

我們之前的 BF 算法是從前往后進行比較 ,BM 算法是從后往前進行比較,我們來看一下具體過程,我們還是利用上面的例子。

7f148462-4e4f-11eb-8b86-12bb97331649.png

BM 算法是從后往前進行比較,此時我們發(fā)現(xiàn)比較的第一個字符就不匹配,我們將主串這個字符稱之為壞字符,也就是 f ,我們發(fā)現(xiàn)壞字符之后,模式串 T 中查找是否含有該字符 f,我們發(fā)現(xiàn)并不存在 f,此時我們只需將模式串右移到壞字符的后面一位即可。如下圖

7f4a1744-4e4f-11eb-8b86-12bb97331649.png

那我們在模式串中找到壞字符該怎么辦呢?見下圖

7f7206e6-4e4f-11eb-8b86-12bb97331649.png

此時我們的壞字符為 f , 我們在模式串中,查找發(fā)現(xiàn)含有壞字符 f ,我們則需要移動模式串 T ,將模式串中的 f 和壞字符對齊。見下圖。

7faf137e-4e4f-11eb-8b86-12bb97331649.png

然后我們繼續(xù)從右往左進行比較,發(fā)現(xiàn) d 為壞字符,則需要將模式串中的 d 和壞字符對齊。

7fe45368-4e4f-11eb-8b86-12bb97331649.png

8036553c-4e4f-11eb-8b86-12bb97331649.png

那么我們在來思考一下這種情況,那就是模式串中含有多個壞字符怎么辦呢?

8062d788-4e4f-11eb-8b86-12bb97331649.png

那么我們?yōu)槭裁匆屪羁坑业膶嘏c壞字符匹配呢?如果上面的例子我們沒有按照這條規(guī)則看下會產生什么問題。

808d0d8c-4e4f-11eb-8b86-12bb97331649.png

如果沒有按照我們上述規(guī)則,則會漏掉我們的真正匹配。我們的主串中是含有 babac的,但是卻沒有匹配成功,所以應該遵守最靠右的對應字符與壞字符相對的規(guī)則。

我們上面一共介紹了三種移動情況,分別是下方的模式串中沒有發(fā)現(xiàn)與壞字符對應的字符,發(fā)現(xiàn)一個對應字符,發(fā)現(xiàn)兩個。這三種情況我們分別移動不同的位數(shù),那我們是根據(jù)依據(jù)什么來決定移動位數(shù)的呢?下面我們給圖中的字符加上下標。見下圖

80dcdab0-4e4f-11eb-8b86-12bb97331649.png

下面我們來考慮一下這種情況。

8132f7b0-4e4f-11eb-8b86-12bb97331649.png

此時這種情況肯定是不行的,不往右移動,甚至還有可能左移,那么我們有沒有什么辦法解決這個問題呢?繼續(xù)往下看吧。

好后綴規(guī)則

好后綴其實也很容易理解,我們之前說過 BM 算法是從右往左進行比較,下面我們來看下面這個例子。

81564274-4e4f-11eb-8b86-12bb97331649.png

這里如果我們按照壞字符進行移動是不合理的,這時我們可以使用好后綴規(guī)則,那么什么是好后綴呢?

BM 算法是從右往左進行比較,發(fā)現(xiàn)壞字符的時候此時 cac 已經匹配成功,在紅色陰影處發(fā)現(xiàn)壞字符。此時已經匹配成功的 cac 則為我們的好后綴,此時我們拿它在模式串中查找,如果找到了另一個和好后綴相匹配的串,那我們就將另一個和好后綴相匹配的串 ,滑到和好后綴對齊的位置。

是不是感覺有點拗口,沒關系,我們看下圖,紅色代表壞字符,綠色代表好后綴

8176be3c-4e4f-11eb-8b86-12bb97331649.png

81b5eada-4e4f-11eb-8b86-12bb97331649.png

上面那種情況搞懂了,但是我們思考一下下面這種情況

81e08c2c-4e4f-11eb-8b86-12bb97331649.png

上面我們說到了,如果在模式串的頭部沒有發(fā)現(xiàn)好后綴,發(fā)現(xiàn)好后綴的子串也可以。但是為什么要強調這個頭部呢?

我們下面來看一下這種情況

822cbe80-4e4f-11eb-8b86-12bb97331649.png

但是當我們在頭部發(fā)現(xiàn)好后綴的子串時,是什么情況呢?

8272bc64-4e4f-11eb-8b86-12bb97331649.png

下面我們通過動圖來看一下某一例子的具體的執(zhí)行過程

說到這里,壞字符和好后綴規(guī)則就算說完了,壞字符很容易理解,我們對好后綴總結一下

1.如果模式串含有好后綴,無論是中間還是頭部可以按照規(guī)則進行移動。如果好后綴在模式串中出現(xiàn)多次,則以最右側的好后綴為基準。

2.如果模式串頭部含有好后綴子串則可以按照規(guī)則進行移動,中間部分含有好后綴子串則不可以。

3.如果在模式串尾部就出現(xiàn)不匹配的情況,即不存在好后綴時,則根據(jù)壞字符進行移動,這里有挺多文章沒有提到,是個需要特別注意的地方,我是在這個論文里找到答案的,感興趣的同學可以看下。

Boyer R S,Moore J S. A fast string searching algorithm[J]. Communications of the ACM,1977,10:762-772.

之前我們剛開始說壞字符的時候,是不是有可能會出現(xiàn)負值的情況,即往左移動的情況,所以我們?yōu)榱私鉀Q這個問題,我們可以分別計算好后綴和壞字符往后滑動的位數(shù)(好后綴存在時),然后取兩個數(shù)中最大的,作為模式串往后滑動的位數(shù)。

829d7fbc-4e4f-11eb-8b86-12bb97331649.png

這破圖畫起來是真費勁啊。下面我們來看一下算法代碼,代碼有點長,我都標上了注釋也在網站上 AC 了,如果各位感興趣可以看一下,不感興趣的話,理解壞字符和好后綴規(guī)則即可。可以直接跳到 KMP 部分

82fd252a-4e4f-11eb-8b86-12bb97331649.png

我們來理解一下我們代碼中用到的兩個數(shù)組,因為兩個規(guī)則的移動位數(shù),只與模式串有關,與主串無關,所以我們可以提前求出每種情況的移動情況,保存到數(shù)組中。

833e327c-4e4f-11eb-8b86-12bb97331649.png

KMP算法(Knuth-Morris-Pratt)

我們剛才講了 BM 算法,雖然不是特別容易理解,但是如果你用心看的話肯定可以看懂的,我們再來看一個新的算法,這個算法是考研時必考的算法。實際上 BM 和 KMP 算法的本質是一樣的,你理解了 BM 再來理解 KMP 那就是分分鐘的事啦。

我們先來看一個實例

注:為了讓讀者更容易理解,我們將指針移動改成了模式串移動,兩者相對與主串的移動是一致的,重新比較時都是從指針位置繼續(xù)比較。

通過上面的實例是不是很快就能理解 KMP 算法的思想了,我們繼續(xù)往下看。

在上面的例子中我們提到了一個名詞,最長公共前后綴,這個是什么意思呢?下面我們通過一個較簡單的例子進行描述。

838ef09a-4e4f-11eb-8b86-12bb97331649.png

此時我們在紅色陰影處匹配失敗,綠色為匹配成功部分,則我們觀察匹配成功的部分。

我們來看一下匹配成功部分的所有前后綴

840426c6-4e4f-11eb-8b86-12bb97331649.png

我們的最長公共前后綴如下圖,則我們需要這樣移動

847388b8-4e4f-11eb-8b86-12bb97331649.png

好啦,看完上面的圖,KMP的核心原理已經基本搞定了,但是我們現(xiàn)在的問題是,我們應該怎么才能知道他的最長公共前后綴的長度是多少呢?怎么知道移動多少位呢?

剛才我們在 BM 中說到,我們移動位數(shù)跟主串無關,只跟模式串有關,跟我們的 bc,suffix,prefix 數(shù)組的值有關,我們通過這些數(shù)組就可以知道我們每次移動多少位啦,其實 KMP 也有一個數(shù)組,這個數(shù)組叫做next 數(shù)組,那么這個next 數(shù)組存的是什么呢?

next 數(shù)組存的咱們最長公共前后綴中,前綴的結尾字符下標。是不是感覺有點別扭,我們通過一個例子進行說明。

84c6e7e2-4e4f-11eb-8b86-12bb97331649.png

我們知道 next 數(shù)組之后,我們的 KMP 算法實現(xiàn)起來就很容易啦,另外我們看一下 next 數(shù)組到底是干什么用的。

84edab66-4e4f-11eb-8b86-12bb97331649.png

855d1b86-4e4f-11eb-8b86-12bb97331649.png

剩下的就不用說啦,完全一致啦,咱們將上面這個例子,翻譯成和咱們開頭對應的動畫大家看一下。

下面我們看一下代碼,標有詳細注釋,大家認真看呀。

注:很多教科書的 next 數(shù)組表示方式不一致,理解即可

8589ee9a-4e4f-11eb-8b86-12bb97331649.png

責任編輯:xj

原文標題:字符串匹配算法詳解

文章出處:【微信公眾號:算法與數(shù)據(jù)結構】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4759

    瀏覽量

    97112
  • 字符串
    +關注

    關注

    1

    文章

    594

    瀏覽量

    23029

原文標題:字符串匹配算法詳解

文章出處:【微信號:TheAlgorithm,微信公眾號:算法與數(shù)據(jù)結構】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    C語言的常見算法

    = 2; i * i <= n; i++) { if (n % i == 0) { return 0; } } return 1; } ``` ## 5. 字符串算法
    發(fā)表于 11-24 08:29

    MD5信息摘要算法實現(xiàn)一(基于蜂鳥E203協(xié)處理器)

    1、 MD5算法輸入處理 MD5算法的輸入字符串消息轉換為二進制長度范圍應在0比特 到(2^64-1)比特之間,因為二進制輸入的最后64比特是用來存儲輸入長度。而在MD5
    發(fā)表于 10-30 07:18

    非對稱密鑰生成和轉換規(guī)格詳解

    當前章節(jié)將說明系統(tǒng)目前支持的算法及其對應的規(guī)格。密鑰生成有兩種指定規(guī)格的方式,分別是: 字符串參數(shù):以字符串的形式描述開發(fā)者需要生成的密鑰規(guī)格。 密鑰參數(shù):使用密鑰的詳細密碼學信息,構造密鑰對象
    發(fā)表于 09-01 07:50

    LM3466 多 LED 電流平衡器技術手冊

    到電源的數(shù)或每個 LED 的正向電壓 字符串。 如果任何 LED 燈在運行過程中打開,LM3466 會自動平衡通過所有剩余活動 LED 燈的電源電流。 如 因此,即使一些 LED
    的頭像 發(fā)表于 08-29 14:27 ?833次閱讀
    LM3466 多<b class='flag-5'>串</b> LED 電流平衡器技術手冊

    labview如何生成一個帶字符串返回的dll

    labview如何生成一個dll,如下圖,要求一個輸入,類型是字符串,返回類型也是字符串
    發(fā)表于 08-28 23:20

    在Python中字符串逆序有幾種方式,代碼是什么

    對于一個給定的字符串,逆序輸出,這個任務對于python來說是一種很簡單的操作,畢竟強大的列表和字符串處理的一些列函數(shù)足以應付這些問題 了,今天總結了一下python中對于字符串的逆序輸出的幾種常用
    的頭像 發(fā)表于 08-28 14:44 ?756次閱讀

    harmony-utils之StrUtil,字符串工具類

    harmony-utils之StrUtil,字符串工具類 harmony-utils 簡介與說明 [harmony-utils] 一款功能豐富且極易上手的HarmonyOS工具庫,借助眾多實用工具類
    的頭像 發(fā)表于 07-03 11:32 ?359次閱讀

    STM32C031C6使用的是UART2通訊,通過printf()函數(shù)發(fā)送字符串時,漢字錯碼怎么解決?

    使用的是UART2通訊,通過printf()函數(shù)發(fā)送字符串時,漢字錯碼(見下圖),應該是KEIL哪里沒有設置好的問題。 啟用了UART2的中斷接收,可以接收到串口調試助手的數(shù)據(jù),但是緩存區(qū)的指針沒有歸零,下次接收時緩存區(qū)中的內容接續(xù)(如下圖所示),不知道用什么命令來清除緩存區(qū)(即讓指針歸零)。
    發(fā)表于 03-07 12:30

    請問如何用Verilog實現(xiàn)將ascaii碼數(shù)值字符串轉換成定點數(shù)?

    我需要接收一個ascaii碼字符串,內容是12位有效數(shù)字的數(shù)值,帶小數(shù)。我不知道怎么把小數(shù)部分轉換成定點數(shù)。
    發(fā)表于 01-23 21:57

    字符串在數(shù)據(jù)庫中的存儲方式

    數(shù)據(jù)庫是現(xiàn)代信息技術中存儲和管理數(shù)據(jù)的核心組件。字符串作為最常見的數(shù)據(jù)類型之一,在數(shù)據(jù)庫中的存儲方式對其性能和可擴展性有著重要影響。 數(shù)據(jù)類型 固定長度字符串 :如CHAR類型,它為每個字符串分配
    的頭像 發(fā)表于 01-07 15:41 ?1240次閱讀

    字符串在編程中的應用實例

    字符串在編程中有著廣泛的應用,它們被用于表示文本數(shù)據(jù)、處理用戶輸入、構建動態(tài)內容等。以下是一些字符串在編程中的應用實例: 1. 用戶輸入與輸出 用戶輸入 :程序通常需要從用戶那里獲取輸入,這些輸入通
    的頭像 發(fā)表于 01-07 15:33 ?1105次閱讀

    字符串字符數(shù)組的區(qū)別

    在編程語言中,字符串字符數(shù)組是兩種基本的數(shù)據(jù)結構,它們都用于存儲和處理文本數(shù)據(jù)。盡管它們在功能上有一定的重疊,但在內部表示、操作方式和使用場景上存在顯著差異。 1. 內部表示 字符串 字符串
    的頭像 發(fā)表于 01-07 15:29 ?1663次閱讀

    字符串反轉的實現(xiàn)方式

    在編程中,字符串反轉是一個基礎而重要的操作,它涉及到將一個字符串中的字符順序顛倒過來。這個操作在多種編程語言中都有不同的實現(xiàn)方式,本文將探討幾種常見的字符串反轉方法。 1. 遞歸方法
    的頭像 發(fā)表于 01-07 15:27 ?1233次閱讀

    字符串處理方法 字符串轉數(shù)字的實現(xiàn)

    在編程中,將字符串轉換為數(shù)字是一個常見的需求。不同的編程語言有不同的方法來實現(xiàn)這一功能。以下是一些常見編程語言中的字符串轉數(shù)字的實現(xiàn)方法: Python 在Python中,可以使用內置的 int
    的頭像 發(fā)表于 01-07 15:26 ?1382次閱讀

    Linux grep命令詳解

    Linux grep命令是一種非常常用的文本搜索工具,它可以在給定的文件中搜索匹配字符串,并輸出匹配的行。grep是全稱“global search regular expression print”,可以識別正則表達式,并使
    的頭像 發(fā)表于 12-25 09:39 ?1766次閱讀