字符串的相似性比較應(yīng)用場(chǎng)合很多,像拼寫糾錯(cuò)、文本去重、上下文相似性等。
評(píng)價(jià)字符串相似度最常見(jiàn)的辦法就是:把一個(gè)字符串通過(guò)插入、刪除或替換這樣的編輯操作,變成另外一個(gè)字符串,所需要的最少編輯次數(shù),這種就是編輯距離(edit distance)度量方法,也稱為L(zhǎng)evenshtein距離。海明距離是編輯距離的一種特殊情況,只計(jì)算等長(zhǎng)情況下替換操作的編輯次數(shù),只能應(yīng)用于兩個(gè)等長(zhǎng)字符串間的距離度量。
其他常用的度量方法還有 Jaccard distance、J-W距離(Jaro–Winkler distance)、余弦相似性(cosine similarity)、歐氏距離(Euclidean distance)等。
python-Levenshtein 使用
使用 pip install python-Levenshtein 指令安裝 Levenshtein
1. difflib
2. hamming距離,str1和str2長(zhǎng)度必須一致,描述兩個(gè)等長(zhǎng)字串之間對(duì)應(yīng)位置上不同字符的個(gè)數(shù)
3. 編輯距離,描述由一個(gè)字串轉(zhuǎn)化成另一個(gè)字串最少的操作次數(shù),在其中的操作包括 插入、刪除、替換
4.計(jì)算萊文斯坦比
5.計(jì)算jaro距離
6. Jaro–Winkler距離
輸出:
-
字符串
+關(guān)注
關(guān)注
1文章
594瀏覽量
22896 -
python
+關(guān)注
關(guān)注
56文章
4848瀏覽量
88936
發(fā)布評(píng)論請(qǐng)先 登錄
labview如何生成一個(gè)帶字符串返回的dll
在Python中字符串逆序有幾種方式,代碼是什么
harmony-utils之StrUtil,字符串工具類
STM32C031C6使用的是UART2通訊,通過(guò)printf()函數(shù)發(fā)送字符串時(shí),漢字錯(cuò)碼怎么解決?
帶你探索:運(yùn)放芯片的六種實(shí)用端接策略

請(qǐng)問(wèn)如何用Verilog實(shí)現(xiàn)將ascaii碼數(shù)值字符串轉(zhuǎn)換成定點(diǎn)數(shù)?
字符串在數(shù)據(jù)庫(kù)中的存儲(chǔ)方式
字符串在編程中的應(yīng)用實(shí)例
字符串與字符數(shù)組的區(qū)別
字符串反轉(zhuǎn)的實(shí)現(xiàn)方式
字符串處理方法 字符串轉(zhuǎn)數(shù)字的實(shí)現(xiàn)
深度排查恩智浦MCX N系列支持的六種電源模式

評(píng)論