boss給了個做分詞的任務(wù),最開始想用的是結(jié)巴分詞and正則表達式。后來發(fā)現(xiàn)結(jié)果并不好,需要一遍一遍篩選【第一個標準篩選出80%的數(shù)據(jù),然后制定第二個標準,繼續(xù)篩選,然后制定第三個標準篩選,等等等等】
自己用了一下結(jié)巴分詞,感覺對于人名,地名,機構(gòu)名,只是泛泛地使用了一下。在實際分開的時候,并不能很好地分開機構(gòu)名稱。于是轉(zhuǎn)而使用hanlp分詞
但是hanlp分詞的缺點是只有在java上可以用,但是java一向又是我的弱項。所以在這里寫一篇博客從頭至尾敘述一下怎么樣使用hanlp
而且,小胖胖把我的電腦鎖在北師圖書館柜子里了。我工作沒有電腦可用,于是使用小胖的電腦,也就是說,所有的基本變量都需要我自己來配來下,因此也相當于是從一張白紙到使用hanlp的過程。
第一步:下載一個jdk
到openjdk官網(wǎng)去下一個,直接安裝即可。
安裝過后,要配置三個環(huán)境變量,分別是
1.JAVA_HOME:C:Program FilesJavajdk1.8.0_73
2.CLASSPATH: 就是這個jdk打開之后里面的那個lib的目錄
3.PATH:就是jdk后面的bin目錄
配置完成之后,在Windows底下的cmd上面,輸入java -version看看有沒有反應(yīng)即可判斷是否正確安裝jdk
【我這里出現(xiàn)了個小問題,在胖胖的電腦里,不知道她之前安裝過什么東西,自帶了一個jre1.6 然而我安裝的是jre1.8 在cmd里面報錯,說找不到j(luò)re1.6 后來我看了網(wǎng)上的說法,說是也許你別的軟件也會下載java環(huán)境,所以你可能有許多不同的包,系統(tǒng)在尋找路徑的時候,默認會根據(jù)你上面配置的環(huán)境變量里面找。因此,需要把咱們最新下的那個環(huán)境變量放在一大堆環(huán)境變量的最前面,嘗試即可。】
下載了jdk安裝成功之后,第二步,下載eclipse
到官網(wǎng)去找,記住,x86是32位,x64是64位,下載之后設(shè)定project的位置【比如我設(shè)在了D盤的根目錄,結(jié)果發(fā)現(xiàn)不太好,但是已經(jīng)改不了了。。教訓】
安裝成功之后,第三步,去下載hanlp的各種東西
方法1.maven方法,下載一個0配置即可?!镜俏也粫鎯骸?/p>
方法2:先下載hanlp-1.2.8.jar這個jar包
http://hanlp.linrunsoft.com/services.html
再下載data.zip這個數(shù)據(jù)包,可以選擇,選擇下載標準數(shù)據(jù)or迷你數(shù)據(jù)or全部數(shù)據(jù)。大小不同。我下的是標準版的。40M
再下載hanlp.properties這個是一個以properties結(jié)尾的一個文件,我之前從來沒見過,不過可以用txt打開。
第四步:把下載的這些東西導入到eclipse里面去。構(gòu)建路徑
1.把jar包導入到eclipse的lib目錄下
http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html
2.自己在src里面創(chuàng)建一個包,在包里面創(chuàng)建一個類。包會在我設(shè)置的根目錄D:/下面,類名稱首字母必須大寫?【貌似不大寫的話,會被否決】
3.把data包解壓,然后放在一個自己喜歡的路徑【我的路徑是D://py/】然后,在hanlp.properties這個文件里,把root修改為data存放的上一級目錄。
4.把hanlp.properties拖動到src這個目錄下
然后試驗了一個demo測試,發(fā)現(xiàn)報錯,然后點擊import import com.hankcs.hanlp.HanLP;
然后run了一下程序,
package test0320;
?
import com.hankcs.hanlp.HanLP;
?
public class TestHanlp {
?
public static void main(String[] args) {
System.out.println(HanLP.segment("你好,歡迎使用HanLP!"));
?
}
?
}
依然報錯,發(fā)現(xiàn)是沒有把properties那個文件導入到bin目錄下,再次打開test0320,在那個bin目錄下復(fù)制properties文件
之后運行,成功了
文章來源于tianbwin2995的博客
評論