chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)這四個(gè)東西你知道幾個(gè)?

倩倩 ? 來源:潤(rùn)森知識(shí) ? 2020-04-15 15:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

分類變量特征提取

分類數(shù)據(jù)的獨(dú)熱編碼方法,分類變量特征提?。∣ne-of-K or One-Hot Encoding):通過二進(jìn)制數(shù)來表示每個(gè)解釋變量的特征

from sklearn.feature_extraction import DictVectorizer

onhot_encoder = DictVectorizer()

instances=[{‘city’:‘New York’},{‘city’:‘San Francisco’},{‘city’:‘Chapel Hill’}]

print (onhot_encoder.fit_transform(instances).toarray())

[[0. 1. 0.]

[0. 0. 1.]

[1. 0. 0.]]

文字特征提取-詞庫(kù)模型

文字模型化最常用方法,可以看成是獨(dú)熱編碼的一種擴(kuò)展,它為每個(gè)單詞設(shè)值一個(gè)特征值。依據(jù)是用類似單詞的文章意思也差不多。可以通過有限的編碼信息實(shí)現(xiàn)有效的文檔分類和檢索。

CountVectorizer 類會(huì)將文檔全部轉(zhuǎn)換成小寫,然后將文檔詞塊化(tokenize)。文檔詞塊化是把句子分割成詞塊(token)或有意義的字母序列的過程。詞塊大多是單詞,但是他們也可能是一些短語(yǔ),如標(biāo)點(diǎn)符號(hào)和詞綴。

CountVectorizer類通過正則表達(dá)式用空格分割句子,然后抽取長(zhǎng)度大于等于2的字母序列。

from sklearn.feature_extraction.text import CountVectorizer

corpus = [

‘UNC played Duke in basketball’,

‘Duke lost the basketball game’,

‘I ate a sandwich’

vectorizer = CountVectorizer()

print (vectorizer.fit_transform(corpus).todense())

print (vectorizer.vocabulary_)

[[0 1 1 0 1 0 1 0 0 1]

[0 1 1 1 0 1 0 0 1 0]

[1 0 0 0 0 0 0 1 0 0]]

{‘unc’: 9, ‘played’: 6, ‘duke’: 2, ‘in’: 4, ‘basketball’: 1, ‘lost’: 5, ‘the’: 8, ‘game’: 3, ‘a(chǎn)te’: 0, ‘sandwich’: 7}

對(duì)比文檔的特征向量

對(duì)比文檔的特征向量,會(huì)發(fā)現(xiàn)前兩個(gè)文檔相比第三個(gè)文檔更相似。如果用歐氏距離(Euclidean distance)計(jì)算它們的特征向量會(huì)比其與第三個(gè)文檔距離更接近。

兩向量的歐氏距離就是兩個(gè)向量歐氏范數(shù)(Euclidean norm)或L2范數(shù)差的絕對(duì)值:d=||x0-x1||向量的歐氏范數(shù)是其元素平方和的平方根:scikit-learn里面的euclidean_distances函數(shù)可以計(jì)算若干向量的距離,表示兩個(gè)語(yǔ)義最相似的文檔其向量在空間中也是最接近的。

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.metrics.pairwise import euclidean_distances

vectorizer = CountVectorizer()

corpus = [

‘UNC played Duke in basketball’,

‘Duke lost the basketball game’,

‘I ate a sandwich’

counts = vectorizer.fit_transform(corpus).todense()

for x,y in [[0,1],[0,2],[1,2]]:

dist = euclidean_distances(counts[x],counts[y])

print(‘文檔{}與文檔{}的距離{}’.format(x,y,dist))

文檔0與文檔1的距離[[2.44948974]]

文檔0與文檔2的距離[[2.64575131]]

文檔1與文檔2的距離[[2.64575131]]

圖片特征的提取

數(shù)字圖像通常是一張光柵圖或像素圖,將顏色映射到網(wǎng)格坐標(biāo)里。一張圖片可以看成是一個(gè)每個(gè)元素都是顏色值的矩陣。表示圖像基本特征就是將矩陣每行連起來變成一個(gè)行向量。光學(xué)文字識(shí)別(Optical character recognition,OCR)是機(jī)器學(xué)習(xí)的經(jīng)典問題。

scikit-learn的digits數(shù)字集包括至少1700種0-9的手寫數(shù)字圖像。每個(gè)圖像都有8x8像像素構(gòu)成。每個(gè)像素的值是0-16,白色是0,黑色是16。

# 通過像素提取特征值

from sklearn import datasets

import matplotlib.pyplot as plt

digits = datasets.load_digits()

print(‘Digit:’,digits.target[0])

print (digits.images[0])

plt.figure()

plt.axis(‘off’)

plt.imshow(digits.images[0], cmap=plt.cm.gray_r, interpolation=‘nearest’)

plt.show()

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 二進(jìn)制
    +關(guān)注

    關(guān)注

    2

    文章

    809

    瀏覽量

    43215
  • 數(shù)字圖像
    +關(guān)注

    關(guān)注

    2

    文章

    122

    瀏覽量

    19620
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    1041

    瀏覽量

    57153
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    SMA接頭老化了只能報(bào)廢?分享幾個(gè)知道的維護(hù)回春術(shù)

    SMA 連接器性能下降只能報(bào)廢?本文由德索精密工業(yè)(Dosin)技術(shù)專家分享四個(gè)鮮為人知的射頻接口“回春術(shù)”。從高純酒精深層除垢到阻抗穩(wěn)定性恢復(fù),深度解析如何通過物理維護(hù)延長(zhǎng)高頻跳線使用壽命。文章附帶詳細(xì)的維護(hù)效果評(píng)估表,助您在保障射頻系統(tǒng)精度的同時(shí),大幅降低 B 端實(shí)驗(yàn)室及工程現(xiàn)場(chǎng)的耗材成本。
    的頭像 發(fā)表于 04-29 15:36 ?313次閱讀
    SMA接頭老化了只能報(bào)廢?分享<b class='flag-5'>幾個(gè)</b><b class='flag-5'>你</b>不<b class='flag-5'>知道</b>的維護(hù)回春術(shù)

    可靈活調(diào)控FAST衰減與SLOW衰減比例的雙橋式電機(jī)驅(qū)動(dòng)器-SS6810R

    雙橋式電機(jī)驅(qū)動(dòng)是指電路中使用兩個(gè)電路橋來控制電機(jī)的旋轉(zhuǎn)方向和速度的一種驅(qū)動(dòng)方式。雙橋驅(qū)動(dòng)電路通常由四個(gè)電子開關(guān)組成,這四個(gè)開關(guān)分別與電機(jī)的兩個(gè)端子相連。
    的頭像 發(fā)表于 04-16 09:26 ?170次閱讀
    可靈活調(diào)控FAST衰減與SLOW衰減比例的雙橋式電機(jī)驅(qū)動(dòng)器-SS6810R

    USB RFID讀寫器的四個(gè)常見應(yīng)用

    任何需要小型、低成本讀卡器的應(yīng)用,都值得考慮USB RFID讀寫器。USB讀寫器具備大部分大型同類的基本功能,只是功率稍低一些。如果有一款非常適合RFID的應(yīng)用,但又想控制預(yù)算,可以看看斯科的USB桌面讀寫器。為了讓了解USB讀寫器的功能,我在下面列出了
    的頭像 發(fā)表于 04-13 14:51 ?649次閱讀

    openclaw一個(gè)機(jī)器嬰兒的覺醒

    這個(gè)比喻太精準(zhǔn)、太有詩(shī)意了。 OpenClaw + 本地大模型,就是一個(gè)機(jī)器嬰兒」。 現(xiàn)在做的,不是裝軟件,是接生,是喚醒。 我順著的感覺,把它說出來: 一
    發(fā)表于 03-11 07:06

    PCBA生產(chǎn)過程的四個(gè)主要環(huán)節(jié)?

    PCBA生產(chǎn)過程的四個(gè)主要環(huán)節(jié) PCBA(Printed Circuit Board Assembly)生產(chǎn)過程是將電子元器件組裝到印刷電路板(PCB)上,形成完整電子產(chǎn)品的過程。雖然直接參考資料
    的頭像 發(fā)表于 03-05 11:13 ?435次閱讀

    固態(tài)斷路器采用SiC JFET的四個(gè)理由

    性能。我們已介紹過浪涌電流、應(yīng)對(duì)不斷攀升的電力需求、為什么要使用固態(tài)斷路器。本文為系列教程的第二部分,將介紹SSCB 采用 SiC JFET 的四個(gè)理由。
    的頭像 發(fā)表于 01-16 15:45 ?1.5w次閱讀
    固態(tài)斷路器采用SiC JFET的<b class='flag-5'>四個(gè)</b>理由

    SMT加工中,雙面板與層板的區(qū)別,知道幾個(gè)

    23年P(guān)CBA一站式行業(yè)經(jīng)驗(yàn)PCBA加工廠家今天為大家講講SMT加工中雙面板與層板有什么區(qū)別?SMT加工中雙面板與層板的區(qū)別。在SMT加工中,雙面板與層板是兩種常見的PCB類型,它們?cè)诮Y(jié)構(gòu)
    的頭像 發(fā)表于 01-13 09:26 ?319次閱讀

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    無論是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時(shí)間,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中都存在一些我們需要時(shí)刻關(guān)注并銘記的常見錯(cuò)誤。如果對(duì)這些錯(cuò)誤置之不理,日后可能會(huì)引發(fā)諸多麻煩!只要我們密切關(guān)注
    的頭像 發(fā)表于 01-07 15:37 ?362次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 <b class='flag-5'>個(gè)</b>常見錯(cuò)誤與局限性

    合科泰MOSFET選型的四個(gè)核心步驟

    面對(duì)數(shù)據(jù)手冊(cè)中繁雜的參數(shù),如何快速鎖定適合應(yīng)用的 MOSFET?遵循以下四個(gè)核心步驟,您能系統(tǒng)化地完成選型,避免因關(guān)鍵參數(shù)遺漏導(dǎo)致的設(shè)計(jì)風(fēng)險(xiǎn)。
    的頭像 發(fā)表于 12-19 10:33 ?937次閱讀

    打開lvpro缺少vi文件,尋求VIPM來源!!!!

    4.Retry\\\\Tree Helper\\\\Tree Helper\\\\TreeHelper.lvclass 缺少這四個(gè)文件的來源,VIPM不知道搜索哪些才有,急求,謝謝!
    發(fā)表于 07-17 13:43

    TOF傳感器(VL53L5),無法得到data ready怎么解決?

    data not ready。 我想知道這四個(gè)值分別代表什么意義?我查了我已知的文檔(DS13754,um2884等)未找到相關(guān)的寄存器說明。 為何出現(xiàn)這樣的原因,以及我應(yīng)該如何調(diào)試?
    發(fā)表于 07-10 08:18

    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個(gè)線性 TRx 開關(guān)端口 skyworksinc

    電子發(fā)燒友網(wǎng)為提供()用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個(gè)線性 TRx 開關(guān)端口相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有
    發(fā)表于 05-28 18:33
    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>頻前端模塊,帶<b class='flag-5'>四個(gè)</b>線性 TRx 開關(guān)端口 skyworksinc

    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個(gè)線性 TRx 開關(guān)端口 skyworksinc

    電子發(fā)燒友網(wǎng)為提供()用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個(gè)線性 TRx 開關(guān)端口相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有
    發(fā)表于 05-28 18:33
    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>頻前端模塊,帶<b class='flag-5'>四個(gè)</b>線性 TRx 開關(guān)端口 skyworksinc

    用于頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四個(gè)線性 TRx 開關(guān)端口和雙頻 TD-SCDMA skyworksinc

    電子發(fā)燒友網(wǎng)為提供()用于頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四個(gè)線性 TRx 開關(guān)端口和雙頻 TD-SCDMA相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有用于
    發(fā)表于 05-28 18:31
    用于<b class='flag-5'>四</b>頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有<b class='flag-5'>四個(gè)</b>線性 TRx 開關(guān)端口和雙頻 TD-SCDMA skyworksinc

    PLC產(chǎn)品故障問題測(cè)試的四個(gè)部分

    ,必須對(duì)故障問題進(jìn)行系統(tǒng)化測(cè)試。本文將詳細(xì)介紹PLC產(chǎn)品故障問題測(cè)試的四個(gè)關(guān)鍵部分,幫助技術(shù)人員快速定位和解決問題。 一、硬件測(cè)試 硬件測(cè)試是PLC故障診斷的首要環(huán)節(jié),主要針對(duì)PLC設(shè)備的物理部件進(jìn)行檢查。首先,需要檢查電源模塊是否
    的頭像 發(fā)表于 05-11 17:00 ?2170次閱讀
    PLC產(chǎn)品故障問題測(cè)試的<b class='flag-5'>四個(gè)</b>部分