chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Feedly推薦系統(tǒng)背后使用的機器學習技術

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-25 10:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:Feedly官方博客介紹了Feedly推薦系統(tǒng)背后使用的機器學習技術。

web的最大優(yōu)勢之一是其開放性和分布式本質(zhì)。這也是一大挑戰(zhàn):數(shù)百萬站點,數(shù)千項主題,人們?nèi)绾螢g覽內(nèi)容并發(fā)現(xiàn)新的可信賴信息源?

Feedly對這一挑戰(zhàn)的解決方案是使用數(shù)據(jù)科學組織所有這些信息源,并幫助人們?yōu)g覽主題。

本文介紹了[Feedly新的發(fā)現(xiàn)體驗]背后的一些技術,以及我從這一項目中學習到的經(jīng)驗。

從用戶生成數(shù)據(jù)中學習主題

根據(jù)用戶加入新站點或博客時所屬的分類(數(shù)據(jù)經(jīng)過匿名化處理),可以自動創(chuàng)建新的英語主題分類。

所以,如果你是在“tech”(技術)下加入The Verge和Engadget的45000人之一,那么你幫助創(chuàng)建了“tech”主題。

不過,這樣的主題列表仍然存在一些問題,主要是重復主題和“垃圾主題”。

想要理解我是如何訓練模型識別主題的,可以想像一個矩陣或者表格,其中有關于主題和信息源的數(shù)據(jù)。

你注意到了上表第六行的“My favorites”(我的最愛)主題了沒有?這是一個極好的垃圾主題的例子,因為它不具有描述性。你可能也注意到了“tech”和“techonolgy”這一對重復主題。如果我們將矩陣擴展至10000+主題和100000+信息源,我們會看到很多這樣的垃圾主題和重復主題。

所以我們?nèi)绾螖[脫這些垃圾主題和重復主題呢?這正是數(shù)據(jù)清洗的價值所在。

在上表中,每行有一個數(shù)字數(shù)組,也稱為向量。所有數(shù)字同構的行意味著垃圾主題,而特定站點在行中顯示為峰值的是好主題。

一圖勝千言:

我們可以通過測量相應圖形的尖峰來檢測垃圾主題。從向量性質(zhì)的角度來說,我們可以,比方說,測量最大數(shù)字和非零值數(shù)字的比值。

類似地,下面的圖形顯示了重復主題:

我們同樣根據(jù)向量的性質(zhì)檢測這些重復主題。在我們的例子中,“Tech”向量的分量[50000, 30000, 5, 2]和“Technology”的[12000, 7500, 2, 0]在歸一化(將絕對數(shù)字轉(zhuǎn)換為百分比)后非常相似。我使用JS散度得出兩個向量的相似度。

一旦偵測出了相似向量,我們可以在系統(tǒng)中安全地合并兩者,并將搜索“technology”的用戶重定向至“tech”。

感謝使用Feedly的英語讀者的巨大社區(qū),我們得以將所有數(shù)據(jù)轉(zhuǎn)換為一個整潔、去重的包含超過2500良好主題的列表。

我們很高興地報告,我們的分類足夠深入,包含“真菌學”這樣的主題!

鏈接的強度與同屬兩個主題的信息源數(shù)量成正比

主題樹:創(chuàng)建層次結(jié)構

既然我們的信息源已經(jīng)有了豐富的主題標簽,下一個挑戰(zhàn)是引入連接相關主題的更好的組織系統(tǒng)。

有些主題是通用的(“tech”),而另一些則要專門一些(“iPad”)?!癷Pad”屬于“Apple”的子主題,“Apple”又是“Tech”的子主題,像這樣的主題層次結(jié)構的內(nèi)部表示,有助于計算推薦。

我們使用模式匹配創(chuàng)建這樣的層次結(jié)構。下圖顯示了三個主題(左側(cè))和與這些主題相關的信息源(右側(cè))的連接。線越粗,將信息源置于這一主題下的用戶就越多。

“Apple”連接“tech”主題信息源的一個子集,所以“Apple”是“tech”的子主題

上面的模式也確認了人們以大致相同的方式使用“tech”和“technology”?!皌echnology”的線要細一點,因為人們較少使用這一術語。不過這兩個主題是重復的。同時,“Apple”看起來是“tech”的子主題:它連接了更少的信息源,而且它的連接同時也和“tech”相關。

基于這些模式,我們可以構建所有主題和子主題的樹形結(jié)構。

現(xiàn)在,如果你訪問Feedly的Discover(發(fā)現(xiàn))頁面,你會找到一個特色主題列表。點擊任意主題即可開始瀏覽。相關主題有助于你進一步深入層次結(jié)構。

排列每個主題的推薦信息源

創(chuàng)建主題并組織為層次結(jié)構后,我們?nèi)匀恍枰獩Q定推薦哪些信息源,以什么順序推薦。我們想要根據(jù)以下三個標準進行優(yōu)化:

相關性 —— 用戶添加信息源至該主題與其他主題的比例

關注數(shù) —— 多少用戶連接了這一信息源

粘度 —— 質(zhì)量和關注的代理

前兩個標準很是直截了當。人們期望看到和他們?yōu)g覽的主題相關的流行網(wǎng)站,同時常常需要折衷這兩個測度。

第三個標準更加主觀。它應該反映網(wǎng)站的質(zhì)量,獨立于閱讀該站點的用戶絕對數(shù)量。事實上,我們相信,一些小眾站點可能讀者較少,但內(nèi)容更好。

“信息源之戰(zhàn)”試驗

為了計算粘度評分,我們在Feedly社區(qū)中運行了一項試驗。我們選擇了一些和“tech”主題相關的信息源,并讓用戶投票更喜歡哪些信息源。

我們在一周內(nèi)收集了25000張票,生成了這些站點的排名。我們尋找和用戶喜歡程度最相關的特征。

例如,在下表中,我們展示了信息源得分和閱讀該信息源的平均時間之間的關系(“read_time”,閱讀時間,相關性大致等于0.45)。相關性是正的,這意味著評分越高,人們花在該信息源上的時間大概就越長。這里例子中的其他特征同樣顯示了正相關性,因為它們都是好信息源的指標。我們的方法讓我們得以選出和投票結(jié)果最相關的特征。接著我們就可以加權組合這些特征,以稍微提升最好的那些信息源的排名。

感謝所有為“信息源之戰(zhàn)”試驗投票的人。在Discover頁面瀏覽特色主題,或者搜索你最喜歡的主題的時候,都用到了這次試驗的結(jié)果。

生成“你可能也喜歡”信息源和更多“相關主題”

相關主題不僅包括上面提到的子主題(取自層次結(jié)構),還包括基于item2vec協(xié)同過濾得到的主題。

我們同樣基于item2vec技術,根據(jù)你已經(jīng)關注的信息源,推薦“你可能也喜歡”(You Might Also Like)的信息源。

結(jié)語

十分感謝Feedly社區(qū)為發(fā)現(xiàn)項目所做的直接和間接貢獻。祝探索愉快!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:Feedly推薦系統(tǒng)背后的數(shù)據(jù)科學

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    基于機器學習的應用系統(tǒng)指紋識別技術研究

    摘要: 在信息安全測試領域,基于機器學習的應用系統(tǒng)深度指紋識別技術對應用系統(tǒng)進行漏洞檢測時,可快速獲取應用
    的頭像 發(fā)表于 11-03 11:50 ?2213次閱讀
    基于<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的應用<b class='flag-5'>系統(tǒng)</b>指紋識別<b class='flag-5'>技術</b>研究

    學習鴻蒙背后的價值?星河版開放如何學習?

    鴻蒙原生內(nèi)核。 實現(xiàn)了AI框架、大模型、設計系統(tǒng)、編程框架、編程語言、編譯器等全棧自研,有核心技術、全棧能力、底座和生態(tài),是真正的操作系統(tǒng),而非安卓套皮。關鍵是有了鴻蒙星河版本也就意味著國內(nèi)市場有了
    發(fā)表于 02-22 20:55

    如何系統(tǒng)性地學習工業(yè)機器技術?

    `如何系統(tǒng)性地學習工業(yè)機器技術?對于一個還沒入門的想學機器人的小白而言,想快速見到成效的的話,找一所對自己胃口的機器人培訓機構是很關鍵的,
    發(fā)表于 03-06 12:56

    【下載】《機器學習》+《機器學習實戰(zhàn)》

    創(chuàng)建能夠最好地捕捉數(shù)據(jù)預測能力的精確模型。3.將機器學習模型集成到企業(yè)系統(tǒng)、集群和云中,并且將模型輸出到實時嵌入式硬件。聽說,最近有一個深圳地區(qū)線下學習和交流的
    發(fā)表于 06-01 15:49

    射頻頻譜+機器學習=無線電技術新浪潮

    人工智能的發(fā)展浪潮風靡一時。隨著在數(shù)字化書寫、口語詞句、圖像、視頻流以及其他數(shù)字化內(nèi)容方面的訓練,機器學習已成為語音識別、自動駕駛汽車和其他以前僅能想象的能力的基礎。據(jù)DARPA微系統(tǒng)技術
    發(fā)表于 09-02 09:04

    基于深度學習技術的智能機器

    圖像分析軟件。其中硬件負責獲取特定條件下的理想圖像,軟件負責獲取圖像中的有用信息。基于機器學習的模式識別系統(tǒng)三、深度學習在圖像處理中的應用圖像處理
    發(fā)表于 05-31 09:36

    介紹機器學習的基礎內(nèi)容

    參考右邊的幫助文檔文章目錄嵌入式系統(tǒng)之硬件總復習前言一、pandas是什么?二、使用步驟1.引入庫2.讀入數(shù)據(jù)總結(jié)前言提示:這里可以添加本文要記錄的大概內(nèi)容:例如:隨著人工智能的不斷發(fā)展,機器學習這門
    發(fā)表于 12-16 06:27

    機器技術機器學習

    機器技術機器學習正成為嵌入式系統(tǒng)硬件和軟件供應商的下一個重大事件。嵌入式系統(tǒng)可以通過網(wǎng)絡連接
    發(fā)表于 12-20 06:03

    什么是TinyML?微型機器學習

    影響范圍,并在這一過程中開啟一個應用的新時代,我們必須找到方法,在更小、更資源受限的設備上促進機器學習的推理。這種追求導致了微型機器學習或 TinyML (TinyML 基金會的商標名
    發(fā)表于 04-12 10:20

    什么是機器學習? 機器學習基礎入門

    本文旨在為硬件和嵌入式工程師提供機器學習(ML)的背景,它是什么,它是如何工作的,它為什么重要,以及 TinyML 是如何適應的機器學習是一個始終存在并經(jīng)常被誤解的
    發(fā)表于 06-21 11:06

    周志華演講:很多AI應用背后關鍵支撐就是機器學習技術

    6月1日上午,2018中新人工智能高峰論壇在南京舉行。會上,南京大學計算機科學與技術系主任、人工智能學院院長、歐洲科學院外籍院士周志華發(fā)表了演講,闡述了他對于機器學習前沿思考。周志華表示,機器
    發(fā)表于 06-04 13:13 ?1800次閱讀

    電氣系統(tǒng)為什么要去采用機器學習技術

    機器學習技術在企業(yè)電氣系統(tǒng)中的工作和維護中發(fā)揮重要作用,人們需要了解采用機器學習的益處。
    發(fā)表于 12-18 08:56 ?1627次閱讀

    企業(yè)電氣系統(tǒng)為什么采用機器學習技術

    機器學習技術在企業(yè)電氣系統(tǒng)中的工作和維護中發(fā)揮重要作用,人們需要了解采用機器學習的益處。
    發(fā)表于 04-26 17:59 ?1076次閱讀

    機器學習可以分為哪幾類?機器學習技術有哪些?

    機器學習可以分為哪幾類?機器學習技術有哪些 機器學習
    的頭像 發(fā)表于 08-17 16:11 ?6947次閱讀

    機器學習技術是什么?機器學習技術在新型電力系統(tǒng)安全穩(wěn)定中的應用

    機器學習技術是什么?機器學習技術在新型電力系統(tǒng)安全穩(wěn)
    的頭像 發(fā)表于 08-17 16:30 ?1735次閱讀