果冻传媒国产潘甜甜七夕,国产无限免费观看黄网站,深夜福利资源网站

本次分享將主要介紹今日頭條推薦系統(tǒng)概覽以及內(nèi)容分析、用戶標簽、評估分析，內(nèi)容安全等原理。

一、系統(tǒng)概覽推薦系統(tǒng)，如果用形式化的方式去描述實際上是擬合一個用戶對內(nèi)容滿意度的函數(shù)，這個函數(shù)需要輸入三個維度的變量。

第一個維度是內(nèi)容。頭條現(xiàn)在已經(jīng)是一個綜合內(nèi)容平臺，圖文、視頻、UGC小視頻、問答、微頭條，每種內(nèi)容有很多自己的特征，需要考慮怎樣提取不同內(nèi)容類型的特征做好推薦。第二個維度是用戶特征。包括各種興趣標簽，職業(yè)、年齡、性別等，還有很多模型刻劃出的隱式用戶興趣等。第三個維度是環(huán)境特征。這是移動互聯(lián)網(wǎng)時代推薦的特點，用戶隨時隨地移動，在工作場合、通勤、旅游等不同的場景，信息偏好有所偏移。結(jié)合三方面的維度，模型會給出一個預(yù)估，即推測推薦內(nèi)容在這一場景下對這一用戶是否合適。這里還有一個問題，如何引入無法直接衡量的目標？

推薦模型中，點擊率、閱讀時間、點贊、評論、轉(zhuǎn)發(fā)包括點贊都是可以量化的目標，能夠用模型直接擬合做預(yù)估，看線上提升情況可以知道做的好不好。但一個大體量的推薦系統(tǒng)，服務(wù)用戶眾多，不能完全由指標評估，引入數(shù)據(jù)指標以外的要素也很重要。比如廣告和特型內(nèi)容頻控。像問答卡片就是比較特殊的內(nèi)容形式，其推薦的目標不完全是讓用戶瀏覽，還要考慮吸引用戶回答為社區(qū)貢獻內(nèi)容。這些內(nèi)容和普通內(nèi)容如何混排，怎樣控制頻控都需要考慮。此外，平臺出于內(nèi)容生態(tài)和社會責任的考量，像低俗內(nèi)容的打壓，標題黨、低質(zhì)內(nèi)容的打壓，重要新聞的置頂、加權(quán)、強插，低級別賬號內(nèi)容降權(quán)都是算法本身無法完成，需要進一步對內(nèi)容進行干預(yù)。下面我將簡單介紹在上述算法目標的基礎(chǔ)上如何對其實現(xiàn)。

前面提到的公式y(tǒng) = F(Xi ,Xu ,Xc)，是一個很經(jīng)典的監(jiān)督學習問題。可實現(xiàn)的方法有很多，比如傳統(tǒng)的協(xié)同過濾模型，監(jiān)督學習算法Logistic Regression模型，基于深度學習的模型，F(xiàn)actorization Machine和GBDT等。一個優(yōu)秀的工業(yè)級推薦系統(tǒng)需要非常靈活的算法實驗平臺，可以支持多種算法組合，包括模型結(jié)構(gòu)調(diào)整。因為很難有一套通用的模型架構(gòu)適用于所有的推薦場景。現(xiàn)在很流行將LR和DNN結(jié)合，前幾年Facebook也將LR和GBDT算法做結(jié)合。今日頭條旗下幾款產(chǎn)品都在沿用同一套強大的算法推薦系統(tǒng)，但根據(jù)業(yè)務(wù)場景不同，模型架構(gòu)會有所調(diào)整。

模型之后再看一下典型的推薦特征，主要有四類特征會對推薦起到比較重要的作用。第一類是相關(guān)性特征，就是評估內(nèi)容的屬性和與用戶是否匹配。顯性的匹配包括關(guān)鍵詞匹配、分類匹配、來源匹配、主題匹配等。像FM模型中也有一些隱性匹配，從用戶向量與內(nèi)容向量的距離可以得出。第二類是環(huán)境特征，包括地理位置、時間。這些既是bias特征，也能以此構(gòu)建一些匹配特征。第三類是熱度特征。包括全局熱度、分類熱度，主題熱度，以及關(guān)鍵詞熱度等。內(nèi)容熱度信息在大的推薦系統(tǒng)特別在用戶冷啟動的時候非常有效。第四類是協(xié)同特征，它可以在部分程度上幫助解決所謂算法越推越窄的問題。協(xié)同特征并非考慮用戶已有歷史。而是通過用戶行為分析不同用戶間相似性，比如點擊相似、興趣分類相似、主題相似、興趣詞相似，甚至向量相似，從而擴展模型的探索能力。

模型的訓練上，頭條系大部分推薦產(chǎn)品采用實時訓練。實時訓練省資源并且反饋快，這對信息流產(chǎn)品非常重要。用戶需要行為信息可以被模型快速捕捉并反饋至下一刷的推薦效果。我們線上目前基于storm集群實時處理樣本數(shù)據(jù)，包括點擊、展現(xiàn)、收藏、分享等動作類型。模型參數(shù)服務(wù)器是內(nèi)部開發(fā)的一套高性能的系統(tǒng)，因為頭條數(shù)據(jù)規(guī)模增長太快，類似的開源系統(tǒng)穩(wěn)定性和性能無法滿足，而我們自研的系統(tǒng)底層做了很多針對性的優(yōu)化，提供了完善運維工具，更適配現(xiàn)有的業(yè)務(wù)場景。目前，頭條的推薦算法模型在世界范圍內(nèi)也是比較大的，包含幾百億原始特征和數(shù)十億向量特征。整體的訓練過程是線上服務(wù)器記錄實時特征，導(dǎo)入到Kafka文件隊列中，然后進一步導(dǎo)入Storm集群消費Kafka數(shù)據(jù)，客戶端回傳推薦的label構(gòu)造訓練樣本，隨后根據(jù)最新樣本進行在線訓練更新模型參數(shù)，最終線上模型得到更新。這個過程中主要的延遲在用戶的動作反饋延時，因為文章推薦后用戶不一定馬上看，不考慮這部分時間，整個系統(tǒng)是幾乎實時的。

但因為頭條目前的內(nèi)容量非常大，加上小視頻內(nèi)容有千萬級別，推薦系統(tǒng)不可能所有內(nèi)容全部由模型預(yù)估。所以需要設(shè)計一些召回策略，每次推薦時從海量內(nèi)容中篩選出千級別的內(nèi)容庫。召回策略最重要的要求是性能要極致，一般超時不能超過50毫秒。

召回策略種類有很多，我們主要用的是倒排的思路。離線維護一個倒排，這個倒排的key可以是分類，topic，實體，來源等。排序考慮熱度、新鮮度、動作等。線上召回可以迅速從倒排中根據(jù)用戶興趣標簽對內(nèi)容做截斷，高效的從很大的內(nèi)容庫中篩選比較靠譜的一小部分內(nèi)容。

二、內(nèi)容分析內(nèi)容分析包括文本分析，圖片分析和視頻分析。頭條一開始主要做資訊，今天我們主要講一下文本分析。文本分析在推薦系統(tǒng)中一個很重要的作用是用戶興趣建模。沒有內(nèi)容及文本標簽，無法得到用戶興趣標簽。舉個例子，只有知道文章標簽是互聯(lián)網(wǎng)，用戶看了互聯(lián)網(wǎng)標簽的文章，才能知道用戶有互聯(lián)網(wǎng)標簽，其他關(guān)鍵詞也一樣。

另一方面，文本內(nèi)容的標簽可以直接幫助推薦特征，比如魅族的內(nèi)容可以推薦給關(guān)注魅族的用戶，這是用戶標簽的匹配。如果某段時間推薦主頻道效果不理想，出現(xiàn)推薦窄化，用戶會發(fā)現(xiàn)到具體的頻道推薦（如科技、體育、娛樂、軍事等）中閱讀后，再回主feed,推薦效果會更好。因為整個模型是打通的，子頻道探索空間較小，更容易滿足用戶需求。只通過單一信道反饋提高推薦準確率難度會比較大，子頻道做的好很重要。而這也需要好的內(nèi)容分析。

上圖是今日頭條的一個實際文本case。可以看到，這篇文章有分類、關(guān)鍵詞、topic、實體詞等文本特征。當然不是沒有文本特征，推薦系統(tǒng)就不能工作，推薦系統(tǒng)最早期應(yīng)用在Amazon,甚至沃爾瑪時代就有，包括Netfilx做視頻推薦也沒有文本特征直接協(xié)同過濾推薦。但對資訊類產(chǎn)品而言，大部分是消費當天內(nèi)容，沒有文本特征新內(nèi)容冷啟動非常困難，協(xié)同類特征無法解決文章冷啟動問題。

今日頭條推薦系統(tǒng)主要抽取的文本特征包括以下幾類。首先是語義標簽類特征，顯式為文章打上語義標簽。這部分標簽是由人定義的特征，每個標簽有明確的意義，標簽體系是預(yù)定義的。此外還有隱式語義特征，主要是topic特征和關(guān)鍵詞特征，其中topic特征是對于詞概率分布的描述，無明確意義；而關(guān)鍵詞特征會基于一些統(tǒng)一特征描述，無明確集合。

另外文本相似度特征也非常重要。在頭條，曾經(jīng)用戶反饋最大的問題之一就是為什么總推薦重復(fù)的內(nèi)容。這個問題的難點在于，每個人對重復(fù)的定義不一樣。舉個例子，有人覺得這篇講皇馬和巴薩的文章，昨天已經(jīng)看過類似內(nèi)容，今天還說這兩個隊那就是重復(fù)。但對于一個重度球迷而言，尤其是巴薩的球迷，恨不得所有報道都看一遍。解決這一問題需要根據(jù)判斷相似文章的主題、行文、主體等內(nèi)容，根據(jù)這些特征做線上策略。同樣，還有時空特征，分析內(nèi)容的發(fā)生地點以及時效性。比如武漢限行的事情推給北京用戶可能就沒有意義。最后還要考慮質(zhì)量相關(guān)特征，判斷內(nèi)容是否低俗，色情，是否是軟文，雞湯？

上圖是頭條語義標簽的特征和使用場景。他們之間層級不同，要求不同。

分類的目標是覆蓋全面，希望每篇內(nèi)容每段視頻都有分類；而實體體系要求精準，相同名字或內(nèi)容要能明確區(qū)分究竟指代哪一個人或物，但不用覆蓋很全。概念體系則負責解決比較精確又屬于抽象概念的語義。這是我們最初的分類，實踐中發(fā)現(xiàn)分類和概念在技術(shù)上能互用，后來統(tǒng)一用了一套技術(shù)架構(gòu)。

目前，隱式語義特征已經(jīng)可以很好的幫助推薦，而語義標簽需要持續(xù)標注，新名詞新概念不斷出現(xiàn)，標注也要不斷迭代。其做好的難度和資源投入要遠大于隱式語義特征，那為什么還需要語義標簽？有一些產(chǎn)品上的需要，比如頻道需要有明確定義的分類內(nèi)容和容易理解的文本標簽體系。語義標簽的效果是檢查一個公司NLP技術(shù)水平的試金石。

今日頭條推薦系統(tǒng)的線上分類采用典型的層次化文本分類算法。最上面Root，下面第一層的分類是像科技、體育、財經(jīng)、娛樂，體育這樣的大類，再下面細分足球、籃球、乒乓球、網(wǎng)球、田徑、游泳…，足球再細分國際足球、中國足球，中國足球又細分中甲、中超、國家隊…，相比單獨的分類器，利用層次化文本分類算法能更好地解決數(shù)據(jù)傾斜的問題。有一些例外是，如果要提高召回，可以看到我們連接了一些飛線。這套架構(gòu)通用，但根據(jù)不同的問題難度，每個元分類器可以異構(gòu)，像有些分類SVM效果很好，有些要結(jié)合CNN，有些要結(jié)合RNN再處理一下。

上圖是一個實體詞識別算法的case?；诜衷~結(jié)果和詞性標注選取候選，期間可能需要根據(jù)知識庫做一些拼接，有些實體是幾個詞的組合，要確定哪幾個詞結(jié)合在一起能映射實體的描述。如果結(jié)果映射多個實體還要通過詞向量、topic分布甚至詞頻本身等去歧，最后計算一個相關(guān)性模型。三、用戶標簽內(nèi)容分析和用戶標簽是推薦系統(tǒng)的兩大基石。內(nèi)容分析涉及到機器學習的內(nèi)容多一些，相比而言，用戶標簽工程挑戰(zhàn)更大。

今日頭條常用的用戶標簽包括用戶感興趣的類別和主題、關(guān)鍵詞、來源、基于興趣的用戶聚類以及各種垂直興趣特征（車型，體育球隊，股票等）。還有性別、年齡、地點等信息。性別信息通過用戶第三方社交賬號登錄得到。年齡信息通常由模型預(yù)測，通過機型、閱讀時間分布等預(yù)估。常駐地點來自用戶授權(quán)訪問位置信息，在位置信息的基礎(chǔ)上通過傳統(tǒng)聚類的方法拿到常駐點。常駐點結(jié)合其他信息，可以推測用戶的工作地點、出差地點、旅游地點。這些用戶標簽非常有助于推薦。

當然最簡單的用戶標簽是瀏覽過的內(nèi)容標簽。但這里涉及到一些數(shù)據(jù)處理策略。主要包括：一、過濾噪聲。通過停留時間短的點擊，過濾標題黨。二、熱點懲罰。對用戶在一些熱門文章（如前段時間PG One的新聞）上的動作做降權(quán)處理。理論上，傳播范圍較大的內(nèi)容，置信度會下降。三、時間衰減。用戶興趣會發(fā)生偏移，因此策略更偏向新的用戶行為。因此，隨著用戶動作的增加，老的特征權(quán)重會隨時間衰減，新動作貢獻的特征權(quán)重會更大。四、懲罰展現(xiàn)。如果一篇推薦給用戶的文章沒有被點擊，相關(guān)特征（類別，關(guān)鍵詞，來源）權(quán)重會被懲罰。當然同時，也要考慮全局背景，是不是相關(guān)內(nèi)容推送比較多，以及相關(guān)的關(guān)閉和dislike信號等。

用戶標簽挖掘總體比較簡單，主要還是剛剛提到的工程挑戰(zhàn)。頭條用戶標簽第一版是批量計算框架，流程比較簡單，每天抽取昨天的日活用戶過去兩個月的動作數(shù)據(jù)，在Hadoop集群上批量計算結(jié)果。

但問題在于，隨著用戶高速增長，興趣模型種類和其他批量處理任務(wù)都在增加，涉及到的計算量太大。 2014年，批量處理任務(wù)幾百萬用戶標簽更新的Hadoop任務(wù)，當天完成已經(jīng)開始勉強。集群計算資源緊張很容易影響其它工作，集中寫入分布式存儲系統(tǒng)的壓力也開始增大，并且用戶興趣標簽更新延遲越來越高。

面對這些挑戰(zhàn)。2014年底今日頭條上線了用戶標簽Storm集群流式計算系統(tǒng)。改成流式之后，只要有用戶動作更新就更新標簽，CPU代價比較小，可以節(jié)省80%的CPU時間，大大降低了計算資源開銷。同時，只需幾十臺機器就可以支撐每天數(shù)千萬用戶的興趣模型更新，并且特征更新速度非常快，基本可以做到準實時。這套系統(tǒng)從上線一直使用至今。

當然，我們也發(fā)現(xiàn)并非所有用戶標簽都需要流式系統(tǒng)。像用戶的性別、年齡、常駐地點這些信息，不需要實時重復(fù)計算，就仍然保留daily更新。四、評估分析上面介紹了推薦系統(tǒng)的整體架構(gòu)，那么如何評估推薦效果好不好？有一句我認為非常有智慧的話，“一個事情沒法評估就沒法優(yōu)化”。對推薦系統(tǒng)也是一樣。

事實上，很多因素都會影響推薦效果。比如侯選集合變化，召回模塊的改進或增加，推薦特征的增加，模型架構(gòu)的改進在，算法參數(shù)的優(yōu)化等等，不一一舉例。評估的意義就在于，很多優(yōu)化最終可能是負向效果，并不是優(yōu)化上線后效果就會改進。

全面的評估推薦系統(tǒng)，需要完備的評估體系、強大的實驗平臺以及易用的經(jīng)驗分析工具。所謂完備的體系就是并非單一指標衡量，不能只看點擊率或者停留時長等，需要綜合評估。很多公司算法做的不好，并非是工程師能力不夠，而是需要一個強大的實驗平臺，還有便捷的實驗分析工具，可以智能分析數(shù)據(jù)指標的置信度。

一個良好的評估體系建立需要遵循幾個原則，首先是兼顧短期指標與長期指標。我在之前公司負責電商方向的時候觀察到，很多策略調(diào)整短期內(nèi)用戶覺得新鮮，但是長期看其實沒有任何助益。其次，要兼顧用戶指標和生態(tài)指標。既要為內(nèi)容創(chuàng)作者提供價值，讓他更有尊嚴的創(chuàng)作，也有義務(wù)滿足用戶，這兩者要平衡。還有廣告主利益也要考慮，這是多方博弈和平衡的過程。另外，要注意協(xié)同效應(yīng)的影響。實驗中嚴格的流量隔離很難做到，要注意外部效應(yīng)。

強大的實驗平臺非常直接的優(yōu)點是，當同時在線的實驗比較多時，可以由平臺自動分配流量，無需人工溝通，并且實驗結(jié)束流量立即回收，提高管理效率。這能幫助公司降低分析成本，加快算法迭代效應(yīng)，使整個系統(tǒng)的算法優(yōu)化工作能夠快速往前推進。

這是頭條A/B Test實驗系統(tǒng)的基本原理。首先我們會做在離線狀態(tài)下做好用戶分桶，然后線上分配實驗流量，將桶里用戶打上標簽，分給實驗組。舉個例子，開一個10%流量的實驗，兩個實驗組各5%，一個5%是基線，策略和線上大盤一樣，另外一個是新的策略。

實驗過程中用戶動作會被搜集，基本上是準實時，每小時都可以看到。但因為小時數(shù)據(jù)有波動，通常是以天為時間節(jié)點來看。動作搜集后會有日志處理、分布式統(tǒng)計、寫入數(shù)據(jù)庫，非常便捷。

在這個系統(tǒng)下工程師只需要設(shè)置流量需求、實驗時間、定義特殊過濾條件，自定義實驗組ID。系統(tǒng)可以自動生成：實驗數(shù)據(jù)對比、實驗數(shù)據(jù)置信度、實驗結(jié)論總結(jié)以及實驗優(yōu)化建議。

當然，只有實驗平臺是遠遠不夠的。線上實驗平臺只能通過數(shù)據(jù)指標變化推測用戶體驗的變化，但數(shù)據(jù)指標和用戶體驗存在差異，很多指標不能完全量化。很多改進仍然要通過人工分析，重大改進需要人工評估二次確認。五、內(nèi)容安全最后要介紹今日頭條在內(nèi)容安全上的一些舉措。頭條現(xiàn)在已經(jīng)是國內(nèi)最大的內(nèi)容創(chuàng)作與分發(fā)憑條，必須越來越重視社會責任和行業(yè)領(lǐng)導(dǎo)者的責任。如果1%的推薦內(nèi)容出現(xiàn)問題，就會產(chǎn)生較大的影響。

現(xiàn)在，今日頭條的內(nèi)容主要來源于兩部分，一是具有成熟內(nèi)容生產(chǎn)能力的PGC平臺一是UGC用戶內(nèi)容，如問答、用戶評論、微頭條。這兩部分內(nèi)容需要通過統(tǒng)一的審核機制。如果是數(shù)量相對少的PGC內(nèi)容，會直接進行風險審核，沒有問題會大范圍推薦。 UGC內(nèi)容需要經(jīng)過一個風險模型的過濾，有問題的會進入二次風險審核。審核通過后，內(nèi)容會被真正進行推薦。這時如果收到一定量以上的評論或者舉報負向反饋，還會再回到復(fù)審環(huán)節(jié)，有問題直接下架。整個機制相對而言比較健全，作為行業(yè)領(lǐng)先者，在內(nèi)容安全上，今日頭條一直用最高的標準要求自己。

分享內(nèi)容識別技術(shù)主要鑒黃模型，謾罵模型以及低俗模型。今日頭條的低俗模型通過深度學習算法訓練，樣本庫非常大，圖片、文本同時分析。這部分模型更注重召回率，準確率甚至可以犧牲一些。謾罵模型的樣本庫同樣超過百萬，召回率高達95%+，準確率80%+。如果用戶經(jīng)常出言不諱或者不當?shù)脑u論，我們有一些懲罰機制。

泛低質(zhì)識別涉及的情況非常多，像假新聞、黑稿、題文不符、標題黨、內(nèi)容質(zhì)量低等等，這部分內(nèi)容由機器理解是非常難的，需要大量反饋信息，包括其他樣本信息比對。目前低質(zhì)模型的準確率和召回率都不是特別高，還需要結(jié)合人工復(fù)審，將閾值提高。目前最終的召回已達到95%，這部分其實還有非常多的工作可以做。別平臺。

責任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4417

瀏覽量
67568
模型

模型

+關(guān)注

關(guān)注
1

文章
3758

瀏覽量
52131
推薦系統(tǒng)

推薦系統(tǒng)

+關(guān)注

關(guān)注
1

文章
44

瀏覽量
10454

原文標題：今日頭條、抖音推薦算法原理全文詳解！

文章出處：【微信號：gh_c472c2199c88，微信公眾號：嵌入式微處理器】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛兴趣闲谈,欧美亚洲精品 8区,国产精品久久久久精品免费

搜索歷史

今日頭條推薦系統(tǒng)概覽以及內(nèi)容分析

評論