chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

今日頭條推薦系統(tǒng)概覽以及內(nèi)容分析

Q4MP_gh_c472c21 ? 來源:嵌入式ARM ? 作者:嵌入式ARM ? 2020-11-16 16:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本次分享將主要介紹今日頭條推薦系統(tǒng)概覽以及內(nèi)容分析、用戶標(biāo)簽、評估分析,內(nèi)容安全等原理。

一、系統(tǒng)概覽 推薦系統(tǒng),如果用形式化的方式去描述實(shí)際上是擬合一個(gè)用戶對內(nèi)容滿意度的函數(shù),這個(gè)函數(shù)需要輸入三個(gè)維度的變量。

第一個(gè)維度是內(nèi)容。頭條現(xiàn)在已經(jīng)是一個(gè)綜合內(nèi)容平臺,圖文、視頻、UGC小視頻、問答、微頭條,每種內(nèi)容有很多自己的特征,需要考慮怎樣提取不同內(nèi)容類型的特征做好推薦。 第二個(gè)維度是用戶特征。包括各種興趣標(biāo)簽,職業(yè)、年齡、性別等,還有很多模型刻劃出的隱式用戶興趣等。 第三個(gè)維度是環(huán)境特征。這是移動互聯(lián)網(wǎng)時(shí)代推薦的特點(diǎn),用戶隨時(shí)隨地移動,在工作場合、通勤、旅游等不同的場景,信息偏好有所偏移。 結(jié)合三方面的維度,模型會給出一個(gè)預(yù)估,即推測推薦內(nèi)容在這一場景下對這一用戶是否合適。 這里還有一個(gè)問題,如何引入無法直接衡量的目標(biāo)?

推薦模型中,點(diǎn)擊率、閱讀時(shí)間、點(diǎn)贊、評論、轉(zhuǎn)發(fā)包括點(diǎn)贊都是可以量化的目標(biāo),能夠用模型直接擬合做預(yù)估,看線上提升情況可以知道做的好不好。 但一個(gè)大體量的推薦系統(tǒng),服務(wù)用戶眾多,不能完全由指標(biāo)評估,引入數(shù)據(jù)指標(biāo)以外的要素也很重要。 比如廣告和特型內(nèi)容頻控。像問答卡片就是比較特殊的內(nèi)容形式,其推薦的目標(biāo)不完全是讓用戶瀏覽,還要考慮吸引用戶回答為社區(qū)貢獻(xiàn)內(nèi)容。這些內(nèi)容和普通內(nèi)容如何混排,怎樣控制頻控都需要考慮。 此外,平臺出于內(nèi)容生態(tài)和社會責(zé)任的考量,像低俗內(nèi)容的打壓,標(biāo)題黨、低質(zhì)內(nèi)容的打壓,重要新聞的置頂、加權(quán)、強(qiáng)插,低級別賬號內(nèi)容降權(quán)都是算法本身無法完成,需要進(jìn)一步對內(nèi)容進(jìn)行干預(yù)。 下面我將簡單介紹在上述算法目標(biāo)的基礎(chǔ)上如何對其實(shí)現(xiàn)。

前面提到的公式y(tǒng) = F(Xi ,Xu ,Xc),是一個(gè)很經(jīng)典的監(jiān)督學(xué)習(xí)問題??蓪?shí)現(xiàn)的方法有很多,比如傳統(tǒng)的協(xié)同過濾模型,監(jiān)督學(xué)習(xí)算法Logistic Regression模型,基于深度學(xué)習(xí)的模型,F(xiàn)actorization Machine和GBDT等。 一個(gè)優(yōu)秀的工業(yè)級推薦系統(tǒng)需要非常靈活的算法實(shí)驗(yàn)平臺,可以支持多種算法組合,包括模型結(jié)構(gòu)調(diào)整。因?yàn)楹茈y有一套通用的模型架構(gòu)適用于所有的推薦場景。 現(xiàn)在很流行將LR和DNN結(jié)合,前幾年Facebook也將LR和GBDT算法做結(jié)合。今日頭條旗下幾款產(chǎn)品都在沿用同一套強(qiáng)大的算法推薦系統(tǒng),但根據(jù)業(yè)務(wù)場景不同,模型架構(gòu)會有所調(diào)整。

模型之后再看一下典型的推薦特征,主要有四類特征會對推薦起到比較重要的作用。 第一類是相關(guān)性特征,就是評估內(nèi)容的屬性和與用戶是否匹配。顯性的匹配包括關(guān)鍵詞匹配、分類匹配、來源匹配、主題匹配等。像FM模型中也有一些隱性匹配,從用戶向量與內(nèi)容向量的距離可以得出。 第二類是環(huán)境特征,包括地理位置、時(shí)間。這些既是bias特征,也能以此構(gòu)建一些匹配特征。 第三類是熱度特征。包括全局熱度、分類熱度,主題熱度,以及關(guān)鍵詞熱度等。內(nèi)容熱度信息在大的推薦系統(tǒng)特別在用戶冷啟動的時(shí)候非常有效。 第四類是協(xié)同特征,它可以在部分程度上幫助解決所謂算法越推越窄的問題。 協(xié)同特征并非考慮用戶已有歷史。而是通過用戶行為分析不同用戶間相似性,比如點(diǎn)擊相似、興趣分類相似、主題相似、興趣詞相似,甚至向量相似,從而擴(kuò)展模型的探索能力。

模型的訓(xùn)練上,頭條系大部分推薦產(chǎn)品采用實(shí)時(shí)訓(xùn)練。實(shí)時(shí)訓(xùn)練省資源并且反饋快,這對信息流產(chǎn)品非常重要。用戶需要行為信息可以被模型快速捕捉并反饋至下一刷的推薦效果。 我們線上目前基于storm集群實(shí)時(shí)處理樣本數(shù)據(jù),包括點(diǎn)擊、展現(xiàn)、收藏、分享等動作類型。 模型參數(shù)服務(wù)器是內(nèi)部開發(fā)的一套高性能的系統(tǒng),因?yàn)轭^條數(shù)據(jù)規(guī)模增長太快,類似的開源系統(tǒng)穩(wěn)定性和性能無法滿足,而我們自研的系統(tǒng)底層做了很多針對性的優(yōu)化,提供了完善運(yùn)維工具,更適配現(xiàn)有的業(yè)務(wù)場景。 目前,頭條的推薦算法模型在世界范圍內(nèi)也是比較大的,包含幾百億原始特征和數(shù)十億向量特征。 整體的訓(xùn)練過程是線上服務(wù)器記錄實(shí)時(shí)特征,導(dǎo)入到Kafka文件隊(duì)列中,然后進(jìn)一步導(dǎo)入Storm集群消費(fèi)Kafka數(shù)據(jù),客戶端回傳推薦的label構(gòu)造訓(xùn)練樣本,隨后根據(jù)最新樣本進(jìn)行在線訓(xùn)練更新模型參數(shù),最終線上模型得到更新。 這個(gè)過程中主要的延遲在用戶的動作反饋延時(shí),因?yàn)槲恼峦扑]后用戶不一定馬上看,不考慮這部分時(shí)間,整個(gè)系統(tǒng)是幾乎實(shí)時(shí)的。

但因?yàn)轭^條目前的內(nèi)容量非常大,加上小視頻內(nèi)容有千萬級別,推薦系統(tǒng)不可能所有內(nèi)容全部由模型預(yù)估。 所以需要設(shè)計(jì)一些召回策略,每次推薦時(shí)從海量內(nèi)容中篩選出千級別的內(nèi)容庫。召回策略最重要的要求是性能要極致,一般超時(shí)不能超過50毫秒。

召回策略種類有很多,我們主要用的是倒排的思路。離線維護(hù)一個(gè)倒排,這個(gè)倒排的key可以是分類,topic,實(shí)體,來源等。 排序考慮熱度、新鮮度、動作等。線上召回可以迅速從倒排中根據(jù)用戶興趣標(biāo)簽對內(nèi)容做截?cái)?,高效的從很大的?nèi)容庫中篩選比較靠譜的一小部分內(nèi)容。

二、內(nèi)容分析 內(nèi)容分析包括文本分析,圖片分析和視頻分析。頭條一開始主要做資訊,今天我們主要講一下文本分析。文本分析在推薦系統(tǒng)中一個(gè)很重要的作用是用戶興趣建模。 沒有內(nèi)容及文本標(biāo)簽,無法得到用戶興趣標(biāo)簽。舉個(gè)例子,只有知道文章標(biāo)簽是互聯(lián)網(wǎng),用戶看了互聯(lián)網(wǎng)標(biāo)簽的文章,才能知道用戶有互聯(lián)網(wǎng)標(biāo)簽,其他關(guān)鍵詞也一樣。

另一方面,文本內(nèi)容的標(biāo)簽可以直接幫助推薦特征,比如魅族的內(nèi)容可以推薦給關(guān)注魅族的用戶,這是用戶標(biāo)簽的匹配。 如果某段時(shí)間推薦主頻道效果不理想,出現(xiàn)推薦窄化,用戶會發(fā)現(xiàn)到具體的頻道推薦(如科技、體育、娛樂、軍事等)中閱讀后,再回主feed,推薦效果會更好。 因?yàn)檎麄€(gè)模型是打通的,子頻道探索空間較小,更容易滿足用戶需求。只通過單一信道反饋提高推薦準(zhǔn)確率難度會比較大,子頻道做的好很重要。而這也需要好的內(nèi)容分析。

上圖是今日頭條的一個(gè)實(shí)際文本case??梢钥吹剑@篇文章有分類、關(guān)鍵詞、topic、實(shí)體詞等文本特征。 當(dāng)然不是沒有文本特征,推薦系統(tǒng)就不能工作,推薦系統(tǒng)最早期應(yīng)用在Amazon,甚至沃爾瑪時(shí)代就有,包括Netfilx做視頻推薦也沒有文本特征直接協(xié)同過濾推薦。 但對資訊類產(chǎn)品而言,大部分是消費(fèi)當(dāng)天內(nèi)容,沒有文本特征新內(nèi)容冷啟動非常困難,協(xié)同類特征無法解決文章冷啟動問題。

今日頭條推薦系統(tǒng)主要抽取的文本特征包括以下幾類。首先是語義標(biāo)簽類特征,顯式為文章打上語義標(biāo)簽。 這部分標(biāo)簽是由人定義的特征,每個(gè)標(biāo)簽有明確的意義,標(biāo)簽體系是預(yù)定義的。 此外還有隱式語義特征,主要是topic特征和關(guān)鍵詞特征,其中topic特征是對于詞概率分布的描述,無明確意義;而關(guān)鍵詞特征會基于一些統(tǒng)一特征描述,無明確集合。

另外文本相似度特征也非常重要。在頭條,曾經(jīng)用戶反饋?zhàn)畲蟮膯栴}之一就是為什么總推薦重復(fù)的內(nèi)容。這個(gè)問題的難點(diǎn)在于,每個(gè)人對重復(fù)的定義不一樣。 舉個(gè)例子,有人覺得這篇講皇馬和巴薩的文章,昨天已經(jīng)看過類似內(nèi)容,今天還說這兩個(gè)隊(duì)那就是重復(fù)。 但對于一個(gè)重度球迷而言,尤其是巴薩的球迷,恨不得所有報(bào)道都看一遍。解決這一問題需要根據(jù)判斷相似文章的主題、行文、主體等內(nèi)容,根據(jù)這些特征做線上策略。 同樣,還有時(shí)空特征,分析內(nèi)容的發(fā)生地點(diǎn)以及時(shí)效性。比如武漢限行的事情推給北京用戶可能就沒有意義。 最后還要考慮質(zhì)量相關(guān)特征,判斷內(nèi)容是否低俗,色情,是否是軟文,雞湯?

上圖是頭條語義標(biāo)簽的特征和使用場景。他們之間層級不同,要求不同。

分類的目標(biāo)是覆蓋全面,希望每篇內(nèi)容每段視頻都有分類;而實(shí)體體系要求精準(zhǔn),相同名字或內(nèi)容要能明確區(qū)分究竟指代哪一個(gè)人或物,但不用覆蓋很全。 概念體系則負(fù)責(zé)解決比較精確又屬于抽象概念的語義。這是我們最初的分類,實(shí)踐中發(fā)現(xiàn)分類和概念在技術(shù)上能互用,后來統(tǒng)一用了一套技術(shù)架構(gòu)。

目前,隱式語義特征已經(jīng)可以很好的幫助推薦,而語義標(biāo)簽需要持續(xù)標(biāo)注,新名詞新概念不斷出現(xiàn),標(biāo)注也要不斷迭代。其做好的難度和資源投入要遠(yuǎn)大于隱式語義特征,那為什么還需要語義標(biāo)簽? 有一些產(chǎn)品上的需要,比如頻道需要有明確定義的分類內(nèi)容和容易理解的文本標(biāo)簽體系。語義標(biāo)簽的效果是檢查一個(gè)公司NLP技術(shù)水平的試金石。

今日頭條推薦系統(tǒng)的線上分類采用典型的層次化文本分類算法。 最上面Root,下面第一層的分類是像科技、體育、財(cái)經(jīng)、娛樂,體育這樣的大類,再下面細(xì)分足球、籃球、乒乓球、網(wǎng)球、田徑、游泳…,足球再細(xì)分國際足球、中國足球,中國足球又細(xì)分中甲、中超、國家隊(duì)…,相比單獨(dú)的分類器,利用層次化文本分類算法能更好地解決數(shù)據(jù)傾斜的問題。 有一些例外是,如果要提高召回,可以看到我們連接了一些飛線。這套架構(gòu)通用,但根據(jù)不同的問題難度,每個(gè)元分類器可以異構(gòu),像有些分類SVM效果很好,有些要結(jié)合CNN,有些要結(jié)合RNN再處理一下。

上圖是一個(gè)實(shí)體詞識別算法的case。基于分詞結(jié)果和詞性標(biāo)注選取候選,期間可能需要根據(jù)知識庫做一些拼接,有些實(shí)體是幾個(gè)詞的組合,要確定哪幾個(gè)詞結(jié)合在一起能映射實(shí)體的描述。 如果結(jié)果映射多個(gè)實(shí)體還要通過詞向量、topic分布甚至詞頻本身等去歧,最后計(jì)算一個(gè)相關(guān)性模型。 三、用戶標(biāo)簽 內(nèi)容分析和用戶標(biāo)簽是推薦系統(tǒng)的兩大基石。內(nèi)容分析涉及到機(jī)器學(xué)習(xí)的內(nèi)容多一些,相比而言,用戶標(biāo)簽工程挑戰(zhàn)更大。

今日頭條常用的用戶標(biāo)簽包括用戶感興趣的類別和主題、關(guān)鍵詞、來源、基于興趣的用戶聚類以及各種垂直興趣特征(車型,體育球隊(duì),股票等)。還有性別、年齡、地點(diǎn)等信息。 性別信息通過用戶第三方社交賬號登錄得到。年齡信息通常由模型預(yù)測,通過機(jī)型、閱讀時(shí)間分布等預(yù)估。 常駐地點(diǎn)來自用戶授權(quán)訪問位置信息,在位置信息的基礎(chǔ)上通過傳統(tǒng)聚類的方法拿到常駐點(diǎn)。 常駐點(diǎn)結(jié)合其他信息,可以推測用戶的工作地點(diǎn)、出差地點(diǎn)、旅游地點(diǎn)。這些用戶標(biāo)簽非常有助于推薦。

當(dāng)然最簡單的用戶標(biāo)簽是瀏覽過的內(nèi)容標(biāo)簽。但這里涉及到一些數(shù)據(jù)處理策略。 主要包括: 一、過濾噪聲。通過停留時(shí)間短的點(diǎn)擊,過濾標(biāo)題黨。 二、熱點(diǎn)懲罰。對用戶在一些熱門文章(如前段時(shí)間PG One的新聞)上的動作做降權(quán)處理。理論上,傳播范圍較大的內(nèi)容,置信度會下降。 三、時(shí)間衰減。用戶興趣會發(fā)生偏移,因此策略更偏向新的用戶行為。因此,隨著用戶動作的增加,老的特征權(quán)重會隨時(shí)間衰減,新動作貢獻(xiàn)的特征權(quán)重會更大。 四、懲罰展現(xiàn)。如果一篇推薦給用戶的文章沒有被點(diǎn)擊,相關(guān)特征(類別,關(guān)鍵詞,來源)權(quán)重會被懲罰。當(dāng) 然同時(shí),也要考慮全局背景,是不是相關(guān)內(nèi)容推送比較多,以及相關(guān)的關(guān)閉和dislike信號等。

用戶標(biāo)簽挖掘總體比較簡單,主要還是剛剛提到的工程挑戰(zhàn)。頭條用戶標(biāo)簽第一版是批量計(jì)算框架,流程比較簡單,每天抽取昨天的日活用戶過去兩個(gè)月的動作數(shù)據(jù),在Hadoop集群上批量計(jì)算結(jié)果。

但問題在于,隨著用戶高速增長,興趣模型種類和其他批量處理任務(wù)都在增加,涉及到的計(jì)算量太大。 2014年,批量處理任務(wù)幾百萬用戶標(biāo)簽更新的Hadoop任務(wù),當(dāng)天完成已經(jīng)開始勉強(qiáng)。集群計(jì)算資源緊張很容易影響其它工作,集中寫入分布式存儲系統(tǒng)的壓力也開始增大,并且用戶興趣標(biāo)簽更新延遲越來越高。

面對這些挑戰(zhàn)。2014年底今日頭條上線了用戶標(biāo)簽Storm集群流式計(jì)算系統(tǒng)。改成流式之后,只要有用戶動作更新就更新標(biāo)簽,CPU代價(jià)比較小,可以節(jié)省80%的CPU時(shí)間,大大降低了計(jì)算資源開銷。 同時(shí),只需幾十臺機(jī)器就可以支撐每天數(shù)千萬用戶的興趣模型更新,并且特征更新速度非???,基本可以做到準(zhǔn)實(shí)時(shí)。這套系統(tǒng)從上線一直使用至今。

當(dāng)然,我們也發(fā)現(xiàn)并非所有用戶標(biāo)簽都需要流式系統(tǒng)。像用戶的性別、年齡、常駐地點(diǎn)這些信息,不需要實(shí)時(shí)重復(fù)計(jì)算,就仍然保留daily更新。 四、評估分析 上面介紹了推薦系統(tǒng)的整體架構(gòu),那么如何評估推薦效果好不好? 有一句我認(rèn)為非常有智慧的話,“一個(gè)事情沒法評估就沒法優(yōu)化”。對推薦系統(tǒng)也是一樣。

事實(shí)上,很多因素都會影響推薦效果。比如侯選集合變化,召回模塊的改進(jìn)或增加,推薦特征的增加,模型架構(gòu)的改進(jìn)在,算法參數(shù)的優(yōu)化等等,不一一舉例。 評估的意義就在于,很多優(yōu)化最終可能是負(fù)向效果,并不是優(yōu)化上線后效果就會改進(jìn)。

全面的評估推薦系統(tǒng),需要完備的評估體系、強(qiáng)大的實(shí)驗(yàn)平臺以及易用的經(jīng)驗(yàn)分析工具。 所謂完備的體系就是并非單一指標(biāo)衡量,不能只看點(diǎn)擊率或者停留時(shí)長等,需要綜合評估。 很多公司算法做的不好,并非是工程師能力不夠,而是需要一個(gè)強(qiáng)大的實(shí)驗(yàn)平臺,還有便捷的實(shí)驗(yàn)分析工具,可以智能分析數(shù)據(jù)指標(biāo)的置信度。

一個(gè)良好的評估體系建立需要遵循幾個(gè)原則,首先是兼顧短期指標(biāo)與長期指標(biāo)。我在之前公司負(fù)責(zé)電商方向的時(shí)候觀察到,很多策略調(diào)整短期內(nèi)用戶覺得新鮮,但是長期看其實(shí)沒有任何助益。 其次,要兼顧用戶指標(biāo)和生態(tài)指標(biāo)。既要為內(nèi)容創(chuàng)作者提供價(jià)值,讓他更有尊嚴(yán)的創(chuàng)作,也有義務(wù)滿足用戶,這兩者要平衡。 還有廣告主利益也要考慮,這是多方博弈和平衡的過程。 另外,要注意協(xié)同效應(yīng)的影響。實(shí)驗(yàn)中嚴(yán)格的流量隔離很難做到,要注意外部效應(yīng)。

強(qiáng)大的實(shí)驗(yàn)平臺非常直接的優(yōu)點(diǎn)是,當(dāng)同時(shí)在線的實(shí)驗(yàn)比較多時(shí),可以由平臺自動分配流量,無需人工溝通,并且實(shí)驗(yàn)結(jié)束流量立即回收,提高管理效率。 這能幫助公司降低分析成本,加快算法迭代效應(yīng),使整個(gè)系統(tǒng)的算法優(yōu)化工作能夠快速往前推進(jìn)。

這是頭條A/B Test實(shí)驗(yàn)系統(tǒng)的基本原理。首先我們會做在離線狀態(tài)下做好用戶分桶,然后線上分配實(shí)驗(yàn)流量,將桶里用戶打上標(biāo)簽,分給實(shí)驗(yàn)組。 舉個(gè)例子,開一個(gè)10%流量的實(shí)驗(yàn),兩個(gè)實(shí)驗(yàn)組各5%,一個(gè)5%是基線,策略和線上大盤一樣,另外一個(gè)是新的策略。

實(shí)驗(yàn)過程中用戶動作會被搜集,基本上是準(zhǔn)實(shí)時(shí),每小時(shí)都可以看到。但因?yàn)樾r(shí)數(shù)據(jù)有波動,通常是以天為時(shí)間節(jié)點(diǎn)來看。動作搜集后會有日志處理、分布式統(tǒng)計(jì)、寫入數(shù)據(jù)庫,非常便捷。

在這個(gè)系統(tǒng)下工程師只需要設(shè)置流量需求、實(shí)驗(yàn)時(shí)間、定義特殊過濾條件,自定義實(shí)驗(yàn)組ID。系統(tǒng)可以自動生成:實(shí)驗(yàn)數(shù)據(jù)對比、實(shí)驗(yàn)數(shù)據(jù)置信度、實(shí)驗(yàn)結(jié)論總結(jié)以及實(shí)驗(yàn)優(yōu)化建議。

當(dāng)然,只有實(shí)驗(yàn)平臺是遠(yuǎn)遠(yuǎn)不夠的。線上實(shí)驗(yàn)平臺只能通過數(shù)據(jù)指標(biāo)變化推測用戶體驗(yàn)的變化,但數(shù)據(jù)指標(biāo)和用戶體驗(yàn)存在差異,很多指標(biāo)不能完全量化。 很多改進(jìn)仍然要通過人工分析,重大改進(jìn)需要人工評估二次確認(rèn)。 五、內(nèi)容安全 最后要介紹今日頭條在內(nèi)容安全上的一些舉措。頭條現(xiàn)在已經(jīng)是國內(nèi)最大的內(nèi)容創(chuàng)作與分發(fā)憑條,必須越來越重視社會責(zé)任和行業(yè)領(lǐng)導(dǎo)者的責(zé)任。如果1%的推薦內(nèi)容出現(xiàn)問題,就會產(chǎn)生較大的影響。

現(xiàn)在,今日頭條的內(nèi)容主要來源于兩部分,一是具有成熟內(nèi)容生產(chǎn)能力的PGC平臺 一是UGC用戶內(nèi)容,如問答、用戶評論、微頭條。這兩部分內(nèi)容需要通過統(tǒng)一的審核機(jī)制。如果是數(shù)量相對少的PGC內(nèi)容,會直接進(jìn)行風(fēng)險(xiǎn)審核,沒有問題會大范圍推薦。 UGC內(nèi)容需要經(jīng)過一個(gè)風(fēng)險(xiǎn)模型的過濾,有問題的會進(jìn)入二次風(fēng)險(xiǎn)審核。審核通過后,內(nèi)容會被真正進(jìn)行推薦。這時(shí)如果收到一定量以上的評論或者舉報(bào)負(fù)向反饋,還會再回到復(fù)審環(huán)節(jié),有問題直接下架。 整個(gè)機(jī)制相對而言比較健全,作為行業(yè)領(lǐng)先者,在內(nèi)容安全上,今日頭條一直用最高的標(biāo)準(zhǔn)要求自己。

分享內(nèi)容識別技術(shù)主要鑒黃模型,謾罵模型以及低俗模型。今日頭條的低俗模型通過深度學(xué)習(xí)算法訓(xùn)練,樣本庫非常大,圖片、文本同時(shí)分析。 這部分模型更注重召回率,準(zhǔn)確率甚至可以犧牲一些。謾罵模型的樣本庫同樣超過百萬,召回率高達(dá)95%+,準(zhǔn)確率80%+。如果用戶經(jīng)常出言不諱或者不當(dāng)?shù)脑u論,我們有一些懲罰機(jī)制。

泛低質(zhì)識別涉及的情況非常多,像假新聞、黑稿、題文不符、標(biāo)題黨、內(nèi)容質(zhì)量低等等,這部分內(nèi)容由機(jī)器理解是非常難的,需要大量反饋信息,包括其他樣本信息比對。 目前低質(zhì)模型的準(zhǔn)確率和召回率都不是特別高,還需要結(jié)合人工復(fù)審,將閾值提高。目前最終的召回已達(dá)到95%,這部分其實(shí)還有非常多的工作可以做。別平臺。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4413

    瀏覽量

    67210
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3694

    瀏覽量

    51953
  • 推薦系統(tǒng)
    +關(guān)注

    關(guān)注

    1

    文章

    44

    瀏覽量

    10429

原文標(biāo)題:今日頭條、抖音推薦算法原理全文詳解!

文章出處:【微信號:gh_c472c2199c88,微信公眾號:嵌入式微處理器】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「芯片設(shè)計(jì)基石——EDA產(chǎn)業(yè)全景與未來展望」閱讀體驗(yàn)】--全書概覽

    內(nèi)容概覽,以期對全書的理解把握。 第1章 芯片之鑰:解鎖EDA的奧秘 1.1 芯片\"卡脖子\"引發(fā)對EDA的重視 1.2 什么是EDA 1.3 EDA的特點(diǎn) 第2章 全球視野
    發(fā)表于 01-18 17:50

    【「龍芯之光 自主可控處理器設(shè)計(jì)解析」閱讀體驗(yàn)】--全書概覽與概述

    與講解,理論與實(shí)踐相結(jié)合,對了解熟悉國產(chǎn)龍芯處理器很有幫助。 一.全書概覽 下面是全書目錄,可以概覽全書內(nèi)容 第1章 概述 1.1 系統(tǒng)級芯片 1.2處理器架構(gòu)及指令 1.3Loong
    發(fā)表于 01-18 12:58

    【「玩轉(zhuǎn)高速電路:基于ANSYS HFSS的無源仿真實(shí)例」閱讀體驗(yàn)】+本書概覽,內(nèi)容,特點(diǎn),問題,與一些個(gè)人建議

    本書內(nèi)容從目錄可以看到本書的內(nèi)容,大體上是兩部分1. 軟件的基本操作第一章介紹了基本操作 2. 實(shí)例后續(xù)章節(jié)都是實(shí)例包括單端信號傳輸線,過孔差分信號傳輸線,過孔典型走線典型過孔典型孔線不同參數(shù)
    發(fā)表于 01-05 12:28

    弱電集成系統(tǒng)有哪些以及檢測的內(nèi)容

    弱電集成系統(tǒng)是指將多個(gè)弱電子系統(tǒng)通過一定的技術(shù)手段進(jìn)行整合,形成一個(gè)統(tǒng)一的、高效的系統(tǒng)。常見的弱電集成系統(tǒng)主要包括以下幾種:   1.通信系統(tǒng)
    的頭像 發(fā)表于 12-22 17:13 ?442次閱讀

    光伏電站巡檢系統(tǒng)的巡檢內(nèi)容

    光伏電站巡檢工作是確保電站安全、高效、穩(wěn)定運(yùn)行必不可少的一個(gè)環(huán)節(jié),這個(gè)過程包含了對光伏發(fā)電系統(tǒng)進(jìn)行定期或不定期檢查、維護(hù)與故障排查等內(nèi)容,目的在于通過巡檢及時(shí)發(fā)現(xiàn)故障隱患,從而保障發(fā)電效率、延長設(shè)備
    的頭像 發(fā)表于 09-26 13:53 ?505次閱讀
    光伏電站巡檢<b class='flag-5'>系統(tǒng)</b>的巡檢<b class='flag-5'>內(nèi)容</b>

    eVTOL艙外噪聲的仿真分析

    前兩期內(nèi)容中討論了eVTOL艙室內(nèi)噪聲仿真分析流程以及降噪優(yōu)化方法,本文主要闡述eVTOL艙外噪聲的仿真分析。
    的頭像 發(fā)表于 09-23 14:09 ?629次閱讀
    eVTOL艙外噪聲的仿真<b class='flag-5'>分析</b>

    深蕾半導(dǎo)體喜獲多媒體內(nèi)容分析與控制輸出相關(guān)的技術(shù)發(fā)明專利!

    我們自主研發(fā)的多媒體內(nèi)容分析與控制輸出技術(shù)獲得國家發(fā)明專利授權(quán)。該技術(shù)融合深度學(xué)習(xí)和芯片優(yōu)化,通過雙分支(文字+圖像)智能分析,實(shí)現(xiàn)毫秒級視頻內(nèi)容識別與管控,大幅提升審核準(zhǔn)確率。技術(shù)適用于直播、安防監(jiān)控、
    的頭像 發(fā)表于 08-07 09:37 ?539次閱讀
    深蕾半導(dǎo)體喜獲多媒體<b class='flag-5'>內(nèi)容分析</b>與控制輸出相關(guān)的技術(shù)發(fā)明專利!

    Jetson平臺核心組件BOM清單概覽

    Jetson平臺核心組件BOM清單概覽 NVIDIA Jetson系列作為業(yè)界領(lǐng)先的邊緣計(jì)算和人工智能(AI)平臺,其強(qiáng)大的性能背后是一系列精心挑選的核心芯片、電源管理集成電路(PMIC)以及豐富
    的頭像 發(fā)表于 07-30 16:11 ?2909次閱讀

    光伏電站智慧綜合管理系統(tǒng)都包含哪些應(yīng)用內(nèi)容?

    運(yùn)行與效益最大化。 光伏電站管理的工作內(nèi)容覆蓋光伏電站管理、設(shè)備管理、安全管理、人員管理以及數(shù)據(jù)分析與優(yōu)化等,這些工作內(nèi)容覆蓋面廣且內(nèi)容繁雜
    的頭像 發(fā)表于 06-24 13:50 ?486次閱讀
    光伏電站智慧綜合管理<b class='flag-5'>系統(tǒng)</b>都包含哪些應(yīng)用<b class='flag-5'>內(nèi)容</b>?

    漢思膠水在半導(dǎo)體封裝中的應(yīng)用概覽

    漢思膠水在半導(dǎo)體封裝中的應(yīng)用概覽漢思膠水在半導(dǎo)體封裝領(lǐng)域的應(yīng)用具有顯著的技術(shù)優(yōu)勢和市場價(jià)值,其產(chǎn)品體系覆蓋底部填充、固晶粘接、圍壩填充、芯片包封等關(guān)鍵工藝環(huán)節(jié),并通過材料創(chuàng)新與工藝適配性設(shè)計(jì),為
    的頭像 發(fā)表于 05-23 10:46 ?930次閱讀
    漢思膠水在半導(dǎo)體封裝中的應(yīng)用<b class='flag-5'>概覽</b>

    電機(jī)微機(jī)控制系統(tǒng)可靠性分析

    。純分享帖,需要者可點(diǎn)擊附件獲取完整資料~~~*附件:電機(jī)微機(jī)控制系統(tǒng)可靠性分析.pdf 【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時(shí)間告知,刪除內(nèi)容!
    發(fā)表于 04-29 16:14

    電機(jī)控制系統(tǒng)低速區(qū)測速方法分析與改進(jìn)

    純分享帖,需要者可點(diǎn)擊附件獲取完整資料~~~*附件:電機(jī)控制系統(tǒng)低速區(qū)測速方法分析與改進(jìn).pdf 【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時(shí)間告知,刪除內(nèi)容!
    發(fā)表于 04-17 22:32

    光伏電站巡檢系統(tǒng)巡檢的內(nèi)容

    光伏電站巡檢系統(tǒng)是一款綜合性系統(tǒng),可對光伏電站設(shè)備進(jìn)行全面、高效、精準(zhǔn)巡檢與管理。其主要是利用現(xiàn)代信息技術(shù)、自動化技術(shù)和智能裝備,通過這些智能化手段,對光伏電站設(shè)備進(jìn)行實(shí)時(shí)監(jiān)測、故障預(yù)警、數(shù)據(jù)分析
    的頭像 發(fā)表于 04-11 16:28 ?1255次閱讀
    光伏電站巡檢<b class='flag-5'>系統(tǒng)</b>巡檢的<b class='flag-5'>內(nèi)容</b>

    VS680/SL1680 HDMI Rx 內(nèi)容分析解決方案

    VS680 HDMI Rx內(nèi)容分析解決方案,依托VS680/SL1680智能多媒體處理器,實(shí)現(xiàn)高清音視頻處理與內(nèi)容分析。 該方案廣泛應(yīng)用于家庭影院、戶外大屏等場景,支持視頻超分、內(nèi)容審核等功能,為用戶提供卓越的智能多媒體處理體
    的頭像 發(fā)表于 03-25 16:34 ?860次閱讀
    VS680/SL1680 HDMI Rx <b class='flag-5'>內(nèi)容分析</b>解決方案

    智能電動輪椅控制系統(tǒng)的研究與設(shè)計(jì)

    本文介紹了智能輪椅、自動避障算法以及電機(jī)調(diào)速系統(tǒng)的國內(nèi)外發(fā)展現(xiàn)狀,并 研究了用戶對智能輪椅的實(shí)際需求,分析了國內(nèi)應(yīng)用市場上智能輪椅存在的不足, 設(shè)計(jì)了一款具有自動避障和坡度智能制動功能的智能輪椅
    發(fā)表于 03-07 15:17