chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

搜狗的AI之路與挑戰(zhàn)

MqC7_CAAI_1981 ? 來(lái)源:未知 ? 作者:李倩 ? 2018-05-29 16:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

翻譯是很重要的一件事情,中國(guó)有13億人,是最大的漢語(yǔ)群體。我們非常有意愿和英語(yǔ)世界以及其他的語(yǔ)言做更多的交流。

5月19日,在2018全球人工智能技術(shù)大會(huì)上,搜狗首席執(zhí)行官、清華大學(xué)天工智能計(jì)算研究院聯(lián)席院長(zhǎng)王小川發(fā)表了題為“搜狗的AI之路與挑戰(zhàn)”的演講。

下為王小川在本次大會(huì)中的演講實(shí)錄,經(jīng)整理后發(fā)布。

王小川:剛才朱老師說(shuō)接地氣,我覺(jué)得在這個(gè)會(huì)議上我們就沒(méi)地氣。為了這個(gè)地氣是有損失的,所以大家在99年、2000年開(kāi)始進(jìn)入到互聯(lián)網(wǎng),當(dāng)時(shí)有機(jī)會(huì)可以繼續(xù)在清華大學(xué)讀博士,現(xiàn)在有機(jī)會(huì)來(lái)彌補(bǔ)這樣的不足。

今天的報(bào)告給大家介紹的是“搜狗的AI之路與挑戰(zhàn)”。和今天的主題非常貼切,不僅是人工智能,核心是圍繞我們的語(yǔ)言展開(kāi)。

提到搜狗公司,大家更多知道的是搜狗輸入法。

從用戶規(guī)模來(lái)看,我們?cè)谥袊?guó)互聯(lián)網(wǎng)排在第四位,僅次于騰訊、百度和阿里巴巴。我們的搜索引擎在中國(guó)也是第二位,有超過(guò)18%的市場(chǎng)份額,而且每一年還會(huì)增加2%-3%。在全球應(yīng)該是第三大,除了Google、百度,我們的用戶規(guī)模和搜索量是第三。更自豪的是搜狗輸入法是當(dāng)之無(wú)愧的第一名。

這兩個(gè)產(chǎn)品都有一個(gè)特點(diǎn),輸入法是幫助你表達(dá)信息,把你的想法變成文字。而搜索引擎是幫你獲得信息,把你的文字變成更多你需要的知識(shí)。這兩個(gè)產(chǎn)品的核心點(diǎn)是在語(yǔ)言上,我們不排斥有語(yǔ)音或者其他的因素,但最終的核心是在語(yǔ)言。因此圍繞語(yǔ)言我們會(huì)展開(kāi)很多的工作,包括語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、個(gè)性化語(yǔ)音合成等等。也有視覺(jué)方面的工作,包括OCR,包括我們跟清華合作的手寫(xiě)體合成功能,自己寫(xiě)幾個(gè)字,試圖把你寫(xiě)的字變成機(jī)器模仿的體系,有識(shí)圖功能,尤其在狗臉識(shí)別做的特別好,拍一張狗就可以告訴你是什么樣的品種。搜狗嘛,在技術(shù)里面可以玩出花來(lái)。甚至是唇語(yǔ)識(shí)別,不用語(yǔ)音,只看你的嘴唇運(yùn)動(dòng)就可以知道你在說(shuō)什么。這是在語(yǔ)音和圖像上和語(yǔ)言相關(guān)的工作。另外更多的是在做對(duì)話、翻譯、問(wèn)答。

也許這些加起來(lái)還不能構(gòu)成一個(gè)完整的交互,但我們覺(jué)得這個(gè)方向我們展開(kāi)了大量的研究,更多的是這個(gè)研究工作和我們的產(chǎn)品有高度的結(jié)合。

今天更多的想放在語(yǔ)言、翻譯、對(duì)話和問(wèn)答上,簡(jiǎn)單講一下在語(yǔ)音圖像方面干的有意思的活,唇語(yǔ)識(shí)別,我們有大量的主持人或者其他數(shù)據(jù)訓(xùn)練,現(xiàn)在在通用語(yǔ)義里,能到60%的唇語(yǔ)識(shí)別準(zhǔn)確度。在專業(yè)領(lǐng)域里,比如說(shuō)讀唐詩(shī)或者安防、電梯工作間,識(shí)別率可以超過(guò)90%。

把聲音過(guò)濾掉,核心就是用嘴唇的圖像的視覺(jué)能力來(lái)做。我們知道和語(yǔ)音識(shí)別有類似的基礎(chǔ),一個(gè)是波形,一個(gè)是圖像,本身而言是相通的,只是看一下我們?cè)谀芰ι系乃伎肌?/p>

今天的主題定位在語(yǔ)言處理,認(rèn)知領(lǐng)域里自然語(yǔ)言處理的工作。

翻譯是很重要的一件事情,中國(guó)有13億人,是最大的漢語(yǔ)群體。我們非常有意愿和英語(yǔ)世界以及其他的語(yǔ)言做更多的交流,尤其剛才提到,我們是幫助大家表達(dá)和獲取信息。以前表達(dá)和獲取信息是和中文表達(dá),未來(lái)是和世界做整個(gè)的連接。

我們?cè)谇懊姘l(fā)布了我們同聲傳譯的系統(tǒng),第一次發(fā)布是在烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上。去年時(shí)我們做了升級(jí),不僅用文字展示,開(kāi)始把語(yǔ)音合成做了展示,去年用我個(gè)人的語(yǔ)音做了合成,我們甚至想嘗試是否能做情感的遷移。也就是說(shuō)我今天在這里演講時(shí),我有抑揚(yáng)頓挫、重音、發(fā)怒、調(diào)侃的語(yǔ)氣,不是簡(jiǎn)單的變成文字翻譯成英文,而是能夠把語(yǔ)音、語(yǔ)調(diào)、重音、熱情一塊兒翻譯過(guò)去,這個(gè)領(lǐng)域就可以超越人。工作進(jìn)展到目前還有一些挑戰(zhàn)和困難,所以理想是希望做出一些工作,不止在文字里面。

這一塊我們?cè)谛袠I(yè)里相對(duì)是成熟的,很自豪來(lái)講,在現(xiàn)在能夠使用的翻譯和同聲傳譯系統(tǒng),不管是從技術(shù)指標(biāo)還是工程方面,我們走在世界最前面,甚至可以說(shuō)是在第一名的位置。

同聲傳譯這個(gè)系統(tǒng)只能在大會(huì)里用,如果有翻譯人員,機(jī)器和翻譯人員還是有距離。我們內(nèi)部研發(fā)人員認(rèn)為,在2020年時(shí),可以在一些指標(biāo)上和真人做平,一些地方更好,一些地方還有不足,有兩年的目標(biāo)?,F(xiàn)在看起來(lái)還是很有挑戰(zhàn)的事情,尤其是在延遲方面。目前大會(huì)是搜狗提供的同聲傳譯系統(tǒng),通常是中文已經(jīng)一整句話識(shí)別清楚之后再翻譯英文,而翻譯人員有更多的經(jīng)驗(yàn),能夠很快的做翻譯。但他們有時(shí)候會(huì)丟句子,比如說(shuō)翻譯不了就丟掉,我們以前覺(jué)得那是一個(gè)錯(cuò)誤。但我們和同聲傳譯的專業(yè)老師溝通之后知道那是他們的技巧。所以機(jī)器和人的處理還是有很大的差別。

我們今年連續(xù)發(fā)布了兩款和翻譯相關(guān)的產(chǎn)品,一款是搜狗的旅行翻譯寶,3月份上市的,售價(jià)在1498。第二款是五天前發(fā)布的第二款產(chǎn)品搜狗錄音翻譯筆,售價(jià)398塊。這兩個(gè)產(chǎn)品上市當(dāng)天直接賣(mài)斷貨,有我們產(chǎn)能跟不上的問(wèn)題,也可以看到大家的熱情。產(chǎn)品區(qū)別是,翻譯寶不需要聯(lián)網(wǎng),把整個(gè)深度學(xué)習(xí)的模型,不管是語(yǔ)音還是圖像、翻譯,都集成在這個(gè)設(shè)備中,你出國(guó)的時(shí)候沒(méi)有網(wǎng)絡(luò),不用交費(fèi)也可以工作。

錄音翻譯筆是手機(jī)的配件,更多的是有很強(qiáng)的收音能力,比如說(shuō)你在教室里,老師在前面講課,你坐在教室最后一排,中間可能相隔三四米,沒(méi)有問(wèn)題,可以把聲音錄下來(lái),這是可以取代今天的錄音筆。我內(nèi)心當(dāng)中,這是錄音筆的顛覆。錄音筆錄的音,大家馬上想到需要做內(nèi)容的簡(jiǎn)寫(xiě)、存儲(chǔ)的管理和檢索,但傳統(tǒng)錄音筆是不智能的,我們做了很多這樣的功能。上市之后,老師 自媒體 學(xué)生很多人開(kāi)始關(guān)注這樣的產(chǎn)品。

我們?cè)谟布邢Mㄟ^(guò)這樣的做法,更快的把一些技術(shù)落地使用。

輸入法之間結(jié)合翻譯的能力,你用語(yǔ)音說(shuō)時(shí),說(shuō)中文,可能上屏就是英文。也可以敲一段中文,點(diǎn)兩個(gè)鍵就翻譯成英文發(fā)出去。輸入法不僅是變成中文溝通的方式,利用它可以很方便的和英文、日文、韓文等溝通。

搜狗的搜索也支持翻譯的功能?,F(xiàn)在可以實(shí)現(xiàn)用中文輸入檢索全球的英文信息,最后再讓你用中文閱讀。尤其在醫(yī)療、娛樂(lè)方面獲得一個(gè)世界上最前沿的信息,已經(jīng)可以做到。搜狗的使命是表達(dá)和獲取,通過(guò)這樣的方式連接到整個(gè)世界,我們對(duì)翻譯這個(gè)系統(tǒng)非常認(rèn)真。

當(dāng)然有獨(dú)立的APP,有文本對(duì)話翻譯,尤其我們開(kāi)始做拍照翻譯。實(shí)景你拍一張菜單,自己可以變成中文的菜單。中文變英文也可以。我們?cè)谂﹂_(kāi)發(fā)離線計(jì)算能力,使得你AR翻譯,當(dāng)你掃描到一個(gè)路牌時(shí),實(shí)時(shí)變成中文,怎么樣降低延遲和準(zhǔn)確性。Google之前發(fā)布了一個(gè)翻譯系統(tǒng),速度很快,但準(zhǔn)確率很低,我們?cè)谶@方面也做了很多的投入。

所以,我們翻譯的挑戰(zhàn):

第一,語(yǔ)音方面怎么做的更好,完成情感遷移。

第二,在搜索里有一個(gè)現(xiàn)象,把中文翻成英文檢索完了之后再翻譯成中文有可能出現(xiàn)翻譯成中文的詞和原始的詞對(duì)不上,這就是穩(wěn)定性的問(wèn)題,也是搜索里獨(dú)有需要解決的事情。

另外我們還會(huì)做問(wèn)答的系統(tǒng),我自己有一個(gè)斷言:搜索的未來(lái)是問(wèn)答。因?yàn)檎Z(yǔ)音只是讓你表達(dá)更多的方便,但中間一定要有一種知識(shí)推理或者對(duì)知識(shí)檢索的能力,不是給你一個(gè)網(wǎng)頁(yè),而是給你提供一個(gè)答案。

給大家看一個(gè)視頻,去年一個(gè)問(wèn)答機(jī)器人汪仔參加了《一戰(zhàn)到底》的比賽。

我們這個(gè)系統(tǒng)能夠把整個(gè)互聯(lián)網(wǎng)當(dāng)作它的數(shù)據(jù)庫(kù),IBM的系統(tǒng)是一個(gè)本地的數(shù)據(jù),它可以解決的是一些垂直領(lǐng)域、封閉領(lǐng)域的問(wèn)題,你要告訴它這個(gè)問(wèn)題是明星,這個(gè)問(wèn)題問(wèn)的是運(yùn)動(dòng)員。而搜狗的系統(tǒng)是純開(kāi)放的,你可以問(wèn)任何的問(wèn)題,只要是跟事實(shí)類相關(guān)的就可以做回答。但節(jié)目里的水平是不斷的提高,確實(shí)看到最后已經(jīng)超越了頂尖的人類選手。《一站到底》中間也是選拔最優(yōu)秀的問(wèn)答選手參加比賽,到最后比賽我們已經(jīng)做到了一開(kāi)始讓人三分開(kāi)始啟動(dòng)。做這個(gè)系統(tǒng)的時(shí)候,不懂技術(shù)的會(huì)覺(jué)得很簡(jiǎn)單,只是一個(gè)數(shù)據(jù)庫(kù)檢索。即便懂得也會(huì)擔(dān)心后面是不是有作弊?你和這樣的節(jié)目串通在一塊兒。

在今年年初國(guó)內(nèi)出現(xiàn)了一種很火熱的互相答題模式《直播答題》,一個(gè)網(wǎng)站拍100萬(wàn)人民幣,12道題,如果你都答對(duì)了,一個(gè)人答對(duì)了100萬(wàn)都給你,有100萬(wàn)個(gè)人答對(duì)了就給你1塊錢(qián),在今年年初成為一個(gè)現(xiàn)象級(jí)的活動(dòng)。在這個(gè)活動(dòng)當(dāng)中,搜狗做了一個(gè)答題助手,從對(duì)方服務(wù)器直接把視頻流引到我們的服務(wù)器,在視頻流當(dāng)中檢索主持人的問(wèn)題,然后去找到答案,并且把答案推送給我們自己的應(yīng)用。所以如果用戶拿兩個(gè)手機(jī),一個(gè)手機(jī)參加直播答題,一個(gè)手機(jī)打開(kāi)搜狗的答題助手,它可以在出題后2-3秒的時(shí)間里把答案提供給用戶。這個(gè)產(chǎn)品非常成功,答題水平比大多數(shù)人好很多,大概有90%的準(zhǔn)確性。使得每天有100萬(wàn)人使用答題助手,甚至和一些網(wǎng)站產(chǎn)生了對(duì)抗,這個(gè)網(wǎng)站努力把題出的語(yǔ)句更加復(fù)雜,想讓你的機(jī)器聽(tīng)不懂,我們的工程師更努力解碼你的題目,最后反映到這個(gè)題目長(zhǎng)到用戶已經(jīng)看不懂機(jī)器還可以讀。我們公司有同學(xué)跟我說(shuō),這個(gè)事情是否足夠正義?我覺(jué)得這本來(lái)就是一個(gè)游戲的活動(dòng),又不是高考。兩三個(gè)人坐一塊兒答題也可以,為什么不可以機(jī)器幫助?只可以人嗎?我們要適應(yīng),未來(lái)凡是機(jī)器擅長(zhǎng)的事情讓機(jī)器做,這是今年答題助手更嚴(yán)肅論證了我們?cè)趩?wèn)答領(lǐng)域里技術(shù)的領(lǐng)先性和可用性。

學(xué)術(shù)界做了非常多的關(guān)于答題研究,通常原來(lái)的測(cè)試題是默認(rèn)你問(wèn)的問(wèn)題就是問(wèn)題,而且你問(wèn)題就是有答案,并且這個(gè)答案在之前給到你的數(shù)據(jù)集里面。對(duì)于做搜索的公司做這件事情的時(shí)候,不僅僅是做閱讀理解,因?yàn)槔锩嬗泻芏嗟膯?wèn)題是不確認(rèn)的,所以我們的問(wèn)答是搜索加上閱讀理解的技術(shù)。

這個(gè)上線之后會(huì)使得原來(lái)的準(zhǔn)確度巨大下降,原來(lái)做到80%多,甚至90%。但如果對(duì)于開(kāi)放性的搜索引擎,會(huì)瞬間掉到10%-20%。20多到頭了,有更大的努力空間

事實(shí)類的問(wèn)題只占3%,還有口語(yǔ)化、相關(guān)化的問(wèn)題。并且問(wèn)的問(wèn)題很難判斷,比如說(shuō)“蒼天饒過(guò)誰(shuí)”,這聽(tīng)起來(lái)是一個(gè)問(wèn)題,但對(duì)不起,其實(shí)它是一個(gè)電視劇。所以如果你沒(méi)有做好知識(shí)的準(zhǔn)備就會(huì)判斷錯(cuò)誤。“皮膚暗黃調(diào)理”,用戶問(wèn)的是皮膚暗黃怎么調(diào)理?問(wèn)題的判斷變得很困難,包括答案的判斷和相關(guān)Passage的檢索計(jì)算??梢钥吹礁鞣N各樣的問(wèn)題,這個(gè)問(wèn)題和我們的測(cè)試題不一樣,是用戶真實(shí)問(wèn)的問(wèn)題,而且大家給的答案好像問(wèn)不對(duì)題,但其實(shí)有我想要的。比如說(shuō)“王者榮耀排位上分最好的時(shí)間段在哪?”最佳的答案完全不是考慮時(shí)間的問(wèn)題,它說(shuō)你一定要組團(tuán),有實(shí)力相當(dāng)?shù)年?duì)友。網(wǎng)絡(luò)上的數(shù)據(jù)和我們理想當(dāng)中的答案是兩回事,怎么理解這樣的問(wèn)題?這是搜索當(dāng)中的問(wèn)答和我們閱讀理解不一樣的地方,和網(wǎng)上數(shù)據(jù)有很大的差異化。

我們之前做了搜狗問(wèn)答比賽,我們和學(xué)術(shù)界之外也有合作,做了最真實(shí)的中文問(wèn)答的數(shù)據(jù)庫(kù)。如果你用這個(gè)數(shù)據(jù)庫(kù),可能就能夠真實(shí)搜索里的問(wèn)答環(huán)境。這是我們現(xiàn)在在搞的活動(dòng),現(xiàn)在和行業(yè)也做了更多的數(shù)據(jù)庫(kù),之前和清華合作發(fā)布的搜狗數(shù)據(jù),現(xiàn)在這個(gè)也可以公開(kāi),希望可以幫助到研究界解決問(wèn)題,幫助到研究界,研究界也幫到我們。

之后談一下關(guān)于“對(duì)話”。

前兩周Google的I/O大會(huì)剛剛發(fā)布了一個(gè)讓大家非常震撼的語(yǔ)音幫助你訂餐的系統(tǒng),這種對(duì)話系統(tǒng)有各種門(mén)類,有任務(wù)型的對(duì)話(如蘋(píng)果的SIRI);也有聊天機(jī)器人的對(duì)話(如微軟的小冰)。Google發(fā)布的理念和搜狗非常一致,我們稱之為輔助人,幫人做這樣的對(duì)話。事實(shí)上這個(gè)系統(tǒng)之前已經(jīng)有很多的概念設(shè)計(jì),并且已經(jīng)上線,給大家放一個(gè)小視頻。

這里面提到了一個(gè)大的概念,輸入法演化方向,大家會(huì)認(rèn)為輸入是靠語(yǔ)音,靠說(shuō),這是一個(gè)方向,幫你更省力。另外我們提到的核心邏輯是輔助輸入,從填空題變成選擇題。機(jī)器幫你做選擇、侯選,然后你再點(diǎn)選。

這個(gè)和我們今天講到的無(wú)人駕駛概念更加接近,無(wú)人駕駛是機(jī)器取代人,幫你開(kāi)車(chē)、說(shuō)話。但其實(shí)在很長(zhǎng)時(shí)間里需要一個(gè)輔助駕駛的階段,需要人機(jī)結(jié)合在一塊兒,所以我們強(qiáng)調(diào)的是機(jī)器和人一塊兒提升你的工作效率。尤其是人完全被機(jī)器取代幫你說(shuō)話是一件非??膳碌氖虑?。

我們做了很多年的工作,我們?cè)谌哪昵皢?dòng)了輔助對(duì)話的研究項(xiàng)目。

輔助對(duì)話和聊天機(jī)器人有什么樣的區(qū)別?

聊天機(jī)器人不管是任務(wù)型還是純聊天的,其實(shí)是一個(gè)機(jī)器和一個(gè)人做溝通。而輔助對(duì)話是人加上一個(gè)機(jī)器跟人做溝通,你也可以說(shuō)是機(jī)器幫助到人了,幫我做的更好,是人的輔助。但換一種視角,也是人在幫助機(jī)器,機(jī)器給了幾個(gè)答案,不確認(rèn)哪個(gè)更好,人在點(diǎn)選的時(shí)候,也是輔助機(jī)器做這樣一個(gè)對(duì)話,這樣會(huì)非常美妙。

從用戶價(jià)值上來(lái)講,之前的純聊天機(jī)器人的目標(biāo)不清楚,怎么叫做更好?而我們輔助對(duì)話很確認(rèn),是提升用戶的效率,不是取代人,是在幫助你改進(jìn)你的效率。

評(píng)價(jià)方法上,傳統(tǒng)的聊天機(jī)器人基本上靠人工評(píng)測(cè),沒(méi)有特別好的自動(dòng)評(píng)價(jià)好不好的方法。微軟的小冰有一個(gè)方法,聊天聊的時(shí)間越長(zhǎng)越好,對(duì)話的回合數(shù)更多。它的理論是別把天給聊死了,這個(gè)作為它的考評(píng)指標(biāo),我覺(jué)得也挺無(wú)聊的。而輔助對(duì)話的評(píng)價(jià)指標(biāo)靠最后的覆蓋度點(diǎn)擊率,我提供了這個(gè)侯選之后,人是否點(diǎn)了,點(diǎn)了第一個(gè)還是第二個(gè)?或者一個(gè)也沒(méi)有點(diǎn)開(kāi)始他自己的輸入?這個(gè)事情有明確的對(duì)它好不好的評(píng)價(jià),能幫它做數(shù)據(jù)的積累和迭代。在數(shù)據(jù)積累和迭代中,傳統(tǒng)的方法比較困難。用輔助對(duì)話是在用戶的主動(dòng)輸入、主動(dòng)點(diǎn)擊行為都可以構(gòu)成到我們這樣的數(shù)據(jù)庫(kù)。

2014年10月份,我們?cè)诙绦派贤瞥鑫覀冏约旱腁PP,集成了我們的聊天工具。2016年兩年后做到了日活800萬(wàn)+,月活2000萬(wàn)+的水平。這個(gè)功能核心是防止電話騷擾等。收集到了大量的數(shù)據(jù),最終做到了展現(xiàn)率,對(duì)方說(shuō)話之后,展現(xiàn)率超過(guò)54.02%,點(diǎn)擊率是8.59%,不算特別高,但是這個(gè)值已經(jīng)接近聯(lián)想的值。我認(rèn)為還沒(méi)有展示出機(jī)器魅力。

后來(lái)從手機(jī)短信轉(zhuǎn)向了聊天軟件,核心是QQ。我們做數(shù)據(jù)分析對(duì)比這兩類大家的話題很不一樣。手機(jī)新還是以效率優(yōu)先,是一些簡(jiǎn)單的事務(wù),主要的聊天和事相關(guān)。到了聊天軟件之后,本身很發(fā)散,從句子的長(zhǎng)度都非常發(fā)散,從原有的套過(guò)來(lái),覆蓋率瞬間從50%降低到10%。用原來(lái)的不夠了,用戶更加追求趣味多樣化的表達(dá)。所以我們開(kāi)始做一些復(fù)雜的模型,有檢索的模型、深度學(xué)習(xí)的模型等等開(kāi)始做,用各種混合的方式來(lái)解決這個(gè)問(wèn)題。

現(xiàn)在這個(gè)聊天軟件用了搜狗覆蓋的3%的QQ用戶用這個(gè)功能,只開(kāi)3%做嘗試。每天的數(shù)據(jù)集是4300萬(wàn),每個(gè)月會(huì)收集3億的對(duì)話數(shù)據(jù),這個(gè)數(shù)據(jù)中既有人在里面怎么聊,也有機(jī)器聊的好不好和點(diǎn)擊率、展現(xiàn)率的反饋。現(xiàn)在回到好的效果,展現(xiàn)率52%,點(diǎn)擊率8%。我們希望這個(gè)值還能有5倍的提升。這是輔助聊天軟件做的嘗試。

除此之外,我們會(huì)把這個(gè)系統(tǒng)用到以后的垂直領(lǐng)域,比如客服領(lǐng)域。今天大家說(shuō)是機(jī)器取代人去客服,我們的理念是機(jī)器和人是協(xié)作的,可能一開(kāi)始坐席用的是搜狗定制版的輸入法,它幫你做客服,以后慢慢工位上開(kāi)始使用機(jī)器,不要脫離環(huán)境,總是保持一部分的工位上是人機(jī)結(jié)合,一部分是自動(dòng)的。這是我們做的一個(gè)技術(shù),今年年底前會(huì)看到很有意思的效果。

之前是上下文做的訓(xùn)練,往下的幾個(gè)要點(diǎn)要考慮:

第一,知識(shí)放上去。這個(gè)系統(tǒng)有一個(gè)問(wèn)題,機(jī)場(chǎng)安檢的充電寶最大容量是多少?在你以前的聊天環(huán)境中沒(méi)有這個(gè)數(shù)據(jù),是否把問(wèn)答的引擎接進(jìn)去?或者晚上在哪里吃飯?再把你個(gè)性化地址接進(jìn)去。最愛(ài)習(xí)慣的餐廳。過(guò)敏性鼻炎犯了怎么辦?商業(yè)化能力怎么介入 推薦電影去哪里看?把超越用戶自己的知識(shí)放進(jìn)去,甚至用戶自己都想不到的答案,提供一個(gè)更好的答案,這是我們努力的方向。

第二,挑戰(zhàn)。包括用戶個(gè)性化風(fēng)格的問(wèn)題。之前我們給的通用系統(tǒng)問(wèn)問(wèn)題了之后有四個(gè)答案,不認(rèn)識(shí)、不認(rèn)得、認(rèn)不得、我不認(rèn)識(shí)啊。你給了這四個(gè)答案,怎么說(shuō)也沒(méi)錯(cuò),但其實(shí)對(duì)用戶來(lái)說(shuō)是一個(gè)很大的騷擾或者他覺(jué)得你很笨,怎么學(xué)會(huì)用戶自己的口頭表達(dá)方式?這是中間的一個(gè)挑戰(zhàn)。

另外是用戶的自己,比如用戶問(wèn)我你在哪?第一次回復(fù)是否記住了?第二次被人問(wèn)到你在哪的時(shí)候,就知道給你生成侯選答案??梢园盐业牧?xí)慣和行為作為一個(gè)學(xué)習(xí)。去年10月份搜狗IPO的時(shí)候,上市之后特別多的祝福短信 微信 過(guò)來(lái)到我的手機(jī)上,我有強(qiáng)迫癥,我覺(jué)得人家既然問(wèn)候了你上市成功這件事情我就應(yīng)該有一個(gè)回復(fù),我每天要處理2000-3000條的回復(fù),處理了之后就睡覺(jué),第二天爬起來(lái)手機(jī)就爆掉了。我就說(shuō)手機(jī)能不能幫我回復(fù)?老師來(lái)了怎么回復(fù),同學(xué)來(lái)了怎么回復(fù)同事來(lái)了怎么回復(fù)。

然后是能否在客戶端上訓(xùn)練數(shù)據(jù),一個(gè)是上下文里有多個(gè)上下文,也就是長(zhǎng)文章里訓(xùn)練。現(xiàn)在有時(shí)候在群里或者用戶聊天中,聊的可能是多線程的。兩個(gè)人聊好幾個(gè)事,對(duì)方問(wèn)的話,你回答的是前面一個(gè)問(wèn)題,這種情況下怎么樣做數(shù)據(jù)的訓(xùn)練和抽取。

最后是策略問(wèn)題,今天做的工作核心還是放在服務(wù)器上,這樣更好的迭代。但是這件事情對(duì)性能、隱私都有更大的挑戰(zhàn),怎么樣把模型壓縮小了放在設(shè)備里去,這是我們考慮的一個(gè)問(wèn)題。

這是講到我們?cè)趯?duì)話里的努力方向是輔助對(duì)話,有別于大多數(shù)公司在做的任務(wù)。

這個(gè)任務(wù)首先和搜狗的特長(zhǎng)結(jié)合的特別好。

第二,理念里面幫助到人,讓人 更強(qiáng)。和Google最近發(fā)布的這件事情是非常一致的。

最后提到我們的模式,搜狗內(nèi)部有兩個(gè)做研究的機(jī)構(gòu):

一、搜狗輸入法。自然交互。

二、搜狗搜索。知識(shí)計(jì)算。

第一,自然交互和人更好的溝通,搜狗每天有超過(guò)3億次的語(yǔ)音識(shí)別請(qǐng)求,這是我們?cè)谡泄蓵?shū)里承諾的,不能含有水分,這個(gè)是全中國(guó)排名第一的,以前不敢說(shuō),百度最近財(cái)報(bào)里提到了,說(shuō)的是語(yǔ)音請(qǐng)求數(shù)是2億次,搜狗每次做的在線識(shí)別量是全中國(guó)最大的。

自然交互用新的智能硬件做承載,包括像ECHO小音箱,一年內(nèi)我們還會(huì)有三款智能硬件的發(fā)布,一款比一款更加驚艷。超出大家想象。

第二,知識(shí)計(jì)算不僅來(lái)自于互聯(lián)網(wǎng),在醫(yī)學(xué)知識(shí)、法律知識(shí)來(lái)自于知識(shí)圖譜和線下的特別文獻(xiàn),可以在里面做更多精準(zhǔn)的推理分析。從輸入和搜索兩個(gè)頭,一頭離用戶更近,一頭是更深的知識(shí)。

合在一塊兒,最后打造的還是虛擬的個(gè)人助理,一年之內(nèi)我們會(huì)不斷的發(fā)新的智能硬件產(chǎn)品,會(huì)在各種領(lǐng)域做垂直的個(gè)人助理,幫助你表達(dá)、更好獲取信息的一個(gè)新的產(chǎn)品平臺(tái)。這是搜狗基于現(xiàn)在的能力做的幾件事情。

今天給大家的報(bào)告到這里,謝謝!

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 搜狗
    +關(guān)注

    關(guān)注

    0

    文章

    91

    瀏覽量

    14112
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35106

    瀏覽量

    279566

原文標(biāo)題:2018GAITC演講實(shí)錄丨王小川:搜狗的AI之路與挑戰(zhàn)

文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI?時(shí)代來(lái)襲,手機(jī)芯片面臨哪些新挑戰(zhàn)

    邊緣AI、生成式AI(GenAI)以及下一代通信技術(shù)正為本已面臨高性能與低功耗壓力的手機(jī)帶來(lái)更多計(jì)算負(fù)載。領(lǐng)先的智能手機(jī)廠商正努力應(yīng)對(duì)本地化生成式AI、常規(guī)手機(jī)功能以及與云之間日益增長(zhǎng)的數(shù)據(jù)傳輸需求
    的頭像 發(fā)表于 06-10 08:34 ?456次閱讀
    <b class='flag-5'>AI</b>?時(shí)代來(lái)襲,手機(jī)芯片面臨哪些新<b class='flag-5'>挑戰(zhàn)</b>?

    深圳啟航,燃動(dòng)灣區(qū)!IDC Directions 2025探秘AI重塑轉(zhuǎn)型之路

    300位嘉賓參加了IDC Directions 2025:中國(guó)ICT市場(chǎng)趨勢(shì)論壇首場(chǎng)活動(dòng)。 以“AI領(lǐng)航? 重塑轉(zhuǎn)型之路”為主題,IDC中國(guó)資深分析師悉數(shù)亮相,與嘉賓們分享了全球及中國(guó)ICT市場(chǎng)的最新技術(shù)趨勢(shì)和專業(yè)洞察,并帶來(lái)了“全球A
    發(fā)表于 05-15 21:52 ?1041次閱讀
    深圳啟航,燃動(dòng)灣區(qū)!IDC Directions 2025探秘<b class='flag-5'>AI</b>重塑轉(zhuǎn)型<b class='flag-5'>之路</b>

    騰訊AI To C業(yè)務(wù)大調(diào)整:QQ瀏覽器、搜狗等轉(zhuǎn)入CSIG

    騰訊內(nèi)部近期完成了一次重要的產(chǎn)品及團(tuán)隊(duì)調(diào)整,標(biāo)志著其AI To C業(yè)務(wù)戰(zhàn)略的新一輪變革。據(jù)悉,QQ瀏覽器、搜狗輸入法以及ima等多款產(chǎn)品和應(yīng)用,將正式并入CSIG(云與智慧產(chǎn)業(yè)事業(yè)群)。 此次調(diào)整
    的頭像 發(fā)表于 02-20 09:22 ?857次閱讀

    NVIDIA RAPIDS cuDF如何賦能AI加速數(shù)據(jù)科學(xué)

    隨著 AI 正幫助各行各業(yè)推動(dòng)創(chuàng)新和提高效率,基于海量的高質(zhì)量數(shù)據(jù)來(lái)訓(xùn)練各種模型是充分發(fā)揮 AI 應(yīng)用潛力的必經(jīng)之路,正因如此,數(shù)據(jù)科學(xué)家們面臨著日益增長(zhǎng)的工作負(fù)載需求,迫切需求尋找高效趁手的工具以應(yīng)對(duì)
    的頭像 發(fā)表于 01-24 09:26 ?610次閱讀

    AI醫(yī)療深度融合機(jī)遇與挑戰(zhàn)并存

    2024年,醫(yī)療AI步入轉(zhuǎn)折期,挑戰(zhàn)與新生并存。
    的頭像 發(fā)表于 12-16 13:52 ?693次閱讀

    聲智科技打造AI匠心之路

    卷關(guān)注度、卷曝光度、卷用戶心智占領(lǐng)……此前一份行業(yè)數(shù)據(jù)表示,國(guó)產(chǎn)AI正在進(jìn)行一場(chǎng)以燒錢(qián)投放為核心的市場(chǎng)占有率之戰(zhàn)。
    的頭像 發(fā)表于 11-08 09:30 ?770次閱讀

    AI如何助力EDA應(yīng)對(duì)挑戰(zhàn)

    探究當(dāng)今產(chǎn)業(yè)背景和科技潮流中半導(dǎo)體產(chǎn)業(yè)所面臨的挑戰(zhàn)與變革時(shí),不難發(fā)現(xiàn),一個(gè)至關(guān)重要的轉(zhuǎn)折點(diǎn)已經(jīng)發(fā)生——人工智能(AI)的崛起正以前所未有的力量,對(duì)電子設(shè)計(jì)自動(dòng)化(EDA)乃至整個(gè)半導(dǎo)體產(chǎn)業(yè)帶來(lái)顛覆性的變革。
    的頭像 發(fā)表于 10-17 10:21 ?1076次閱讀
    <b class='flag-5'>AI</b>如何助力EDA應(yīng)對(duì)<b class='flag-5'>挑戰(zhàn)</b>

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    的深入發(fā)展。 3. 挑戰(zhàn)與機(jī)遇并存 盡管AI在生命科學(xué)領(lǐng)域取得了顯著的成果,但也面臨著諸多挑戰(zhàn)。例如,數(shù)據(jù)隱私、算法偏見(jiàn)、倫理道德等問(wèn)題都需要我們認(rèn)真思考和解決。同時(shí),如何更好地將AI
    發(fā)表于 10-14 09:21

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    的物理可信度,還為科學(xué)研究提供了新的視角和方法。 5. 挑戰(zhàn)與未來(lái)展望 第二章也提到了AI for Science面臨的挑戰(zhàn)和未來(lái)展望。盡管AI技術(shù)在科學(xué)研究中取得了顯著進(jìn)展,但仍存在
    發(fā)表于 10-14 09:16

    NVIDIA為AI城市挑戰(zhàn)賽構(gòu)建合成數(shù)據(jù)集

    在一年一度的 AI 城市挑戰(zhàn)賽中,來(lái)自世界各地的數(shù)百支參賽隊(duì)伍在 NVIDIA Omniverse 生成的基于物理學(xué)的數(shù)據(jù)集上測(cè)試了他們的 AI 模型。
    的頭像 發(fā)表于 09-09 10:04 ?885次閱讀

    什么是邊緣AI?邊緣AI的供電挑戰(zhàn)

    RECOM 的 RACM1200-V 采用數(shù)字通信,可輕松集成到邊緣 AI設(shè)計(jì)中。
    的頭像 發(fā)表于 09-02 11:52 ?936次閱讀
    什么是邊緣<b class='flag-5'>AI</b>?邊緣<b class='flag-5'>AI</b>的供電<b class='flag-5'>挑戰(zhàn)</b>

    萬(wàn)物智聯(lián)時(shí)代,RISC-V與AI的融合之路該如何走?

    人工智能與機(jī)器學(xué)習(xí)專委會(huì)主席謝濤發(fā)表了《萬(wàn)物智聯(lián)時(shí)代RISC-V+AI之路》演講,分析了RISC-V與AI技術(shù)的結(jié)合及其發(fā)展路徑探索。他在發(fā)言中,盡管?chē)?guó)產(chǎn)AI芯片在硬件
    的頭像 發(fā)表于 08-31 08:06 ?1083次閱讀
    萬(wàn)物智聯(lián)時(shí)代,RISC-V與<b class='flag-5'>AI</b>的融合<b class='flag-5'>之路</b>該如何走?

    AI普及給嵌入式設(shè)計(jì)人員帶來(lái)新挑戰(zhàn)

    探討了人工智能(AI)的普及給嵌入式設(shè)計(jì)人員帶來(lái)的新挑戰(zhàn)。在創(chuàng)建“邊緣機(jī)器學(xué)習(xí)(ML)”應(yīng)用時(shí),設(shè)計(jì)人員必須確保其能有效運(yùn)行,同時(shí)最大限度地降低處理器和存儲(chǔ)開(kāi)銷,以及物聯(lián)網(wǎng)(IoT)設(shè)備的功耗
    發(fā)表于 08-22 14:20 ?885次閱讀
    <b class='flag-5'>AI</b>普及給嵌入式設(shè)計(jì)人員帶來(lái)新<b class='flag-5'>挑戰(zhàn)</b>

    數(shù)據(jù)中心的AI時(shí)代轉(zhuǎn)型:挑戰(zhàn)與機(jī)遇

    隨著人工智能(AI)的迅速發(fā)展和廣泛應(yīng)用,數(shù)據(jù)中心作為AI技術(shù)的基石,也面臨著前所未有的挑戰(zhàn)和機(jī)遇。為了滿足AI的高性能和低延遲要求,數(shù)據(jù)中心基礎(chǔ)設(shè)施必須進(jìn)行相應(yīng)的改變和升級(jí)。01、基
    的頭像 發(fā)表于 07-24 08:28 ?828次閱讀
    數(shù)據(jù)中心的<b class='flag-5'>AI</b>時(shí)代轉(zhuǎn)型:<b class='flag-5'>挑戰(zhàn)</b>與機(jī)遇

    平衡創(chuàng)新與倫理:AI時(shí)代的隱私保護(hù)和算法公平

    成了一把雙刃劍,其銳利的一面正逐漸指向我們的核心價(jià)值。面對(duì)這些挑戰(zhàn),制定一套有效的AI治理框架和隱私保護(hù)機(jī)制變得迫在眉睫。 確保AI決策的透明度是解決這些問(wèn)題的關(guān)鍵一步。透明度不僅要求公開(kāi)算法的運(yùn)作
    發(fā)表于 07-16 15:07