欧美日韩在线成人免费-欧美日韩在线成人看片a-欧美日韩在线不卡-欧美日韩在线播放-自拍偷拍三级-自拍偷拍欧美亚洲

當(dāng)前位置:首頁(yè) > 最新資訊 > 行業(yè)資訊

未來(lái),我們將如何進(jìn)行信息搜索?

搜索引擎自誕生之初到現(xiàn)在已經(jīng)有二十多年,其形式和架構(gòu)一直沒(méi)有發(fā)生很大改變。伴隨著互聯(lián)網(wǎng)技術(shù)的持續(xù)發(fā)展,未來(lái)的搜索環(huán)境將變得愈加復(fù)雜多樣,用戶(hù)獲取信息的方式也會(huì)發(fā)生很多的變化,自然語(yǔ)言、語(yǔ)音、視覺(jué)等多種輸入形式勢(shì)必會(huì)取代簡(jiǎn)單的關(guān)鍵詞;答案、高階知識(shí)、分析結(jié)果、生成內(nèi)容等多種模態(tài)內(nèi)容輸出將取代簡(jiǎn)單結(jié)果列表;在交互方式上也可能會(huì)從單輪檢索過(guò)渡到多輪自然語(yǔ)言交互。

那么在新的搜索的環(huán)境下,未來(lái)智能搜索技術(shù)都將會(huì)呈現(xiàn)出哪些特征呢?日前,在51CTO主辦的在??AISummit全球人工智能技術(shù)大會(huì)??上,中國(guó)人民大學(xué)高瓴人工智能學(xué)院副院長(zhǎng)竇志成老師通過(guò)主題演講——《下一代智能搜索技術(shù)》,為廣大聽(tīng)眾分享了新一代智能搜索技術(shù)的發(fā)展趨勢(shì)及核心特征,同時(shí)就交互式、多模態(tài)、可解釋搜索、及以大模型為中心的去索引化搜索等技術(shù)做出了詳盡分析。本文將竇志成老師的演講內(nèi)容進(jìn)行了編輯整理,希望能給大家?guī)?lái)一些新的啟發(fā):

未來(lái)搜索的主要特征

我們認(rèn)為未來(lái)的搜索可能會(huì)有至少這五個(gè)方面的特征:

對(duì)話(huà)式,人和搜索引擎是通過(guò)自然語(yǔ)言進(jìn)行多輪交互的一種方式。

個(gè)性化,會(huì)根據(jù)不同用戶(hù)的需求反饋不同的結(jié)果,而不是千篇一律、千人一面的為所有人反饋相同的結(jié)果。

多模態(tài),返回的內(nèi)容和輸入的方式可能不僅僅局限于用文本來(lái)作為媒介或者是途徑。

富知識(shí),搜索返回的信息不僅僅是一個(gè)結(jié)果列表的形式,可能是有各種不同的展示的形式,以各種知識(shí)、實(shí)體的方式展示。

去索引倒排索引或稠密索引的方式也迫切需要產(chǎn)生很大的變化。

對(duì)話(huà)式

現(xiàn)在使用的搜索引擎普遍采用的模式是在一個(gè)框里面輸入一兩個(gè)詞進(jìn)行搜索。未來(lái)的搜索則可能是我們與搜索引擎采用對(duì)話(huà)的方式進(jìn)行交互。

在傳統(tǒng)的搜索引擎采用的關(guān)鍵詞檢索方式,我們希望把所有要找的信息核心都通過(guò)關(guān)鍵詞描述出來(lái),即我們假設(shè)單個(gè)查詢(xún)能夠完整、準(zhǔn)確地表達(dá)這個(gè)信息的需求。但在表達(dá)一個(gè)較為復(fù)雜的信息時(shí),關(guān)鍵詞其實(shí)是很難滿(mǎn)足需求的。而對(duì)話(huà)式搜索可以通過(guò)多輪交互來(lái)充分表達(dá)信息需求,比較符合人和人在交流的時(shí)層層遞進(jìn)的信息交互方式。

想要到達(dá)這種交互式搜索,會(huì)給系統(tǒng)或算法帶來(lái)很大的挑戰(zhàn),需要讓搜索引擎從多輪的自然語(yǔ)言交互中準(zhǔn)確理解用戶(hù)的意圖,同時(shí)也要把理解出的意圖與用戶(hù)想要的信息做好匹配。

相比于傳統(tǒng)的關(guān)鍵詞搜索,對(duì)話(huà)式搜索需要更復(fù)雜的查詢(xún)理解(例如需要解決當(dāng)前查詢(xún)中的省略,共指等問(wèn)題),以還原用戶(hù)的真實(shí)搜索意圖。最簡(jiǎn)單的方式是將歷史查詢(xún)?nèi)科唇悠饋?lái),使用預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行編碼。

簡(jiǎn)單的拼接對(duì)話(huà)方式雖然簡(jiǎn)單,但可能會(huì)引入噪聲,并不是所有的歷史查詢(xún)都對(duì)于理解當(dāng)前查詢(xún)是有幫助的,所以我們只選出和它有依賴(lài)關(guān)系的上下文,這樣也能解決長(zhǎng)度的問(wèn)題。

對(duì)話(huà)式檢索模型COTED

基于以上思想,我們提出了對(duì)話(huà)式稠密檢索的模型COTED,其主要包括如下三部分:

1、通過(guò)識(shí)別對(duì)話(huà)查詢(xún)中的依賴(lài)關(guān)系,來(lái)去除對(duì)話(huà)中的噪聲,進(jìn)而更好地預(yù)測(cè)用戶(hù)的意圖。

2、基于對(duì)比學(xué)習(xí)的數(shù)據(jù)增強(qiáng)(模仿各種噪聲情況)和去噪損失函數(shù),有效讓模型學(xué)會(huì)忽略無(wú)關(guān)的上下文,把它和最終匹配的損失函數(shù)聯(lián)合,做多任務(wù)的學(xué)習(xí)。

3、通過(guò)課程學(xué)習(xí)的方式來(lái)降低模型多任務(wù)學(xué)習(xí)的學(xué)習(xí)難度,最終提升模型性能。

然而,夠用于對(duì)話(huà)式搜索模型訓(xùn)練的數(shù)據(jù)實(shí)際上是非常有限的,在有限的少樣本情況下,對(duì)話(huà)式搜索的模型訓(xùn)練是非常困難的。

如何解決這個(gè)問(wèn)題?出發(fā)點(diǎn)就是能否把搜索引擎日志遷移去做對(duì)話(huà)式搜索引擎的訓(xùn)練。在這個(gè)思想上,把大規(guī)模的web搜索的日志轉(zhuǎn)換成對(duì)話(huà)式搜索日志,然后在轉(zhuǎn)換之后的數(shù)據(jù)上訓(xùn)練對(duì)話(huà)式搜索的模型。但這種方法也同時(shí)伴隨著兩個(gè)很明顯的問(wèn)題:

一是傳統(tǒng)的web搜索采用關(guān)鍵詞搜索的方式,對(duì)話(huà)式搜索是自然語(yǔ)言對(duì)話(huà)的方式,查詢(xún)形式是不一樣的,無(wú)法直接遷移使用。二是查詢(xún)本身就會(huì)存在很多噪聲,需要對(duì)搜索日志里面的用戶(hù)數(shù)據(jù)做一些清洗、過(guò)濾、轉(zhuǎn)換,才能用在對(duì)話(huà)式搜索里面。

對(duì)話(huà)式搜索訓(xùn)練模型ConvTrans

為了解決這些問(wèn)題,我們做了對(duì)話(huà)式搜索訓(xùn)練模型ConvTrans,并實(shí)現(xiàn)了以下功能。

首先,以圖的方式對(duì)傳統(tǒng)的web搜索引擎中的日志進(jìn)行了組織,通過(guò)查詢(xún)與查詢(xún)、查詢(xún)與文檔之間建立聯(lián)系構(gòu)建了圖。在圖的基礎(chǔ)上,使用了一個(gè)基于T5的兩階段查詢(xún)改寫(xiě)的模型,將一個(gè)關(guān)鍵詞的查詢(xún)改寫(xiě)成一個(gè)問(wèn)題的形式。經(jīng)過(guò)改寫(xiě)之后,圖中每個(gè)查詢(xún)都會(huì)用自然語(yǔ)言來(lái)表達(dá)新的查詢(xún),再設(shè)計(jì)一個(gè)采樣的算法,從圖上做隨機(jī)游走,生成對(duì)話(huà)的會(huì)話(huà),之后基于這個(gè)數(shù)據(jù)來(lái)訓(xùn)練對(duì)話(huà)的模型。

實(shí)驗(yàn)顯示,用這種自動(dòng)生成的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練的對(duì)話(huà)式搜索模型,能夠和使用昂貴的人造或者人工標(biāo)注的數(shù)據(jù)達(dá)到同樣的效果,且隨著自動(dòng)生成的訓(xùn)練數(shù)據(jù)規(guī)模的增大,性能也會(huì)持續(xù)提升。這種方法使我們基于大規(guī)模搜索日志進(jìn)行訓(xùn)練對(duì)話(huà)式搜索模型成為了可能。

對(duì)話(huà)式搜索模型雖然在搜索上已經(jīng)走了一大步,但這種對(duì)話(huà)方式仍然是被動(dòng)的,搜索引擎一直被動(dòng)的接受用戶(hù)的輸入,根據(jù)輸入來(lái)返回結(jié)果,搜索引擎沒(méi)有主動(dòng)地去問(wèn)用戶(hù)你到底要找什么。但在人和人的交流過(guò)程中,當(dāng)你被問(wèn)一個(gè)問(wèn)題的時(shí)候,有時(shí)候你會(huì)主動(dòng)地來(lái)反問(wèn)一些問(wèn)題來(lái)做澄清。

比如必應(yīng)搜索里面,如果Query是“Headaches”,頭疼。它會(huì)問(wèn)你“What do want to know about this medical condition”“你想知道關(guān)于這個(gè)疾病的什么事”,比如說(shuō)是它的癥狀、還是治療、還是診斷、還是成因或者誘因。因?yàn)镠eadaches本身是非常寬泛的一個(gè)Query,在這種情況下,系統(tǒng)希望能夠進(jìn)一步澄清你想找到哪里的信息。

這里面臨兩個(gè)問(wèn)題,第一是候選項(xiàng),就是想讓用戶(hù)去澄清到哪個(gè)具體的項(xiàng)。第二是澄清問(wèn)題,搜索引擎主動(dòng)反過(guò)來(lái)問(wèn)用戶(hù)的這個(gè)問(wèn)題。而核心詞是澄清問(wèn)題里面最至關(guān)重要的一部分。

在這方面的探索,第一是通過(guò)查詢(xún)?nèi)罩竞椭R(shí)庫(kù)去給定一個(gè)查詢(xún)的時(shí)候,能夠生成一些澄清的候選項(xiàng)。第二,基于規(guī)則可以通過(guò)搜索的結(jié)果來(lái)預(yù)測(cè)這個(gè)澄清問(wèn)題的一些核心詞。同時(shí)也標(biāo)注一些數(shù)據(jù),通過(guò)有監(jiān)督的模型來(lái)做這種文本標(biāo)簽的分類(lèi)。第三,進(jìn)一步在這個(gè)標(biāo)注數(shù)據(jù)的基礎(chǔ)上訓(xùn)練端到端的生成模型。

個(gè)性化

個(gè)性化指的是未來(lái)的搜索將以用戶(hù)為核心。現(xiàn)在的搜索引擎,不管是誰(shuí)來(lái)查,返回都是同樣的結(jié)果。而這并不能滿(mǎn)足用戶(hù)的特定化信息需求。

現(xiàn)在的個(gè)性化搜索采用的模式,首先通過(guò)用戶(hù)歷史學(xué)習(xí)用戶(hù)熟悉的知識(shí)信息,對(duì)查詢(xún)進(jìn)行個(gè)性化實(shí)體消歧。其次,通過(guò)消歧后的查詢(xún)實(shí)體增強(qiáng)個(gè)性化匹配。

此外我們?cè)诨诋a(chǎn)品品類(lèi)構(gòu)建用戶(hù)的多興趣模型方面也做了探索,假設(shè)用戶(hù)可能有自己在所有品類(lèi)上的一些品牌(規(guī)格、型號(hào))傾向性,但是這個(gè)傾向性不能簡(jiǎn)單的通過(guò)一兩個(gè)向量來(lái)去刻畫(huà)。應(yīng)該根據(jù)用戶(hù)購(gòu)物的歷史,構(gòu)建知識(shí)圖譜,通過(guò)知識(shí)圖譜針對(duì)不同品類(lèi)學(xué)習(xí)不同的興趣,最終做更精準(zhǔn)的個(gè)性化搜索的結(jié)果推送。

也可以用同樣的個(gè)性化方法去做聊天機(jī)器人,核心思想就是通過(guò)用戶(hù)歷史對(duì)話(huà),學(xué)習(xí)用戶(hù)個(gè)性化興趣和語(yǔ)言模式,訓(xùn)練個(gè)性化對(duì)話(huà)模型,可以模仿(代理)用戶(hù)說(shuō)話(huà)。

多模態(tài)

現(xiàn)在的搜索引擎在處理多模態(tài)信息的時(shí)候,其實(shí)有相當(dāng)多的局限性的。未來(lái)用戶(hù)獲取的信息可能不僅僅是一些文字、網(wǎng)頁(yè),可能還包括圖片、視頻以及更復(fù)雜的結(jié)構(gòu)信息。所以未來(lái)的搜索引擎在多模態(tài)信息獲取上還有很多工作需要做。

現(xiàn)在的搜索引擎在理解或者是做跨模態(tài)檢索時(shí),即給出一個(gè)文本的描述,去找它對(duì)應(yīng)的圖片的時(shí)候,做得還是有很多缺陷的。類(lèi)似的搜索如果遷移到手機(jī)上,局限性就會(huì)更大。

所謂的多模態(tài)就是語(yǔ)言、要找的圖像、圖片、視頻等模態(tài),映射到統(tǒng)一的一個(gè)空間上,這就意味著可以通過(guò)文字去找圖片,圖片去找文字,圖片去找圖片等。

對(duì)此,我們做了大規(guī)模多模態(tài)的預(yù)訓(xùn)練模型——文瀾。其重點(diǎn)是基于海量的互聯(lián)網(wǎng)圖片和附近文字的弱監(jiān)督相關(guān)性貢獻(xiàn)的信息訓(xùn)練出來(lái)的。采用雙塔模式,最后訓(xùn)練的是一個(gè)圖片的編碼器和文本的編碼器,這兩個(gè)編碼器通過(guò)端到端匹配的優(yōu)化學(xué)習(xí)過(guò)程,讓最終的表示向量能夠映射到統(tǒng)一空間中,而不是把圖片的細(xì)粒度和文字的細(xì)粒度拼接在一起。

這種跨模態(tài)的檢索能力,其實(shí)不只是端到端給用戶(hù)使用web搜索引擎時(shí)提供了更多的空間,同時(shí)也可以支撐很多應(yīng)用,例如創(chuàng)作,不管是社交媒體還是文創(chuàng)類(lèi),都可以用它來(lái)支撐。

富知識(shí)

現(xiàn)在的搜索引擎普遍檢索的主體還是網(wǎng)頁(yè),而未來(lái)搜索引擎處理的單元不僅僅是網(wǎng)頁(yè),應(yīng)該是以知識(shí)為處理的單位,包括返回的結(jié)果也應(yīng)該是高階的知識(shí),而不是一個(gè)一個(gè)頁(yè)面的列表形式。很多時(shí)候用戶(hù)其實(shí)想通過(guò)搜索引擎來(lái)完成一些復(fù)雜的信息需求,故而希望搜索引擎幫助分析結(jié)果,而不是讓人來(lái)一個(gè)一個(gè)去分析。

基于此想法我們構(gòu)建了分析引擎,相當(dāng)于是在搜索引擎的基礎(chǔ)上,能提供深度的文本分析,幫助用戶(hù)高效、快捷地獲取高階知識(shí)。幫助用戶(hù)完成對(duì)大規(guī)模文檔的閱讀和理解,并對(duì)其中所包含的關(guān)鍵信息和知識(shí)進(jìn)行抽取、挖掘、匯總,最終通過(guò)交互式的分析過(guò)程,讓用戶(hù)對(duì)挖掘到的高階知識(shí)進(jìn)行瀏覽和分析,進(jìn)而為用戶(hù)提供決策支持。

例如用戶(hù)希望找霧霾相關(guān)的信息,可以直接輸入“霧霾”。富知識(shí)模式與傳統(tǒng)的搜索引擎返回的結(jié)果不同,可能返回一個(gè)時(shí)間軸,告訴用戶(hù)關(guān)于霧霾的信息在時(shí)間軸上的分布等情況,還會(huì)總結(jié)出關(guān)于霧霾的子話(huà)題有哪些、機(jī)構(gòu)有哪些、人物有哪些。當(dāng)然它也可以像搜索引擎一樣提供詳細(xì)的結(jié)果的列表。

這種可以直接提供分析,而且是交互式分析的能力,能夠更好地幫助用戶(hù)獲取復(fù)雜信息的能力。提供給用戶(hù)的東西不再是簡(jiǎn)單的搜索結(jié)果列表。當(dāng)然這種交互式的多維知識(shí)分析,只是一種展示方式,以后還可以做更多的方式,比如我們現(xiàn)在正在做的一件事情就是從檢索到生成(有理有據(jù)的)內(nèi)容。

去索引

現(xiàn)在的搜索引擎廣泛采用以索引為核心的分階段方式,從大量互聯(lián)網(wǎng)的網(wǎng)頁(yè)爬回所需內(nèi)容后構(gòu)建Index,也就是倒排的索引或稠密的向量索引。用戶(hù)的Query來(lái)之后,先要做召回,在召回的結(jié)果基礎(chǔ)上再做精細(xì)化排序。

這個(gè)模式有很多弊端,因?yàn)橐蛛A段,如果一個(gè)階段上出了問(wèn)題,例如在召回階段沒(méi)有找到想要的結(jié)果,它排序階段做得再好,也不可能返回很好的結(jié)果。

在未來(lái)的搜索引擎中,這種結(jié)構(gòu)有可能是會(huì)被打破的。全新的想法是使用一個(gè)大的模型來(lái)取代現(xiàn)在的索引的模式,所有的查詢(xún)都可以通過(guò)模型來(lái)滿(mǎn)足。這就不再需要使用索引了,而是直接通過(guò)這種模型反饋想要的結(jié)果。

在這個(gè)基礎(chǔ)上,可以直接提供結(jié)果列表,也可以直接提供用戶(hù)所需的答案,甚至答案還可以是圖像,將各模態(tài)更好的融合在一起。去掉索引,直接通過(guò)模型來(lái)反饋結(jié)果,就意味著這個(gè)模型能夠直接return或者直接返回文檔的標(biāo)識(shí)符,文檔標(biāo)識(shí)符是一定要嵌入到模型中的,構(gòu)建以模型為中心的搜索。

總結(jié)

現(xiàn)在的搜索引擎廣泛采用關(guān)鍵詞為輸入,文檔列表為輸出的這種簡(jiǎn)單模式。在滿(mǎn)足人們復(fù)雜信息獲取需求方面,已經(jīng)存在了一些問(wèn)題。未來(lái)的搜索引擎將會(huì)是對(duì)話(huà)式的、是個(gè)性化的、是以用戶(hù)為中心的、是能夠破除千人一面的。同時(shí)能夠處理多模態(tài)的信息,能夠處理知識(shí)、能夠返回知識(shí)。在架構(gòu)上,未來(lái)也一定會(huì)突破現(xiàn)有的采用倒排索引或者稠密向量索引的這種以索引為核心的模式,逐步過(guò)渡到以模型為核心的模式。

猜你喜歡