未來(lái)，我們將如何進(jìn)行信息搜索？

沃卡惠
行業(yè)資訊
2022-11-17 08:49:15
153

搜索引擎自誕生之初到現(xiàn)在已經(jīng)有二十多年，其形式和架構(gòu)一直沒(méi)有發(fā)生很大改變。伴隨著互聯(lián)網(wǎng)技術(shù)的持續(xù)發(fā)展，未來(lái)的搜索環(huán)境將變得愈加復(fù)雜多樣，用戶(hù)獲取信息的方式也會(huì)發(fā)生很多的變化，自然語(yǔ)言、語(yǔ)音、視覺(jué)等多種輸入形式勢(shì)必會(huì)取代簡(jiǎn)單的關(guān)鍵詞；答案、高階知識(shí)、分析結(jié)果、生成內(nèi)容等多種模態(tài)內(nèi)容輸出將取代簡(jiǎn)單結(jié)果列表；在交互方式上也可能會(huì)從單輪檢索過(guò)渡到多輪自然語(yǔ)言交互。

那么在新的搜索的環(huán)境下，未來(lái)智能搜索技術(shù)都將會(huì)呈現(xiàn)出哪些特征呢？日前，在51CTO主辦的在??AISummit全球人工智能技術(shù)大會(huì)??上，中國(guó)人民大學(xué)高瓴人工智能學(xué)院副院長(zhǎng)竇志成老師通過(guò)主題演講——《下一代智能搜索技術(shù)》，為廣大聽(tīng)眾分享了新一代智能搜索技術(shù)的發(fā)展趨勢(shì)及核心特征，同時(shí)就交互式、多模態(tài)、可解釋搜索、及以大模型為中心的去索引化搜索等技術(shù)做出了詳盡分析。本文將竇志成老師的演講內(nèi)容進(jìn)行了編輯整理，希望能給大家?guī)?lái)一些新的啟發(fā)：

未來(lái)搜索的主要特征

我們認(rèn)為未來(lái)的搜索可能會(huì)有至少這五個(gè)方面的特征：

對(duì)話(huà)式，人和搜索引擎是通過(guò)自然語(yǔ)言進(jìn)行多輪交互的一種方式。

個(gè)性化，會(huì)根據(jù)不同用戶(hù)的需求反饋不同的結(jié)果，而不是千篇一律、千人一面的為所有人反饋相同的結(jié)果。

多模態(tài)，返回的內(nèi)容和輸入的方式可能不僅僅局限于用文本來(lái)作為媒介或者是途徑。

富知識(shí)，搜索返回的信息不僅僅是一個(gè)結(jié)果列表的形式，可能是有各種不同的展示的形式，以各種知識(shí)、實(shí)體的方式展示。

去索引，倒排索引或稠密索引的方式也迫切需要產(chǎn)生很大的變化。

對(duì)話(huà)式

現(xiàn)在使用的搜索引擎普遍采用的模式是在一個(gè)框里面輸入一兩個(gè)詞進(jìn)行搜索。未來(lái)的搜索則可能是我們與搜索引擎采用對(duì)話(huà)的方式進(jìn)行交互。

在傳統(tǒng)的搜索引擎采用的關(guān)鍵詞檢索方式，我們希望把所有要找的信息核心都通過(guò)關(guān)鍵詞描述出來(lái)，即我們假設(shè)單個(gè)查詢(xún)能夠完整、準(zhǔn)確地表達(dá)這個(gè)信息的需求。但在表達(dá)一個(gè)較為復(fù)雜的信息時(shí)，關(guān)鍵詞其實(shí)是很難滿(mǎn)足需求的。而對(duì)話(huà)式搜索可以通過(guò)多輪交互來(lái)充分表達(dá)信息需求，比較符合人和人在交流的時(shí)層層遞進(jìn)的信息交互方式。

想要到達(dá)這種交互式搜索，會(huì)給系統(tǒng)或算法帶來(lái)很大的挑戰(zhàn)，需要讓搜索引擎從多輪的自然語(yǔ)言交互中準(zhǔn)確理解用戶(hù)的意圖，同時(shí)也要把理解出的意圖與用戶(hù)想要的信息做好匹配。

相比于傳統(tǒng)的關(guān)鍵詞搜索，對(duì)話(huà)式搜索需要更復(fù)雜的查詢(xún)理解（例如需要解決當(dāng)前查詢(xún)中的省略，共指等問(wèn)題），以還原用戶(hù)的真實(shí)搜索意圖。最簡(jiǎn)單的方式是將歷史查詢(xún)?nèi)科唇悠饋?lái)，使用預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行編碼。

簡(jiǎn)單的拼接對(duì)話(huà)方式雖然簡(jiǎn)單，但可能會(huì)引入噪聲，并不是所有的歷史查詢(xún)都對(duì)于理解當(dāng)前查詢(xún)是有幫助的，所以我們只選出和它有依賴(lài)關(guān)系的上下文，這樣也能解決長(zhǎng)度的問(wèn)題。

對(duì)話(huà)式檢索模型COTED

基于以上思想，我們提出了對(duì)話(huà)式稠密檢索的模型COTED，其主要包括如下三部分：

1、通過(guò)識(shí)別對(duì)話(huà)查詢(xún)中的依賴(lài)關(guān)系，來(lái)去除對(duì)話(huà)中的噪聲，進(jìn)而更好地預(yù)測(cè)用戶(hù)的意圖。

2、基于對(duì)比學(xué)習(xí)的數(shù)據(jù)增強(qiáng)（模仿各種噪聲情況）和去噪損失函數(shù)，有效讓模型學(xué)會(huì)忽略無(wú)關(guān)的上下文，把它和最終匹配的損失函數(shù)聯(lián)合，做多任務(wù)的學(xué)習(xí)。

3、通過(guò)課程學(xué)習(xí)的方式來(lái)降低模型多任務(wù)學(xué)習(xí)的學(xué)習(xí)難度，最終提升模型性能。

然而，夠用于對(duì)話(huà)式搜索模型訓(xùn)練的數(shù)據(jù)實(shí)際上是非常有限的，在有限的少樣本情況下，對(duì)話(huà)式搜索的模型訓(xùn)練是非常困難的。

如何解決這個(gè)問(wèn)題？出發(fā)點(diǎn)就是能否把搜索引擎日志遷移去做對(duì)話(huà)式搜索引擎的訓(xùn)練。在這個(gè)思想上，把大規(guī)模的web搜索的日志轉(zhuǎn)換成對(duì)話(huà)式搜索日志，然后在轉(zhuǎn)換之后的數(shù)據(jù)上訓(xùn)練對(duì)話(huà)式搜索的模型。但這種方法也同時(shí)伴隨著兩個(gè)很明顯的問(wèn)題：

一是傳統(tǒng)的web搜索采用關(guān)鍵詞搜索的方式，對(duì)話(huà)式搜索是自然語(yǔ)言對(duì)話(huà)的方式，查詢(xún)形式是不一樣的，無(wú)法直接遷移使用。二是查詢(xún)本身就會(huì)存在很多噪聲，需要對(duì)搜索日志里面的用戶(hù)數(shù)據(jù)做一些清洗、過(guò)濾、轉(zhuǎn)換，才能用在對(duì)話(huà)式搜索里面。

對(duì)話(huà)式搜索訓(xùn)練模型ConvTrans

為了解決這些問(wèn)題，我們做了對(duì)話(huà)式搜索訓(xùn)練模型ConvTrans，并實(shí)現(xiàn)了以下功能。

首先，以圖的方式對(duì)傳統(tǒng)的web搜索引擎中的日志進(jìn)行了組織，通過(guò)查詢(xún)與查詢(xún)、查詢(xún)與文檔之間建立聯(lián)系構(gòu)建了圖。在圖的基礎(chǔ)上，使用了一個(gè)基于T5的兩階段查詢(xún)改寫(xiě)的模型，將一個(gè)關(guān)鍵詞的查詢(xún)改寫(xiě)成一個(gè)問(wèn)題的形式。經(jīng)過(guò)改寫(xiě)之后，圖中每個(gè)查詢(xún)都會(huì)用自然語(yǔ)言來(lái)表達(dá)新的查詢(xún)，再設(shè)計(jì)一個(gè)采樣的算法，從圖上做隨機(jī)游走，生成對(duì)話(huà)的會(huì)話(huà)，之后基于這個(gè)數(shù)據(jù)來(lái)訓(xùn)練對(duì)話(huà)的模型。

實(shí)驗(yàn)顯示，用這種自動(dòng)生成的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練的對(duì)話(huà)式搜索模型，能夠和使用昂貴的人造或者人工標(biāo)注的數(shù)據(jù)達(dá)到同樣的效果，且隨著自動(dòng)生成的訓(xùn)練數(shù)據(jù)規(guī)模的增大，性能也會(huì)持續(xù)提升。這種方法使我們基于大規(guī)模搜索日志進(jìn)行訓(xùn)練對(duì)話(huà)式搜索模型成為了可能。

對(duì)話(huà)式搜索模型雖然在搜索上已經(jīng)走了一大步，但這種對(duì)話(huà)方式仍然是被動(dòng)的，搜索引擎一直被動(dòng)的接受用戶(hù)的輸入，根據(jù)輸入來(lái)返回結(jié)果，搜索引擎沒(méi)有主動(dòng)地去問(wèn)用戶(hù)你到底要找什么。但在人和人的交流過(guò)程中，當(dāng)你被問(wèn)一個(gè)問(wèn)題的時(shí)候，有時(shí)候你會(huì)主動(dòng)地來(lái)反問(wèn)一些問(wèn)題來(lái)做澄清。

比如必應(yīng)搜索里面，如果Query是“Headaches”，頭疼。它會(huì)問(wèn)你“What do want to know about this medical condition”“你想知道關(guān)于這個(gè)疾病的什么事”，比如說(shuō)是它的癥狀、還是治療、還是診斷、還是成因或者誘因。因?yàn)镠eadaches本身是非常寬泛的一個(gè)Query，在這種情況下，系統(tǒng)希望能夠進(jìn)一步澄清你想找到哪里的信息。

這里面臨兩個(gè)問(wèn)題，第一是候選項(xiàng)，就是想讓用戶(hù)去澄清到哪個(gè)具體的項(xiàng)。第二是澄清問(wèn)題，搜索引擎主動(dòng)反過(guò)來(lái)問(wèn)用戶(hù)的這個(gè)問(wèn)題。而核心詞是澄清問(wèn)題里面最至關(guān)重要的一部分。

在這方面的探索，第一是通過(guò)查詢(xún)?nèi)罩竞椭R(shí)庫(kù)去給定一個(gè)查詢(xún)的時(shí)候，能夠生成一些澄清的候選項(xiàng)。第二，基于規(guī)則可以通過(guò)搜索的結(jié)果來(lái)預(yù)測(cè)這個(gè)澄清問(wèn)題的一些核心詞。同時(shí)也標(biāo)注一些數(shù)據(jù)，通過(guò)有監(jiān)督的模型來(lái)做這種文本標(biāo)簽的分類(lèi)。第三，進(jìn)一步在這個(gè)標(biāo)注數(shù)據(jù)的基礎(chǔ)上訓(xùn)練端到端的生成模型。

個(gè)性化

個(gè)性化指的是未來(lái)的搜索將以用戶(hù)為核心。現(xiàn)在的搜索引擎，不管是誰(shuí)來(lái)查，返回都是同樣的結(jié)果。而這并不能滿(mǎn)足用戶(hù)的特定化信息需求。

現(xiàn)在的個(gè)性化搜索采用的模式，首先通過(guò)用戶(hù)歷史學(xué)習(xí)用戶(hù)熟悉的知識(shí)信息，對(duì)查詢(xún)進(jìn)行個(gè)性化實(shí)體消歧。其次，通過(guò)消歧后的查詢(xún)實(shí)體增強(qiáng)個(gè)性化匹配。

此外我們?cè)诨诋a(chǎn)品品類(lèi)構(gòu)建用戶(hù)的多興趣模型方面也做了探索，假設(shè)用戶(hù)可能有自己在所有品類(lèi)上的一些品牌（規(guī)格、型號(hào)）傾向性，但是這個(gè)傾向性不能簡(jiǎn)單的通過(guò)一兩個(gè)向量來(lái)去刻畫(huà)。應(yīng)該根據(jù)用戶(hù)購(gòu)物的歷史，構(gòu)建知識(shí)圖譜，通過(guò)知識(shí)圖譜針對(duì)不同品類(lèi)學(xué)習(xí)不同的興趣，最終做更精準(zhǔn)的個(gè)性化搜索的結(jié)果推送。

也可以用同樣的個(gè)性化方法去做聊天機(jī)器人，核心思想就是通過(guò)用戶(hù)歷史對(duì)話(huà)，學(xué)習(xí)用戶(hù)個(gè)性化興趣和語(yǔ)言模式，訓(xùn)練個(gè)性化對(duì)話(huà)模型，可以模仿（代理）用戶(hù)說(shuō)話(huà)。

多模態(tài)

現(xiàn)在的搜索引擎在處理多模態(tài)信息的時(shí)候，其實(shí)有相當(dāng)多的局限性的。未來(lái)用戶(hù)獲取的信息可能不僅僅是一些文字、網(wǎng)頁(yè)，可能還包括圖片、視頻以及更復(fù)雜的結(jié)構(gòu)信息。所以未來(lái)的搜索引擎在多模態(tài)信息獲取上還有很多工作需要做。

現(xiàn)在的搜索引擎在理解或者是做跨模態(tài)檢索時(shí)，即給出一個(gè)文本的描述，去找它對(duì)應(yīng)的圖片的時(shí)候，做得還是有很多缺陷的。類(lèi)似的搜索如果遷移到手機(jī)上，局限性就會(huì)更大。

所謂的多模態(tài)就是語(yǔ)言、要找的圖像、圖片、視頻等模態(tài)，映射到統(tǒng)一的一個(gè)空間上，這就意味著可以通過(guò)文字去找圖片，圖片去找文字，圖片去找圖片等。

對(duì)此，我們做了大規(guī)模多模態(tài)的預(yù)訓(xùn)練模型——文瀾。其重點(diǎn)是基于海量的互聯(lián)網(wǎng)圖片和附近文字的弱監(jiān)督相關(guān)性貢獻(xiàn)的信息訓(xùn)練出來(lái)的。采用雙塔模式，最后訓(xùn)練的是一個(gè)圖片的編碼器和文本的編碼器，這兩個(gè)編碼器通過(guò)端到端匹配的優(yōu)化學(xué)習(xí)過(guò)程，讓最終的表示向量能夠映射到統(tǒng)一空間中，而不是把圖片的細(xì)粒度和文字的細(xì)粒度拼接在一起。

這種跨模態(tài)的檢索能力，其實(shí)不只是端到端給用戶(hù)使用web搜索引擎時(shí)提供了更多的空間，同時(shí)也可以支撐很多應(yīng)用，例如創(chuàng)作，不管是社交媒體還是文創(chuàng)類(lèi)，都可以用它來(lái)支撐。

富知識(shí)

現(xiàn)在的搜索引擎普遍檢索的主體還是網(wǎng)頁(yè)，而未來(lái)搜索引擎處理的單元不僅僅是網(wǎng)頁(yè)，應(yīng)該是以知識(shí)為處理的單位，包括返回的結(jié)果也應(yīng)該是高階的知識(shí)，而不是一個(gè)一個(gè)頁(yè)面的列表形式。很多時(shí)候用戶(hù)其實(shí)想通過(guò)搜索引擎來(lái)完成一些復(fù)雜的信息需求，故而希望搜索引擎幫助分析結(jié)果，而不是讓人來(lái)一個(gè)一個(gè)去分析。

基于此想法我們構(gòu)建了分析引擎，相當(dāng)于是在搜索引擎的基礎(chǔ)上，能提供深度的文本分析，幫助用戶(hù)高效、快捷地獲取高階知識(shí)。幫助用戶(hù)完成對(duì)大規(guī)模文檔的閱讀和理解，并對(duì)其中所包含的關(guān)鍵信息和知識(shí)進(jìn)行抽取、挖掘、匯總，最終通過(guò)交互式的分析過(guò)程，讓用戶(hù)對(duì)挖掘到的高階知識(shí)進(jìn)行瀏覽和分析，進(jìn)而為用戶(hù)提供決策支持。

例如用戶(hù)希望找霧霾相關(guān)的信息，可以直接輸入“霧霾”。富知識(shí)模式與傳統(tǒng)的搜索引擎返回的結(jié)果不同，可能返回一個(gè)時(shí)間軸，告訴用戶(hù)關(guān)于霧霾的信息在時(shí)間軸上的分布等情況，還會(huì)總結(jié)出關(guān)于霧霾的子話(huà)題有哪些、機(jī)構(gòu)有哪些、人物有哪些。當(dāng)然它也可以像搜索引擎一樣提供詳細(xì)的結(jié)果的列表。

這種可以直接提供分析，而且是交互式分析的能力，能夠更好地幫助用戶(hù)獲取復(fù)雜信息的能力。提供給用戶(hù)的東西不再是簡(jiǎn)單的搜索結(jié)果列表。當(dāng)然這種交互式的多維知識(shí)分析，只是一種展示方式，以后還可以做更多的方式，比如我們現(xiàn)在正在做的一件事情就是從檢索到生成(有理有據(jù)的)內(nèi)容。

去索引

現(xiàn)在的搜索引擎廣泛采用以索引為核心的分階段方式，從大量互聯(lián)網(wǎng)的網(wǎng)頁(yè)爬回所需內(nèi)容后構(gòu)建Index，也就是倒排的索引或稠密的向量索引。用戶(hù)的Query來(lái)之后，先要做召回，在召回的結(jié)果基礎(chǔ)上再做精細(xì)化排序。

這個(gè)模式有很多弊端，因?yàn)橐蛛A段，如果一個(gè)階段上出了問(wèn)題，例如在召回階段沒(méi)有找到想要的結(jié)果，它排序階段做得再好，也不可能返回很好的結(jié)果。

在未來(lái)的搜索引擎中，這種結(jié)構(gòu)有可能是會(huì)被打破的。全新的想法是使用一個(gè)大的模型來(lái)取代現(xiàn)在的索引的模式，所有的查詢(xún)都可以通過(guò)模型來(lái)滿(mǎn)足。這就不再需要使用索引了，而是直接通過(guò)這種模型反饋想要的結(jié)果。

在這個(gè)基礎(chǔ)上，可以直接提供結(jié)果列表，也可以直接提供用戶(hù)所需的答案，甚至答案還可以是圖像，將各模態(tài)更好的融合在一起。去掉索引，直接通過(guò)模型來(lái)反饋結(jié)果，就意味著這個(gè)模型能夠直接return或者直接返回文檔的標(biāo)識(shí)符，文檔標(biāo)識(shí)符是一定要嵌入到模型中的，構(gòu)建以模型為中心的搜索。

總結(jié)

現(xiàn)在的搜索引擎廣泛采用關(guān)鍵詞為輸入，文檔列表為輸出的這種簡(jiǎn)單模式。在滿(mǎn)足人們復(fù)雜信息獲取需求方面，已經(jīng)存在了一些問(wèn)題。未來(lái)的搜索引擎將會(huì)是對(duì)話(huà)式的、是個(gè)性化的、是以用戶(hù)為中心的、是能夠破除千人一面的。同時(shí)能夠處理多模態(tài)的信息，能夠處理知識(shí)、能夠返回知識(shí)。在架構(gòu)上，未來(lái)也一定會(huì)突破現(xiàn)有的采用倒排索引或者稠密向量索引的這種以索引為核心的模式，逐步過(guò)渡到以模型為核心的模式。

上一篇：人工智能如何幫助解決勞動(dòng)力短缺問(wèn)題

下一篇：元宇宙：產(chǎn)業(yè)互聯(lián)網(wǎng)的黃金搭檔