ChatGPT真能取代搜索引擎嗎?
想象一下,當(dāng)你遇到問(wèn)題時(shí),有一個(gè)可以與你交談的搜索機(jī)器人,它可以讓你更容易找到答案(如果它不撒謊的話),這是多么方便的一件事。微軟、谷歌、百度和其他公司都在致力于此。
JIANG CHEN(陳江,音譯),一位曾在谷歌工作過(guò)的機(jī)器學(xué)習(xí)專家,當(dāng)他第一次嘗試 ChatGPT 時(shí)就被迷住了,這個(gè)來(lái)自 OpenAI 的聊天機(jī)器人使用起來(lái)非常連貫,看起來(lái)信息量很大,如今已經(jīng)成為互聯(lián)網(wǎng)上的一個(gè)熱點(diǎn)。
但是,當(dāng)陳試圖使用同樣的底層人工智能技術(shù),為他聯(lián)合創(chuàng)辦的初創(chuàng)公司 Moveworks 構(gòu)建更好的搜索工具時(shí),這項(xiàng)技術(shù)的影響力光環(huán)開(kāi)始顯得暗淡了。Moveworks 使用人工智能來(lái)幫助員工篩選信息,如技術(shù)支持文件和人力資源頁(yè)面。陳的新人工智能搜索工具在從這些文件中提取各種有用信息方面做得很好,包括提供地址和電話號(hào)碼,但其中一些不是真的。“它的編造能力實(shí)在令人驚嘆。”陳說(shuō)。
人們對(duì) ChatGPT 的狂熱興奮,以及普遍認(rèn)為它可以重塑搜索引擎的說(shuō)法是可以理解的。該聊天機(jī)器人可以通過(guò)綜合從網(wǎng)絡(luò)和其他來(lái)源抓取的數(shù)十億字節(jié)中的信息來(lái)訓(xùn)練算法,為問(wèn)題提供復(fù)雜而精密的答案。ChatGPT 可以讓人體驗(yàn)到一種更流暢的與機(jī)器互動(dòng)的方式。
但這項(xiàng)技術(shù)的工作方式在某些方面與可靠檢索在線信息的搜索引擎的理念有著根本的不一致。網(wǎng)絡(luò)上已經(jīng)有很多不準(zhǔn)確的信息了,而 ChatGPT 也很容易產(chǎn)生新的虛假信息。它的底層算法并不直接從事實(shí)或鏈接數(shù)據(jù)庫(kù)中提取信息,而是生成一串單詞,目的是在統(tǒng)計(jì)上與訓(xùn)練數(shù)據(jù)中的單詞相似,而不考慮真相。
盡管面臨著這樣的挑戰(zhàn),也許是受到 ChatGPT 令人眼花繚亂的演示的影響,網(wǎng)絡(luò)搜索巨頭和幾家初創(chuàng)公司也都正在迎頭趕上。微軟已經(jīng)向 ChatGPT 的創(chuàng)造者 OpenAI 投資了大約 100 億美元,微軟也正在以某種方式將這種基礎(chǔ)技術(shù)添加到其排名第二的搜索引擎必應(yīng)(Bing)中。
據(jù)報(bào)道,谷歌公司一段時(shí)間以來(lái)一直在開(kāi)發(fā)類似的聊天機(jī)器人 LaMDA,該公司也在匆忙之中對(duì) ChatGPT 做出了回應(yīng)——發(fā)布了 ChatGPT 的競(jìng)爭(zhēng)者 Bard。中國(guó)領(lǐng)先的搜索引擎百度也正在開(kāi)發(fā)一款類似 ChatGPT 的中文機(jī)器人。
在科技巨頭們準(zhǔn)備應(yīng)對(duì) ChatGPT 的同時(shí),幾家初創(chuàng)公司已經(jīng)推出了帶有類似聊天機(jī)器人聊天界面的搜索引擎。其中包括 You.com、Perplexity AI 以及 Neeva。
他們開(kāi)發(fā)的工具說(shuō)明了將 ChatGPT 式的技術(shù)應(yīng)用于搜索的潛力和挑戰(zhàn)。由語(yǔ)言和人工智能專家理查德·索切爾(Richard Socher)創(chuàng)立的 You.com 可以通過(guò)聊天界面提供答案。而且這些回答還帶有引文,可以幫助用戶追蹤某條信息的來(lái)源。
但該模型有時(shí)會(huì)將不屬于同一來(lái)源的信息結(jié)合起來(lái)。例如,詢問(wèn)一個(gè)人的信息,可能會(huì)得到一個(gè)結(jié)合了多個(gè)同名同姓人員的履歷信息的答案。比如當(dāng)被問(wèn)及我的個(gè)人情況時(shí),You Chat 準(zhǔn)確地描述了我在《連線》雜志的職位,但也認(rèn)為我是特拉華大學(xué)的一名橄欖球隊(duì)跑衛(wèi)和一名專業(yè)的創(chuàng)意人員。常規(guī)搜索可能會(huì)返回幾個(gè)威爾·耐特斯(Will Knights)的介紹頁(yè)面,而聊天機(jī)器人會(huì)將它們合并為一個(gè)人。
像 ChatGPT 這樣的系統(tǒng)的另一個(gè)問(wèn)題是,它的回答僅基于所訓(xùn)練的數(shù)據(jù)。由于模型的規(guī)模和數(shù)據(jù)的規(guī)模,對(duì)整個(gè)模型進(jìn)行再訓(xùn)練可能要花費(fèi)數(shù)百萬(wàn)美元。當(dāng)被問(wèn)及最新的體育比分時(shí),YouChat 會(huì)感到困惑,但卻知道紐約此刻的天氣如何。創(chuàng)立 You.com 的索切爾不想透露最新信息是如何被整合進(jìn)來(lái)的,他認(rèn)為這是一種競(jìng)爭(zhēng)優(yōu)勢(shì)。
索切爾說(shuō):“我認(rèn)為現(xiàn)在很多聊天界面在某些方面比搜索體驗(yàn)要好得多,但在其他方面顯然還差得多。我們正在努力減少所有這些問(wèn)題。”
搜索初創(chuàng)公司 Perplexity AI 的創(chuàng)始人兼首席執(zhí)行官阿拉溫德·斯里尼瓦斯(Aravind Srinivas)曾在 OpenAI 工作過(guò),他表示,用最新信息更新一個(gè)類似 ChatGPT 的系統(tǒng)所面臨的挑戰(zhàn),意味著它們需要與其他東西結(jié)合起來(lái)使用。他說(shuō):“單靠它們,永遠(yuǎn)不可能成為優(yōu)秀的搜索引擎。”
Greylock Partners 的風(fēng)險(xiǎn)投資人山姆·莫塔梅迪(Saam Motamedi)投資了人工智能搜索公司 Neeva,他表示,目前還不清楚聊天式搜索界面的主要收入模式,其廣告的兼容性如何。谷歌和必應(yīng)利用搜索查詢來(lái)植入廣告,這些廣告出現(xiàn)在返回鏈接列表的頂部。莫塔梅迪懷疑,為了讓聊天式搜索界面變得可行,可能需要出現(xiàn)新的廣告形式,但目前還不清楚這些形式會(huì)是什么。而目前 Neeva 對(duì)無(wú)限制無(wú)廣告搜索收取訂閱費(fèi)。
以谷歌的規(guī)模運(yùn)行 ChatGPT 這樣的模型,其成本也可能被證明是個(gè)問(wèn)題。OctoML 是一家?guī)椭髽I(yè)降低部署機(jī)器學(xué)習(xí)算法成本的公司,其聯(lián)合創(chuàng)始人兼首席執(zhí)行官路易斯·塞茲(Luis Ceze)估計(jì),運(yùn)行 ChatGPT 搜索的成本可能是谷歌搜索的 10 倍,因?yàn)槊總€(gè)答案都需要運(yùn)行一個(gè)龐大而復(fù)雜的 AI 模型。
眼下這股“ChatGPT 狂熱”的規(guī)模讓一些熟悉這種底層技術(shù)的程序員和人工智能研究人員都感到十分意外。該機(jī)器人的核心算法名為 GPT,由 OpenAI 于 2018 年首次開(kāi)發(fā),更強(qiáng)大的版本 GPT-2 于 2019 年發(fā)布。這是一種機(jī)器學(xué)習(xí)模型,旨在接收文本,然后預(yù)測(cè)接下來(lái)的內(nèi)容,OpenAI 表明,如果使用大量文本進(jìn)行訓(xùn)練,該模型的表現(xiàn)會(huì)非常好。自 2020 年 6 月以來(lái),該技術(shù)的第一個(gè)商業(yè)版本 GPT-3 已供開(kāi)發(fā)人員使用,可以完成 ChatGPT 最近受到贊賞的許多事情。
ChatGPT 使用了底層算法的改進(jìn)版本,但其能力的最大飛躍來(lái)自于 OpenAI 讓人類向系統(tǒng)提供反饋,告訴系統(tǒng)什么是令人滿意的答案。但就像之前的文本生成系統(tǒng)一樣,ChatGPT 仍然傾向于從訓(xùn)練數(shù)據(jù)中重現(xiàn)偏見(jiàn),以及“編造”看似合理但不正確的結(jié)果。
紐約大學(xué)(New York University)名譽(yù)教授加里?馬庫(kù)斯(Gary Marcus)直言不諱地批評(píng)人工智能炒作,他認(rèn)為 ChatGPT 不適合搜索,因?yàn)樗鼘?duì)自己所說(shuō)的內(nèi)容沒(méi)有真正理解。他補(bǔ)充說(shuō),像 ChatGPT 這樣的工具可能會(huì)給搜索公司帶來(lái)其他問(wèn)題,因?yàn)樗鼈儠?huì)讓互聯(lián)網(wǎng)充斥著人工智能生成的、搜索引擎優(yōu)化的文本。“所有的搜索引擎都會(huì)遇到問(wèn)題,”他說(shuō)。
亞歷克斯?拉特納(Alex Ratner)是華盛頓大學(xué)(University of Washington)的助理教授,也是致力于更有效地訓(xùn)練人工智能模型的 Snorkel AI 公司聯(lián)合創(chuàng)始人,他稱 ChatGPT 標(biāo)志著軟件所能做的事的“合理拐點(diǎn)”。但他也表示,要想弄清楚如何防止像 GPT 這樣的語(yǔ)言模型胡編亂造,可能還需要一段時(shí)間。他認(rèn)為,要想找到一種方法讓這些語(yǔ)言模型與新信息保持同步,以保持搜索的實(shí)時(shí)性,很可能需要采用新的方法來(lái)訓(xùn)練底層人工智能模型。
這些解決方案需要多長(zhǎng)時(shí)間才能發(fā)明出來(lái)并得到驗(yàn)證,目前尚不清楚。即使有其他用例出現(xiàn),比如將其作為學(xué)習(xí)或編程伙伴,這項(xiàng)技術(shù)也可能還需要一段時(shí)間才能從根本上改變?nèi)藗兯阉鞔鸢傅姆绞健oveworks 公司的陳說(shuō):“這很了不起,我告訴團(tuán)隊(duì),人們會(huì)看到 ChatGPT 帶來(lái)的跨時(shí)代的變化,甚至?xí)霈F(xiàn) pre-ChatGPT 和 post- ChatGPT 的說(shuō)法。但它是否會(huì)取代搜索,則是另一個(gè)問(wèn)題。”