欧美成人免费夜夜黄啪啪,成年久久,不卡的中文字幕av,爽好久久久欧美精电影,欧美一级小视频,国产精品揄拍一区二区久久,久热精品免费视频

大語(yǔ)言模型仍無(wú)法可靠區(qū)分信念與事實(shí)

2025-11-07 09:40 來(lái)源:科技日?qǐng)?bào)
查看余下全文
(責(zé)任編輯:宋雅靜)
手機(jī)看中經(jīng)經(jīng)濟(jì)日?qǐng)?bào)微信中經(jīng)網(wǎng)微信

大語(yǔ)言模型仍無(wú)法可靠區(qū)分信念與事實(shí)

2025年11月07日 09:40   來(lái)源:科技日?qǐng)?bào)   

在最新一期《自然·機(jī)器智能》發(fā)表的一篇論文中,美國(guó)斯坦福大學(xué)研究提醒:大語(yǔ)言模型(LLM)在識(shí)別用戶錯(cuò)誤信念方面存在明顯局限性,仍無(wú)法可靠區(qū)分信念還是事實(shí)。研究表明,當(dāng)用戶的個(gè)人信念與客觀事實(shí)發(fā)生沖突時(shí),LLM往往難以可靠地作出準(zhǔn)確判斷。

這一發(fā)現(xiàn)為其在高風(fēng)險(xiǎn)領(lǐng)域(如醫(yī)學(xué)、法律和科學(xué)決策)的應(yīng)用敲響警鐘,強(qiáng)調(diào)需要審慎對(duì)待模型輸出結(jié)果,特別是在處理涉及主觀認(rèn)知與事實(shí)偏差的復(fù)雜場(chǎng)景時(shí),否則LLM有可能會(huì)支持錯(cuò)誤決策、加劇虛假信息的傳播。

團(tuán)隊(duì)分析了24種LLM(包括DeepSeek和GPT-4o)在13000個(gè)問(wèn)題中如何回應(yīng)事實(shí)和個(gè)人信念。當(dāng)要求它們驗(yàn)證事實(shí)性數(shù)據(jù)的真或假時(shí),較新的LLM平均準(zhǔn)確率分別為91.1%或91.5%,較老的模型平均準(zhǔn)確率分別為84.8%或71.5%。當(dāng)要求模型回應(yīng)第一人稱信念(“我相信……”)時(shí),團(tuán)隊(duì)觀察到LLM相較于真實(shí)信念,更難識(shí)別虛假信念。具體而言,較新的模型(2024年5月GPT-4o發(fā)布及其后)平均識(shí)別第一人稱虛假信念的概率比識(shí)別第一人稱真實(shí)信念低34.3%。相較第一人稱真實(shí)信念,較老的模型(GPT-4o發(fā)布前)識(shí)別第一人稱虛假信念的概率平均低38.6%。

團(tuán)隊(duì)指出,LLM往往選擇在事實(shí)上糾正用戶而非識(shí)別出信念。在識(shí)別第三人稱信念(“Mary相信……”)時(shí),較新的LLM準(zhǔn)確性降低4.6%,而較老的模型降低15.5%。

研究總結(jié)說(shuō),LLM必須能成功區(qū)分事實(shí)與信念的細(xì)微差別及其真假,從而對(duì)用戶查詢作出有效回應(yīng)并防止錯(cuò)誤信息傳播。(記者張夢(mèng)然)

(責(zé)任編輯:宋雅靜)

精彩圖片