9月17日,由DeepSeek團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上了國際權(quán)威期刊《自然(Nature)》的封面?!蹲匀弧愤€配發(fā)社論,表示DeepSeek-R1是全球首個(gè)經(jīng)過同行評(píng)審的主流大語言模型,對(duì)于人工智能(AI)模型開發(fā)具有重要意義,呼吁其他公司效仿這一做法。
這篇論文刊登在最新一期《自然》,與今年1月發(fā)布的DeepSeek-R1的初版論文相比,披露了更多模型訓(xùn)練的細(xì)節(jié)。論文作者稱,大語言模型(LLM)的推理能力可通過純強(qiáng)化學(xué)習(xí)來提升,從而減少增強(qiáng)性能所需的人類輸入工作量。訓(xùn)練出的模型在數(shù)學(xué)、編程競賽和STEM領(lǐng)域研究生水平問題等任務(wù)上,比傳統(tǒng)訓(xùn)練的LLM表現(xiàn)更好。
《自然》特意配發(fā)社論“為何同行評(píng)審對(duì)AI模型至關(guān)重要”,表示目前幾乎所有主流的大模型都還沒有經(jīng)過獨(dú)立同行評(píng)審,這一空白“終于被DeepSeek打破”。
自1月份發(fā)布以來,R1已成為該平臺(tái)解決復(fù)雜問題類模型中下載量最高的產(chǎn)品。如今,該模型經(jīng)過八位專家評(píng)審,從原創(chuàng)性、方法學(xué)等方面接受了評(píng)估。論文與評(píng)審報(bào)告及作者回應(yīng)同步發(fā)布。
在DeepSeek的案例中,評(píng)審專家就對(duì)此提出質(zhì)詢。該公司不僅提供了減少數(shù)據(jù)污染的技術(shù)細(xì)節(jié),還補(bǔ)充了模型發(fā)布后新推出基準(zhǔn)的評(píng)估結(jié)果。同行評(píng)審還促使論文作出其他重要修改?!蹲匀弧泛粲跗渌鸄I公司效仿DeepSeek的做法。
揚(yáng)子晚報(bào)/紫牛新聞?dòng)浾?宋世鋒