DeepSeek-R1模型訓(xùn)練方法發(fā)布

A+
A-

2025-09-20 15:10:32 科技互聯(lián)網(wǎng) 來源：科技日報(bào)

DeepSeek-AI團(tuán)隊(duì)梁文鋒及其同事17日在《自然》雜志上發(fā)表了開源人工智能（AI）模型DeepSeek-R1所采用的大規(guī)模推理模型訓(xùn)練方法。研究表明，大語言模型（LLM）的推理能力可通過純強(qiáng)化學(xué)習(xí)來提升，從而減少增強(qiáng)性能所需的人類輸入工作量。訓(xùn)練出的模型在數(shù)學(xué)、編程競賽和STEM領(lǐng)域研究生水平問題等任務(wù)上，比傳統(tǒng)訓(xùn)練的LLM表現(xiàn)更好。

DeepSeek-R1包含一個在人類監(jiān)督下的深入訓(xùn)練階段，以優(yōu)化推理過程。梁文鋒團(tuán)隊(duì)報(bào)告稱，該模型使用了強(qiáng)化學(xué)習(xí)而非人類示例來開發(fā)推理步驟，減少了訓(xùn)練成本和復(fù)雜性。DeepSeek-R1在被展示優(yōu)質(zhì)的問題解決案例后，會獲得一個模板來產(chǎn)生推理過程，即這一模型通過解決問題獲得獎勵，從而強(qiáng)化學(xué)習(xí)效果。團(tuán)隊(duì)總結(jié)說，未來研究可以聚焦優(yōu)化獎勵過程，以確保推理和任務(wù)結(jié)果更可靠。

在評估AI表現(xiàn)的數(shù)學(xué)基準(zhǔn)測試中，DeepSeek-R1-Zero和DeepSeek-R1得分分別為77.9% 和 79.8%，在編程競賽及研究生水平的生物學(xué)、物理和化學(xué)問題上同樣表現(xiàn)優(yōu)異。

關(guān)鍵詞：

來源：科技日報(bào)

編輯：GY653

我國成功發(fā)射衛(wèi)星互聯(lián)網(wǎng)技術(shù)試驗(yàn)衛(wèi)星

9月16日上午，我國在酒泉衛(wèi)星發(fā)射中心使用長征二號丙運(yùn)載火箭遠(yuǎn)征一號S上面級，成功將衛(wèi)星互聯(lián)網(wǎng)技術(shù)試驗(yàn)衛(wèi)星發(fā)射升空，衛(wèi)星順利進(jìn)入預(yù)定

科技互聯(lián)網(wǎng) 2025-09-20 15:12

粵港澳大灣區(qū)生成式人工智能安全發(fā)展聯(lián)合實(shí)驗(yàn)室正式成立

粵港澳大灣區(qū)生成式人工智能安全發(fā)展聯(lián)合實(shí)驗(yàn)室揭牌儀式15日在深圳舉行，該實(shí)驗(yàn)室將通過制定行業(yè)安全發(fā)展標(biāo)準(zhǔn)、搭建粵語語料庫資源平臺、支

科技互聯(lián)網(wǎng) 2025-09-20 14:58

DeepSeek-R1模型訓(xùn)練方法發(fā)布

DeepSeek-AI團(tuán)隊(duì)梁文鋒及其同事17日在《自然》雜志上發(fā)表了開源人工智能（AI）模型DeepSeek-R1所采用的大規(guī)模推理模型訓(xùn)練方法。研究表明，

科技互聯(lián)網(wǎng) 2025-09-20 15:10

國際科技園及創(chuàng)新區(qū)域協(xié)會世界大會在京開幕

17日，國際科技園及創(chuàng)新區(qū)域協(xié)會（IASP）2025年世界大會在北京開幕。工業(yè)和信息化部、北京市相關(guān)負(fù)責(zé)人，IASP首席執(zhí)行官艾巴·倫德、輪值主

科技互聯(lián)網(wǎng) 2025-09-20 15:09

商務(wù)部、工信部等9部門發(fā)文擴(kuò)大服務(wù)消費(fèi)

9月16日，商務(wù)部、工信部等9部門聯(lián)合發(fā)布《關(guān)于擴(kuò)大服務(wù)消費(fèi)的若干政策措施》（以下簡稱《措施》）。在激發(fā)服務(wù)消費(fèi)新增量方面，《措施》提

科技互聯(lián)網(wǎng) 2025-09-20 14:59

月球熱演化研究獲重要進(jìn)展內(nèi)生月震引發(fā)新滑坡

&emsp;記者從中山大學(xué)了解到，該校大氣科學(xué)學(xué)院肖智勇團(tuán)隊(duì)聯(lián)合遙感科學(xué)與技術(shù)學(xué)院教授張吳明通過衛(wèi)星圖像分析發(fā)現(xiàn)，2009年以來月球上新增了

科技互聯(lián)網(wǎng) 2025-09-20 15:01

我國工業(yè)互聯(lián)網(wǎng)應(yīng)用加速落地

&emsp;工信部最新數(shù)據(jù)顯示，目前我國具有一定影響力的工業(yè)互聯(lián)網(wǎng)平臺已經(jīng)超340家，重點(diǎn)平臺連接設(shè)備超過1億臺（套），實(shí)現(xiàn)41個工業(yè)大類以及

科技互聯(lián)網(wǎng) 2025-09-20 15:00

首個行業(yè)標(biāo)準(zhǔn)預(yù)發(fā)布智算中心建設(shè)邁向規(guī)范化

&emsp;9月17日在上海舉行的首屆AIDC產(chǎn)業(yè)發(fā)展大會上，預(yù)發(fā)布了業(yè)界首個針對AIDC（智算中心）建設(shè)的系統(tǒng)性標(biāo)準(zhǔn)文件《AIDC基礎(chǔ)設(shè)施規(guī)范》（下

科技互聯(lián)網(wǎng) 2025-09-20 14:56

國家網(wǎng)信辦擬細(xì)化未成年人用戶數(shù)量巨大的網(wǎng)絡(luò)平臺服務(wù)提供者認(rèn)定標(biāo)準(zhǔn)

為進(jìn)一步強(qiáng)化未成年人網(wǎng)絡(luò)保護(hù)，保護(hù)未成年人合法權(quán)益，國家網(wǎng)信辦會同有關(guān)部門起草了《未成年人用戶數(shù)量巨大和對未成年人群體具有顯著影響

科技互聯(lián)網(wǎng) 2025-09-20 14:54

新華視點(diǎn)·關(guān)注AI造假丨透視AI“魔改”視頻爭議：創(chuàng)意還是惡搞？

唐僧和孫悟空爭當(dāng)話事人、《甄嬛傳》變成槍戰(zhàn)片、《人民的名義》中沙瑞金和高育良開展魔法攻擊……近段時間，一些AI魔改內(nèi)容在短視頻平臺上

科技互聯(lián)網(wǎng) 2025-09-20 14:52

組合駕駛輔助系統(tǒng)將迎國家標(biāo)準(zhǔn) 工業(yè)和信息化部公開征求意見

工業(yè)和信息化部17日對《智能網(wǎng)聯(lián)汽車組合駕駛輔助系統(tǒng)安全要求》強(qiáng)制性國家標(biāo)準(zhǔn)公開征求意見。標(biāo)準(zhǔn)針對單車道、多車道、領(lǐng)航輔助等不同功

科技互聯(lián)網(wǎng) 2025-09-20 14:34

讓傳感器動起來我國科研團(tuán)隊(duì)研發(fā)出腦機(jī)接口動態(tài)電極

我國科研團(tuán)隊(duì)研發(fā)出了一種柔性纖維電極，植入動物大腦后，其運(yùn)動可以受人工控制，還可以在動物肌肉組織內(nèi)長期發(fā)揮作用，為腦機(jī)接口技術(shù)提供

科技互聯(lián)網(wǎng) 2025-09-20 14:51

我國首次向全球共享氣候數(shù)據(jù)產(chǎn)品

記者從中國氣象局獲悉，《中國氣象局全球氣候數(shù)據(jù)集》（以下簡稱《數(shù)據(jù)集》）在第4屆中國—東盟氣象合作論壇上發(fā)布。這是中國氣候數(shù)據(jù)產(chǎn)品

科技互聯(lián)網(wǎng) 2025-09-20 14:42

數(shù)據(jù)要素綜合試驗(yàn)區(qū)建設(shè)取得初步進(jìn)展

18日，國家數(shù)據(jù)局舉行數(shù)據(jù)要素綜合試驗(yàn)區(qū)新聞發(fā)布會（第二場）。國家數(shù)據(jù)局新聞發(fā)言人、政策和規(guī)劃司副司長欒婕表示，數(shù)據(jù)要素綜合試驗(yàn)區(qū)建

科技互聯(lián)網(wǎng) 2025-09-20 14:35

我國“燈塔工廠”數(shù)量全球第一

9月18日，國新辦舉行高質(zhì)量完成‘十四五’規(guī)劃系列主題新聞發(fā)布會。科技部部長陰和俊在發(fā)布會上表示，科技創(chuàng)新和產(chǎn)業(yè)創(chuàng)新是發(fā)展

科技互聯(lián)網(wǎng) 2025-09-20 14:37

這五年，我國科技事業(yè)取得歷史性成就

&emsp;9月18日，國新辦舉行高質(zhì)量完成‘十四五’規(guī)劃系列主題新聞發(fā)布會，介紹十四五時期科技創(chuàng)新發(fā)展成就。科技部部長陰和俊表

科技互聯(lián)網(wǎng) 2025-09-20 14:36

我科學(xué)家探索大質(zhì)量恒星形成之謎獲重要進(jìn)展

大質(zhì)量恒星是指質(zhì)量大于8倍太陽質(zhì)量的恒星，它們往往形成于大尺度、復(fù)雜且高度動態(tài)的氣體環(huán)境中，在宇宙演化過程中具有決定性作用。中國科

科技互聯(lián)網(wǎng) 2025-09-20 14:32

我國科技事業(yè)取得歷史性成就 2024年“三新”經(jīng)濟(jì)增加值占GDP比重達(dá)18%

&emsp;&emsp;9月18日，國務(wù)院新聞辦公室舉行高質(zhì)量完成‘十四五’規(guī)劃系列主題新聞發(fā)布會?？萍疾坎块L陰和俊在會上表示，5年來，

科技互聯(lián)網(wǎng) 2025-09-20 14:31

L2級輔助駕駛將迎來國家標(biāo)準(zhǔn) 智慧的車如何駛好安全的路？

智駕各種路況都能開？解放雙手可信嗎？伴隨智能網(wǎng)聯(lián)汽車快速發(fā)展，組合駕駛輔助功能加速上車，其安全應(yīng)用備受市場關(guān)注。17日，工業(yè)和信息化

科技互聯(lián)網(wǎng) 2025-09-20 14:00

強(qiáng)化安全　組合駕駛輔助系統(tǒng)將迎國標(biāo)

《經(jīng)濟(jì)參考報(bào)》9月18日刊發(fā)記者郭倩采寫的文章《強(qiáng)化安全　組合駕駛輔助系統(tǒng)將迎國標(biāo)》。文章稱，9月17日，工業(yè)和信息化部對《智能網(wǎng)聯(lián)汽車

科技互聯(lián)網(wǎng) 2025-09-20 14:02

相關(guān)推薦

科技互聯(lián)網(wǎng)排行榜

我國四大智慧城市群加速成形

2018-09-28 11:31
德國獲2024年歐洲杯主辦權(quán)

2018-09-28 11:31
奶糖味潤唇膏熱銷給國貨上了堂品牌創(chuàng)新課

2018-09-28 11:31
智慧地產(chǎn)樹起城市升級“風(fēng)向標(biāo)”

2018-09-28 11:31
首都機(jī)場下月推電子臨時乘機(jī)身份證明

2018-09-28 11:31

科技互聯(lián)網(wǎng)熱門推薦

我國四大智慧城市群加速成形

2018-09-28 11:31
德國獲2024年歐洲杯主辦權(quán)

2018-09-28 11:31
奶糖味潤唇膏熱銷給國貨上了堂品牌創(chuàng)新課

2018-09-28 11:31
智慧地產(chǎn)樹起城市升級“風(fēng)向標(biāo)”

2018-09-28 11:31
首都機(jī)場下月推電子臨時乘機(jī)身份證明

2018-09-28 11:31

欧美视频精品,女人与大狼拘配视频,日韩另类在线,伊人网99,亚洲网站免费,avav34,夜夜躁很很躁日日躁2022

DeepSeek-R1模型訓(xùn)練方法發(fā)布

我國成功發(fā)射衛(wèi)星互聯(lián)網(wǎng)技術(shù)試驗(yàn)衛(wèi)星

粵港澳大灣區(qū)生成式人工智能安全發(fā)展聯(lián)合實(shí)驗(yàn)室正式成立

DeepSeek-R1模型訓(xùn)練方法發(fā)布

國際科技園及創(chuàng)新區(qū)域協(xié)會世界大會在京開幕

商務(wù)部、工信部等9部門發(fā)文擴(kuò)大服務(wù)消費(fèi)

月球熱演化研究獲重要進(jìn)展內(nèi)生月震引發(fā)新滑坡

我國工業(yè)互聯(lián)網(wǎng)應(yīng)用加速落地

首個行業(yè)標(biāo)準(zhǔn)預(yù)發(fā)布智算中心建設(shè)邁向規(guī)范化

國家網(wǎng)信辦擬細(xì)化未成年人用戶數(shù)量巨大的網(wǎng)絡(luò)平臺服務(wù)提供者認(rèn)定標(biāo)準(zhǔn)

新華視點(diǎn)·關(guān)注AI造假丨透視AI“魔改”視頻爭議：創(chuàng)意還是惡搞？

組合駕駛輔助系統(tǒng)將迎國家標(biāo)準(zhǔn) 工業(yè)和信息化部公開征求意見

讓傳感器動起來我國科研團(tuán)隊(duì)研發(fā)出腦機(jī)接口動態(tài)電極

我國首次向全球共享氣候數(shù)據(jù)產(chǎn)品

數(shù)據(jù)要素綜合試驗(yàn)區(qū)建設(shè)取得初步進(jìn)展

我國“燈塔工廠”數(shù)量全球第一

這五年，我國科技事業(yè)取得歷史性成就

我科學(xué)家探索大質(zhì)量恒星形成之謎獲重要進(jìn)展

我國科技事業(yè)取得歷史性成就 2024年“三新”經(jīng)濟(jì)增加值占GDP比重達(dá)18%

L2級輔助駕駛將迎來國家標(biāo)準(zhǔn) 智慧的車如何駛好安全的路？

強(qiáng)化安全　組合駕駛輔助系統(tǒng)將迎國標(biāo)

科技互聯(lián)網(wǎng)排行榜

科技互聯(lián)網(wǎng)熱門推薦

大家都在看

精彩視頻

相關(guān)詞

欧美视频精品,女人与大狼拘配视频,日韩另类在线,伊人网99,亚洲网站免费,avav34,夜夜躁很很躁日日躁2022

DeepSeek-R1模型訓(xùn)練方法發(fā)布

我國成功發(fā)射衛(wèi)星互聯(lián)網(wǎng)技術(shù)試驗(yàn)衛(wèi)星

粵港澳大灣區(qū)生成式人工智能安全發(fā)展聯(lián)合實(shí)驗(yàn)室正式成立

DeepSeek-R1模型訓(xùn)練方法發(fā)布

國際科技園及創(chuàng)新區(qū)域協(xié)會世界大會在京開幕

商務(wù)部、工信部等9部門發(fā)文擴(kuò)大服務(wù)消費(fèi)

月球熱演化研究獲重要進(jìn)展 內(nèi)生月震引發(fā)新滑坡

我國工業(yè)互聯(lián)網(wǎng)應(yīng)用加速落地

首個行業(yè)標(biāo)準(zhǔn)預(yù)發(fā)布 智算中心建設(shè)邁向規(guī)范化

國家網(wǎng)信辦擬細(xì)化未成年人用戶數(shù)量巨大的網(wǎng)絡(luò)平臺服務(wù)提供者認(rèn)定標(biāo)準(zhǔn)

新華視點(diǎn)·關(guān)注AI造假丨透視AI“魔改”視頻爭議：創(chuàng)意還是惡搞？

組合駕駛輔助系統(tǒng)將迎國家標(biāo)準(zhǔn) 工業(yè)和信息化部公開征求意見

讓傳感器動起來 我國科研團(tuán)隊(duì)研發(fā)出腦機(jī)接口動態(tài)電極

我國首次向全球共享氣候數(shù)據(jù)產(chǎn)品

數(shù)據(jù)要素綜合試驗(yàn)區(qū)建設(shè)取得初步進(jìn)展

我國“燈塔工廠”數(shù)量全球第一

這五年，我國科技事業(yè)取得歷史性成就

我科學(xué)家探索大質(zhì)量恒星形成之謎獲重要進(jìn)展

我國科技事業(yè)取得歷史性成就 2024年“三新”經(jīng)濟(jì)增加值占GDP比重達(dá)18%

L2級輔助駕駛將迎來國家標(biāo)準(zhǔn) 智慧的車如何駛好安全的路？

強(qiáng)化安全 組合駕駛輔助系統(tǒng)將迎國標(biāo)

科技互聯(lián)網(wǎng)排行榜

科技互聯(lián)網(wǎng)熱門推薦

大家都在看

精彩視頻

相關(guān)詞

商務(wù)部、工信部等9部門發(fā)文擴(kuò)大服務(wù)消費(fèi)

月球熱演化研究獲重要進(jìn)展內(nèi)生月震引發(fā)新滑坡

首個行業(yè)標(biāo)準(zhǔn)預(yù)發(fā)布智算中心建設(shè)邁向規(guī)范化

新華視點(diǎn)·關(guān)注AI造假丨透視AI“魔改”視頻爭議：創(chuàng)意還是惡搞？

讓傳感器動起來我國科研團(tuán)隊(duì)研發(fā)出腦機(jī)接口動態(tài)電極

L2級輔助駕駛將迎來國家標(biāo)準(zhǔn) 智慧的車如何駛好安全的路？

強(qiáng)化安全　組合駕駛輔助系統(tǒng)將迎國標(biāo)