昆侖萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

2024-11-27 10:46:19來源：今日熱點網(wǎng)

今天，昆侖萬維正式推出具有復(fù)雜思考推理能力的系列模型——「天工大模型4.0」 o1版（Skywork o1）。

Skywork o1是由昆侖萬維集團發(fā)布的具有慢思考推理能力的系列模型。這是國內(nèi)第一款中文邏輯推理能力的o1模型。不同于現(xiàn)有的復(fù)現(xiàn)OpenAI o1模型的工作，Skywork o1不僅在模型輸出上內(nèi)生了思考、計劃、反思等能力，同時，該開源模型在標準評測集上，對比普通模型推理能力大幅上升，真正讓模型擁有了思考和反思帶來的推理能力的提升。團隊復(fù)現(xiàn)o1的技術(shù)路線，使得初始推理能力較差的基座模型在基準測試集上成為生態(tài)位SOTA。

此次發(fā)布的Skywork o1包括三款模型，既有回饋開源社區(qū)的開放版本，也有能力更強的專用版本：

1，Skywork o1 Open：一款基于Llama 3.1 8B的開源模型，該模型在同生態(tài)位開源模型中評測指標大幅提升達到SOTA水平，并解鎖了許多輕量級模型無法解決的復(fù)雜數(shù)學(xué)任務(wù)。該模型的發(fā)布也將幫助加速國內(nèi)開源社區(qū)復(fù)現(xiàn)o1的進程。

2，Skywork o1 Lite：該模型具備完整的思考能力，具有更好的中文支持和更快的推理和思考速度。在數(shù)學(xué)、中文邏輯和推理類問題上表現(xiàn)突出。

3，Skywork o1 Preview：這款模型是本次完整版的推理模型，搭配自研的線上推理算法，對比Skywork o1 Lite有著更多樣和“深度”的思考過程，更完善和更高質(zhì)量的推理。

其中，我們開源的Skywork o1 Open，在各項數(shù)學(xué)和代碼指標上均有大幅提高，將Llama-3.1-8B的性能拉到同生態(tài)位SOTA（超越Qwen-2.5-7B instruct）。同時，8B的Skywork o1 Open也解鎖了很多較大量級模型，如GPT 4o，無法完成的數(shù)學(xué)推理任務(wù)（如24點計算）。這也為推理模型在輕量級設(shè)備上部署提供了可能性。

同時，我們也將開源兩個推理任務(wù)的Process Reward Model（PRM）：Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B，相比此前開源的Skywork-Reward-Model僅對整個模型回答進行打分，Skywork o1 Open-PRM能給模型回答中的每個步驟進行打分。

對比開源社區(qū)現(xiàn)有的PRM，Skywork o1 Open-PRM-1.5B能達到開源社區(qū)8B的模型效果，例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data，OpenR的Math-psa-7B，Skywork o1 Open-PRM-7B能同時在大部分benchamrk上接近/超過10倍量級的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款適配代碼類任務(wù)的開源PRM。下面表格為以Skywork-o1-Open-8B作為基礎(chǔ)模型，使用不同PRM在數(shù)學(xué)和代碼評測集上的評估結(jié)果。

除Skywork-o1-Open-PRM外，其他開源PRM均未針對代碼類任務(wù)進行專門優(yōu)化，故不進行代碼任務(wù)的相關(guān)對比。

詳細技術(shù)報告也將在不久后發(fā)布。目前模型和相關(guān)介紹在Huggingface開源（開源地址：https://tinyurl.com/skywork-o1）

強推理以及自我反思的能力是如何練成的？

Skywork o1在邏輯推理任務(wù)上性能的大幅提升得益于天工三階段自研的訓(xùn)練方案：

1，推理反思能力訓(xùn)練：通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考，反思和驗證數(shù)據(jù)。通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對基座模型進行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。,

2，推理能力強化學(xué)習(xí)：團隊研發(fā)了最新的適配分步推理強化的Skywork o1 Process Reward Model（PRM）。實驗證明Skywork-PRM可有效的捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對最終答案的影響。結(jié)合自研分步推理強化算法進一步加強模型推理和思考能力。

3，推理planning：基于天工自研的Q*線上推理算法配合模型在線思考，并尋找最佳推理路徑。這也是全球首次將Q*算法實現(xiàn)和公開。Q*算法落地也大大提升了模型線上推理能力。

關(guān)于天工 Q*算法，更多詳情可見：https://arxiv.org/abs/2406.14283

亮點功能與實測

Skywork o1模型具有以下能力和亮點功能：

1，模型思考和規(guī)劃能力

2，模型自我反思能力

3，模型自我驗證能力

相較于此前（長文本任務(wù)）大模型，無論是常識推理問題、邏輯推理問題、數(shù)學(xué)推理問題、倫理決策問題、還是“弱智”（類似腦筋急轉(zhuǎn)彎）邏輯陷阱問題等，Skywork o1都處理的游刃有余。整體來說，Skywork o1 Lite和Skywork o1 Preview線上版本在復(fù)雜問題分析、思考反思過程、輸出答案質(zhì)量上均有大幅提升。

首先，我們拿一道「2024年全國碩士研究生入學(xué)統(tǒng)一考試數(shù)學(xué)(一)試題」考考它（如下圖所示），測試一下它的“智力水平”。

面對難度不小的最新考研數(shù)學(xué)題，Skywork o1 Preview盡管花費了一些時間，但還是一步步推理出了正確結(jié)果。

那么，之前大模型經(jīng)常翻車的比大小問題，Skywork o1現(xiàn)在的回答水平如何了？

從它的思考過程可以看出，Skywork o1的模型思考和規(guī)劃能力大幅提升。這個解題邏輯非常像人類的思考方法了，“如果整數(shù)部分相同，那么就要開始比較小數(shù)部分了”。通過嚴謹?shù)耐评磉^程，準確得出8.8大于8.11，且多給出了一步差值計算。

此外，模型自我反思能力和自我驗證能力也都有長足進步。Skywork o1可以準確識別出“nǐ hǎo hěn gāo xìng rèn shí nǐ”，還可以給出后續(xù)對話建議。

盡管我們讓它回答存在中文讀音“陷阱”的問題——“請將qíng rén yǎn lǐ chū xī shī轉(zhuǎn)換為中文”，它也沒有被我們繞進去。充分展示了中文邏輯問題思考中的反思能力，它主動發(fā)現(xiàn)了“西詩”是不對的說法，而是“西施”。

同樣的，對于之前的大模型來說，“算24點”的游戲很容易把模型搞崩潰了，但是對于Skywork o1來說，可謂是小菜一碟。它不僅給出了正確答案，重點是它在過程中進行了「自我驗證」。它在計算過后，又檢查了一遍，確認過程和答案全部符合命題要求，才給出最終答案。

除了上述給出的數(shù)學(xué)推理、比大小、中文邏輯以及24點計算的任務(wù)外，Skywork o1在其他復(fù)雜的場景也有較好表現(xiàn)：

競賽數(shù)學(xué)：Skywork o1拿到2024 AIME第一題（如下圖所示），也從容應(yīng)對。計算邏輯清晰、公式展示流暢，計算時長也明顯具有優(yōu)勢。

密碼解密：在復(fù)雜密碼解密任務(wù)中，Skywork o1擁有強大的自我探索和推理能力。

在已知「原文→密文」的前提下，經(jīng)過一系列復(fù)雜推理后成功給出答案（如下圖所示）。

如果反過來呢？已知一段「密文→原文」，能否找出新密文所對應(yīng)的原文。Skywork o1表示小菜一碟。

智力問答：在復(fù)雜的中文推理問題上，Skywork o1表現(xiàn)優(yōu)異，并給出了完整的思考鏈路。

最后，再讓我們再給他出一些有趣的“弱智”問題，來看看它的回答是不是合理。

1，為什么我爸媽結(jié)婚的時候沒邀請我參加婚禮?

2，被門夾過的核桃，還能補腦嗎？

3，午餐肉，我可以晚上吃嗎?

令人驚喜的是，Skywork o1不但沒有被問題繞進去，還分析的頭頭是道，甚至透露出“大智慧”，引申出了一些更底層的思考。

進階版的復(fù)雜人類思考能力的解鎖也將進一步在垂類領(lǐng)域增強大模型的應(yīng)用，例如：

1，中英文常見邏輯推理和復(fù)雜任務(wù)，如數(shù)學(xué)/代碼類任務(wù)，科學(xué)研究

2，高質(zhì)量內(nèi)容生成，如創(chuàng)意寫作，行業(yè)報告寫作

3，深度搜索，解鎖復(fù)雜搜索任務(wù)的拆解

2024年以來，昆侖萬維天工AI持續(xù)進化，陸續(xù)發(fā)布了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o，以及今天正式發(fā)布的「天工大模型4.0」 o1版（Skywork o1），不僅是我們貫徹“All in AGI 與 AIGC” 戰(zhàn)略的重要舉措，更是我們構(gòu)建AI技術(shù)棧的重要一步。我們將秉持“實現(xiàn)通用人工智能，讓每個人更好地塑造和表達自我”的使命，從模型層、應(yīng)用層等全方位、多維度來構(gòu)建公司技術(shù)競爭力和生態(tài)矩陣。

免責(zé)聲明：市場有風(fēng)險，選擇需謹慎！此文僅供參考，不作買賣依據(jù)。

關(guān)鍵詞：

責(zé)任編輯：孫知兵

免責(zé)聲明：本文僅代表作者個人觀點，與太平洋財富網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。
如有問題，請聯(lián)系我們！

昆侖萬維「天工大模型4.0」o1版（Skywork 2024-11-27
龍大美食與紫燕食品達成戰(zhàn)略合作，強強聯(lián)手2024-11-27
InBody參與共話精準營養(yǎng)治療助力提升國民2024-11-27
海底撈賦能雷山魚醬酸，打造鄉(xiāng)村振興新模板2024-11-27
「甲子光年」對話法大大：從電子簽回望中國2024-11-27
喜報｜諾威施針狀肥獲“化工科技進步獎”一2024-11-27
中國棉花，一棉一世界：穩(wěn)健集團亮相鏈博會2024-11-27
媒體聚焦｜植保會千企競秀，諾威施針狀肥創(chuàng)2024-11-27
港豐20年·行穩(wěn)致遠 | 全球出海戰(zhàn)略合規(guī)2024-11-27
人物專訪：王思亮——金融市場長勝勁旅的領(lǐng)2024-11-27
君樂寶帶你探秘：牛奶的千年發(fā)展歷程2024-11-27
三維天地助力生產(chǎn)制造企業(yè)做好產(chǎn)品質(zhì)量控制2024-11-27
療愈領(lǐng)域新突破：律霖腦科學(xué)療愈系統(tǒng)即將亮2024-11-27
一嗨租車薦房車自駕反季暢游西北2024-11-26
十年新家期待他為什么選擇了自如的智愛家2024-11-26
中航重機：子公司安飛公司受托管理安虹公司2024-11-26
弘揚優(yōu)秀傳統(tǒng)文化，書院何為？2024-11-26
31萬人報考，導(dǎo)游證好考嗎？一文了解關(guān)于導(dǎo)2024-11-26
首屆培育“讀書種子”講壇在北京舉行2024-11-26
眾利數(shù)科|科技賦能驅(qū)動未來發(fā)展新征程2024-11-26
職業(yè)本科教育辦學(xué)思考：好生源如何轉(zhuǎn)化為高2024-11-26
數(shù)字技術(shù)應(yīng)用助推教育行業(yè)轉(zhuǎn)型2024-11-26
國酒華夏實業(yè)（北京）有限公司酒業(yè)連鎖怎么2024-11-26
四維高景二號雙星發(fā)射成功2024-11-26
地震科技為山西古建筑排除“腳下”險情2024-11-26
AI模型設(shè)計六種性能更優(yōu)蛋白質(zhì)2024-11-26
首例全程機器人輔助雙肺移植手術(shù)完成2024-11-26
巨星傳奇：以IP為引擎，驅(qū)動泛娛樂生態(tài)蓬勃2024-11-26
我國新一代地基紅外天文望遠鏡發(fā)布首批圖像2024-11-26
我國提出到2027年底全面實現(xiàn)5G規(guī)模化應(yīng)用2024-11-26

精彩推薦

小黃象攜手中國國家U18冰球隊，以熱愛書寫冰雪傳奇

閱讀排行

龍大美食與紫燕食品達成戰(zhàn)略合作，強強聯(lián)手共啟食品行業(yè)新篇章
上一篇2024-11-27 10:40:46

關(guān)于我們　-　聯(lián)系方式　-　版權(quán)聲明　-　招聘信息　-　友鏈交換　-　網(wǎng)站統(tǒng)計

未經(jīng)過本站允許請勿將本站內(nèi)容傳播或復(fù)制業(yè)務(wù)QQ：3 31 986 683

激情国产一区二区,亚洲激情男女视频,欧美日韩国产高清一区二区,欧美午夜影院一区

昆侖萬維「天工大模型4.0」o1版（Skywork o1）正式啟動邀請測試

精彩推薦

小黃象攜手中國國家U18冰球隊，以熱愛書寫冰雪傳奇

閱讀排行

推薦閱讀