OpenAI最新模型o3展現強大推理能力
不過,英國《新科學家》網站在12月22日的報道中指出,盡管o3“實現了令人矚目的性能飛躍”,但仍未達到業內翹首以盼的通用AI(AGI)水平。
多方面表現出色
OpenAI公司透露,在解決更復雜的多步驟問題時,o3模型會花更多時間計算答案,然后再給出回應。這一推理能力的提升,使o3在多項測試中表現出色。
大型語言模型熱衷于在各種數學基準測試上瘋狂“刷分”,o3也不例外。在2024年美國數學邀請賽中,o3模型的準確率高達96.7%,僅答錯了一個問題。而在OpenAI研究人員認為最嚴格的基準測試之一——Frontier Math中,o3也解決了25.2%的問題。盡管這一得分看似不高,但此前其他大型語言模型曾在此“集體翻車”,正確率均未超過2%。
Frontier Math測試難度極大,曾被華裔數學家、菲爾茲獎得主陶哲軒評價為“可能會難住AI好幾年”。然而,o3只需思考幾分鐘便能解答其中一道題目,而人類數學家則要花費數小時到數天。
在對科學知識的掌握方面,o3的表現也超出一般博士水平。在GPQA Diamond(衡量模型在博士級科學問題上的表現,涵蓋化學、物理和生物學方面的專業知識)基準測試中,o3的準確率達到87.7%,超過了人類博士的70%,也比之前o1表現高近10%。
此外,o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現實世界軟件問題的能力)基準上,o3的準確率約為71.7%,比o1高20%以上。在Codeforces編碼競賽平臺中,o3的得分為2727,相當于榜單上第175名人類編程員的水平,而o1得分僅為1891。
在展示了o3取得的這些傲人成績后,OpenAI首席執行官奧爾特曼強調,o3的出現標志著AI進入了下一個發展階段,這些模型可處理需要大量推理的復雜任務。
與人類智能仍有差異
《新科學家》網站還報道,在被視為AGI重要衡量標準的抽象與推理語料庫-AGI(ARC-AGI)大賽中,o3模型也創下新紀錄:在低算力配置下,它以75.7%的得分登上公共排行榜前列。只因確定此項大獎得主的測試具有更嚴格的算力限制,在該算力限制下,o3的挑戰以失敗告終。
不過,在超出官方算力限制172倍的高算力下,o3采用“蠻力”取得了87.5%的成績,達到了代表人類水平的85%門檻。
對于o3的表現,谷歌前工程師、ARC-AGI主要創建者弗朗索瓦·肖萊在博客中寫道,這是AI能力的一次驚人且重要的躍升。但o3尚未實現AGI,因為其仍然無法解決ARC-AGI比賽中一些非常簡單的問題,這表明其與人類智能存在根本差異。
AGI是一個假想中的未來系統,它能夠模仿人類思維、決策,擁有自我意識,并能自主行動。然而,AGI目前主要活躍在科幻作品中,尚未走進現實。
升級迭代并非易事
o3不僅是OpenAI公司的最新力作,也是AI巨頭競逐大型語言模型的生動寫照。
兩年前,OpenAI發布了ChatGPT,由此拉開了AI軍備競賽的序幕。從GPT-3.5到更準確、更具創造性的GPT-4,再到o1,直至o3,OpenAI在不斷精進自家產品。
其他頂級AI開發商也在利用日益先進的技術,推動自家產品迭代升級。此前不久,谷歌推出了其旗艦模型“雙子座”(Gemini)的新版本,據稱其速度是上一代的兩倍,并且能夠“思考、記憶、規劃,甚至替代用戶采取行動”。元宇宙平臺公司計劃明年推出Llama 4。
然而,迭代之路并非坦途。包括OpenAI和谷歌在內的幾家領軍企業,正面臨新模型開發耗資巨大但回報遞減的困境。OpenAI的GPT-5模型開發工作進展緩慢。據悉,僅6個月的訓練,單計算成本就高達約5億美元,而性能僅比該公司現有產品略勝一籌。
關鍵詞:
責任編輯:孫知兵
免責聲明:本文僅代表作者個人觀點,與太平洋財富網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
如有問題,請聯系我們!
- OpenAI最新模型o3展現強大推理能力2024-12-26
- 把握中國市場開放機遇——訪保加利亞商工會2024-12-26
- 央行:將開展35億元央行票據互換(CBS)操作2024-12-26
- 新成果涌現、制造業成績亮眼 細數中國工業2024-12-26
- 12月26日人民幣對美元中間價報7.1897元 下2024-12-26
- 12月26日央行開展1063億元7天期逆回購操作2024-12-26
- 事關你我日常生活!我國增值稅迎來立法 這2024-12-26
- 海南省首個海上風電項目具備并網發電條件2024-12-26
- 入關日期竟早于生產日期,溯源碼還能信嗎?2024-12-26
- 三星財產保險:騰訊加持,開啟品質醫療保障2024-12-26
- A股上市公司分紅總額創歷史新高 投資者將2024-12-26
- 我國新能源汽車高寒適應性如何?來看最新測2024-12-26
- 安徽馬鞍山造的“工業大米”何以賣向全球?2024-12-26
- 天津東郊“光伏+污水廠”并網發電 四廠綠2024-12-26
- 山西21部門聯合出臺指導意見 打造“古韻新2024-12-26
- 11月廣東民用無人機產量同比增長近1.4倍2024-12-26
- 電商西進背后:拼多多與那些被忽略的愛與自2024-12-26
- 曲智星年會:2025目標十億,全面向科技公司2024-12-26
- ACROBiosystems百普賽斯GMP工廠獲ISO 90012024-12-26
- 京東企業購上線黃金水餃 集齊12枚生肖金2024-12-26
- 探訪海底撈央廚:“300目”超細粉碎研磨,2024-12-26
- 創業分享丨曼孚創始人趙劍:回歸商業本質,2024-12-26
- 祖龍娛樂二度榮膺 “最佳 TMT 公司”,2024-12-26
- 踐行服務“新理念” 構建審批“新生態”—2024-12-26
- 政策賦能YOUMAGIC?的創新與產業協同,沉淀2024-12-26
- 燕莢專業幫助兒童健脾養胃效果顯著,家長愁2024-12-25
- 從資管賽道王者到交易、資管全面發展,Matr2024-12-25
- 推動大模型應用場景落地,2024人工智能大模2024-12-25
- 張興海、余承東做客央視直播間 講述問界成2024-12-25
- 新能源汽車強勢崛起引領創新潮流2024-12-25
精彩推薦
- 護航年末流動性 降準蓄勢待發
- 千億資金翻涌 信托公司能否成為綠色金...
- 市值管理新規推動估值重塑 央國企或成主導
- 央行連續操作注入流動性 降準預期再升溫
- 小黃象攜手中國國家U18冰球隊,以熱愛書...
- 北京花卉交易中心豐富市民“花樣”生活
- 南漳柑橘“致富經”:高山盆地“金果”...
- 市場監管總局:推動平臺企業和平臺內商...
- 遇見非遺丨把沉睡的泥土鐫刻進生活
- “江南蔬菜之鄉”江西樂平3000余畝水芹...
- 襄陽牛肉面:“熱辣滾燙”顯“俠義”
- 【百萬莊小課堂】今天你emo了嗎?職場青...
- 中國試點開放信用監管數據 便利境外來...
- 深圳年度最大規模畢業生雙選會提供崗位3...
- 廣西桂林滿城桂花飄香