首頁 > 資訊 > 聚焦 > 正文

SuperCLUE 最新評測發布,山海大模型穩居全球大模型第一梯隊

2024-07-12 14:27:18來源:今日熱點網

7月9日,SuperCLUE發布《中文大模型基準測評2024上半年報告》,報告選取國內外有代表性的33個大模型在6月份的版本,通過多維度綜合性測評,對國內外大模型發展現狀進行觀察與思考。

報告顯示,云知聲山海大模型在本次半年度評測中取得總分72的優異成績,與360gpt2-pro、字節跳動豆包、月之暗面Kimi、百川智能Baichuan4并列國內大模型第四,穩居全球大模型第一梯隊。

https://img2.danews.cc/upload/images/20240711/8f051ea28f2baec7024c263ab7129f73.png

SuperCLUE作為國內權威通用大模型綜合性測評基準,其前身可追溯至第三方中文語言理解評估基準CLUE(The Chinese Language Understanding Evaluation)。自2019年成立以來,CLUE基準一直致力于提供科學、客觀、中立的語言模型評測,其先后推出了CLUE、FewCLUE、KgCLUE、DataCLUE等多個被廣泛認可的評估標準。根據CLUE多年測評經驗,SuperCLUE基于通用大模型在學術、產業與用戶側的廣泛應用,構建了多層次、多維度的綜合性測評基準。

作為一個完全獨立的第三方評測機構,SuperCLUE采用自動化評測技術,有效消除人為因素帶來的不確定性,確保提供無偏倚的客觀評測結果。不同于傳統測評通過選擇題形式的測評,SuperCLUE納入開放主觀問題的測評,通過多維度多視角多層次的評測體系以及對話的形式,模擬大模型的應用場景,真實有效考察模型生成能力。與此同時,SuperCLUE根據全球的大模型技術發展趨勢,不斷升級迭代測評體系、測評維度和方法,以保證盡可能精準量化大模型的技術演進程度。

為進一步真實反映大模型能力,本次通用測評采用多維度、多層次的綜合性測評方案,由理科、文科和Hard三大維度構成:理科任務分為計算、邏輯推理、代碼測評集;文科任務分為知識百科、語言理解、長文本、角色扮演、生成與創作、安全和工具使用七大測評集;Hard任務聚焦精確指令遵循測評集,未來將陸續推出復雜多步推理和高難度問題解決等評測。

https://img2.danews.cc/upload/images/20240711/a7bead277220149a6d756f080a604b67.png

從代表通用能力的一級總分來看,山海大模型得分72,與360gpt2-pro、字節跳動豆包、月之暗面Kimi、百川智能Baichuan4并列國內大模型第四,位居全球大模型第一梯隊。

具體到二級維度得分,山海大模型在理科和文科領域均表現優異——在理科能力方面,山海大模型以76分的高分緊隨GPT-4o、GPT-4-Turbo-0409之后,力壓一眾國內大模型,并列排名國內第一;文科能力以75分的成績并列國內第二,實力同樣不容小覷。

https://img2.danews.cc/upload/images/20240711/243247cce88fd13caec28e555e471638.png

https://img2.danews.cc/upload/images/20240711/88e9cebcaac9d74821488df87e4978d2.png

在SuperCLUE基于基礎能力和應用能力兩個維度構建的模型象限圖中,山海大模型被定位為“卓越領導者”。這一分類反映了山海大模型在基礎和場景應用能力上均達到了領先水平,持續引領國內大模型技術發展和創新。

https://img2.danews.cc/upload/images/20240711/ba25026826be352287ca8e96d6d71214.png

此外,與GPT4-Turbo-0409的對戰勝率統計數據顯示,山海勝率為17.67%,和率為65.37%,位列國內大模型第五,整體實力依舊不俗。

https://img2.danews.cc/upload/images/20240711/1370a9329e98fad1c4c5f28310b3b061.png

自2023年5月問世以來,山海大模型已相繼在C-Eval全球大模型綜合性評測、OpenCompass大模型評測、MedBench評測等多個權威評測中屢創佳績,充分展現出業界一流的通用能力和領先于世界的行業大模型能力。

正如報告所言,隨著技術進步和應用場景拓展,2024年下半年國內外大模型市場競爭將持續加劇,推動技術創新和產業升級。接下來,云知聲將繼續保持大模型能力穩步提升,以山海為抓手,在產業側實現加速落地,致力成為真正助力各行各業的“新質生產力”。


關鍵詞:

責任編輯:孫知兵

免責聲明:本文僅代表作者個人觀點,與太平洋財富網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
如有問題,請聯系我們!

關于我們 - 聯系方式 - 版權聲明 - 招聘信息 - 友鏈交換 - 網站統計
 

太平洋財富主辦 版權所有:太平洋財富網

?中國互聯網違法和不良信息舉報中心中國互聯網違法和不良信息舉報中心

Copyright© 2012-2020 太平洋財富網(www.8899ip.com) All rights reserved.

未經過本站允許 請勿將本站內容傳播或復制 業務QQ:3 31 986 683

 

主站蜘蛛池模板: 亚洲欧美日韩成人网| 亚洲国产成人精品无码区在线秒播| 亚洲精品成人区在线观看| 国产成人亚洲精品| 国产成人亚洲精品无码av大片| 国产成人午夜精品影院游乐网| 久久久久亚洲av成人网人人软件| www夜片内射视频日韩精品成人| 成人观看网站a| 国产成人亚洲综合| 亚洲国产精品一区二区成人片国内| 猫咪AV成人永久网站在线观看 | 成人最新午夜免费视频| 成人中文字幕一区二区三区| 免费看一级淫片成人| 成人无遮挡毛片免费看| 亚洲精品成人a在线观看| 成人福利免费视频| 激情成人综合网| 俄罗斯一级成人毛片| 国产成人精品无码一区二区 | 成人永久福利在线观看不卡| 久久成人国产精品一区二区| 国产成人精品午夜二三区波多野| 欧美成人精品第一区二区三区| 四虎亚洲国产成人久久精品| 成人国产经典视频在线观看| 成人精品视频一区二区三区| 久久精品国产亚洲av成人| 亚洲国产精品成人久久久| 四虎成人精品无码| 国产成人手机高清在线观看网站 | 国产1000部成人免费视频| 国产一区亚洲欧美成人| 四虎成人国产精品视频| 国产成人av乱码在线观看| 国产成人无码精品一区不卡| 国产成人综合亚洲一区| 3d成人免费动漫在线观看| 国产成人av在线影院| 免费看成人aa片无码视频吃奶|