榮登榜首!科大訊飛刷新機器常識推理水平世界紀錄
4月12日,由科大訊飛(002230)承建的我國首個認知智能國家重點實驗室,以76.06%的成績登頂常識推理挑戰賽CommonsenseQA 2.0,刷新世界紀錄,在讓機器“能理解、會思考”上邁出一大步!
CommonsenseQA 2.0是艾倫人工智能研究院(Allen Institute for AI)于2021年主導發布的國際常識推理評測數據集,旨在評估機器對常識知識的理解及掌握水平,吸引了包括Google、Allen Institute for AI、華盛頓大學等眾多國際頂尖機構參與挑戰。 科大訊飛首次參賽,即創新性地提出ACROSS模型,以全新深度學習算法絕對優勢,刷新機器常識推理水平世界紀錄。
從做“選擇題”到做“判斷題”
機器學會常識推理有多難?
常識推理(Commonsense Reasoning)是 NLP 最重要的前進方向之一,其目的是幫助計算機學習常識知識,并利用所掌握的知識進行深層次的理解及推理。該領域的進展及技術突破對人工智能發展具有重要的意義。
當前典型的閱讀理解模型所關注的問題類型主要是事實類問題,這類型的問題答案往往能直接在原文中找到,然而如何基于常識和背景知識進行推理以獲得答案仍舊是一個巨大的挑戰。CommonsenseQA正是為了訓練機器像人類一樣基于先驗知識結合現實情況作答能力而設置的數據集。 當人們回答問題時,往往會利用自身了解的知識結合特定的背景來判斷問題答案,比如常識、背景知識、空間關系、科學事實、社會慣例等。
CommonsenseQA 1.0任務示例
如上圖任務示例中的第一個問題,“我可以站在河上的什么地方看水流而不會弄濕自己?”可以從選擇項中推斷我是在橋上。這種知識對人類而言似乎很好理解,但是如何讓機器學會常識及背景知識并進行準確推理,仍然是一個巨大的挑戰。
CommonsenseQA 2.0是一個二元分類數據集,包含14343個問題,主要分為訓練/開發/測試集,需要判斷常識性陳述是對還是錯。1.0版本所考察的問題,是基于現有常識知識庫ConceptNet中的知識三元組構建的,這使得機器在處理該任務時,有能直接聚焦參考的知識。相比較1.0的“選擇題”,2.0“判斷題”挑戰難度更高,僅給定一個主題實體或概念、一個常識類關系(且關系不一定在現有知識庫出現),讓人類以自然語言的方式去構造機器較難掌握的常識知識。
該構造方法所構造的常識推理問題具有龐大的想象空間,大部分在當前知識庫中并未覆蓋,無疑顯著增加了機器處理該類問題的難度。同時,該評測任務數據構造過程中,還通過人與機器不斷博弈對抗的方式,不斷迭代設計,最終確定的問題集合基本是當前主流算法都完成得不好的問題。
CommonsenseQA 2.0任務問題示例
CommonsenseQA 2.0任務所覆蓋的常識問題類型示例
目前以科大訊飛為代表的中國人工智能力量在常識推理領域中已有很大的進步,但是仍遠低于人類94.1%的水平,可見在常識性推理方向仍有很大挑戰和進步空間。
科大訊飛提出ACROSS創新方法破解難題
在CommonsenseQA 2.0這項頗具挑戰的常識推理評測任務上,業界主流的中等大小預訓練模型方法也只能取得55%的水平,略高于隨機猜測平均水平。此前國際上該任務的最優方法,通過1750億級參數量大小的GPT3模型生成針對CommonsenseQA 2.0常識推理問題的相關知識,并基于T5模型進行融合處理,該方法取得了73%的準確率。
本次由科大訊飛承建的認知智能國家重點實驗室團隊創新提出的面向常識知識推理的ACROSS(Automatic Commonsense Reasoning on Semantic Spaces)模型, 是繼2016年科大訊飛提出神經聯想模型NAM(Neural Association Model),并取得Winograd Schema Challenge冠軍后的又一力作。
該模型實現了統一語義空間下外部知識的有效融合,顯著改進了超大規模預訓練模型所存在的問題, 在CommonsenseQA 2.0任務上取得76%的準確率。
該評測的常識推理問題,不論在ConceptNet等知識庫,或者互聯網上,都較難找到直接的答案。從人類進行常識知識運用及推理的習慣出發,對于一個復雜的問題,首先需要查閱相關知識庫或典籍,其次會借助互聯網搜索去查找相關信息。ACROSS模型正是借鑒該思路,充分收集知識庫、互聯網相關信息,在統一的語義空間中進行融合處理,最后賦予超大規模預訓練模型更強的知識輸入,實現準確的常識知識推理。 該方法結果也一定程度上證明了機器已初步具備對于各類復雜文本信息及知識的深入理解及運用能力。
我國在常識推理領域的技術攻堅還在繼續。人工智能技術的下一步發展,必須要突破常識推理這一瓶頸,才能在教育、醫療、養老等國計民生場景中,讓人工智能產品更具備實用價值。“讓機器能聽會說、能理解會思考”是清晰可預見的未來,科大訊飛求索未止。
責任編輯:孫知兵
免責聲明:本文僅代表作者個人觀點,與太平洋財富網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
如有問題,請聯系我們!
- 榮登榜首!科大訊飛刷新機器常識推理水平世2022-04-14
- 億聯網絡跌4.7% 中信證券長江證券在其高點2022-04-14
- 以嶺藥業龍虎榜:機構凈賣出1.39億元2022-04-14
- 中國鐵物龍虎榜:機構凈賣出1.31億元2022-04-14
- 保利置業集團附屬發行公司債券35億2022-04-14
- 名門地產申請破產重整2022-04-14
- 華僑城A:3月合同銷售金額28.9億2022-04-14
- 蕪湖自今日起取消二手房限售2022-04-14
- 亞洲水泥(中國)(00743.HK)料一季度股東應占2022-04-14
- 京能置業近三個交易日累計漲幅達26.65%2022-04-14
- 安踏體育(02020.HK)第一季度安踏品牌產品零2022-04-14
- 《敢達爭鋒對決》近戰天花板出場,天蝕敢達2022-04-14
- 建信信托:服務新發展格局,支持實體經濟發2022-04-14
- 泰達宏利基金:多重因素影響A股走勢,市場2022-04-14
- 申萬宏源:3月國內面臨輸入性通脹壓力2022-04-14
- 抗疫,韻達福建省公司在行動2022-04-14
- 冷軋卷板板塊股票有哪些?相關的有八一鋼鐵2022-04-14
- 大梁茗酒主題曲《度你》首發 演繹人間邛派2022-04-14
- 霧芯科技(RLX.US)盤前漲3.32%報2.18美元 2022-04-14
- 香港中華煤氣(0003.HK)“沽售”評級 預測22022-04-14
- 全球汽車制造巨頭Stellantis(STLA.US)盤前2022-04-14
- 融捷股份一季度凈利同比預增12385%-15159%2022-04-14
- 恒生指數周四漲0.67% 餐飲股領漲2022-04-14
- 中國航空科幻IP《南天門計劃》“NFT”數字2022-04-14
- 達美航空(DAL.US)盤前漲1.02%報41.44美元 2022-04-14
- 億航智能(EH.US)盤前漲2.15%報11.89美元 2022-04-14
- 三湘印象收深交所問詢函 要求說明商譽減值2022-04-14
- 航宇科技擬12億元投建航空發動機燃氣輪機用2022-04-14
- 因收購同行迎來“債務危機”的曲美,走過至2022-04-14
- 3.3萬股東遭埋!翻倍大牛股上演“天地天”2022-04-14
精彩推薦
- 保利置業集團附屬發行公司債券35億
- 名門地產申請破產重整
- 華僑城A:3月合同銷售金額28.9億
- 蕪湖自今日起取消二手房限售
- 亞洲水泥(中國)(00743.HK)料一季度股東...
- 京能置業近三個交易日累計漲幅達26.65%
- 安踏體育(02020.HK)第一季度安踏品牌產...
- 申萬宏源:3月國內面臨輸入性通脹壓力
- 冷軋卷板板塊股票有哪些?相關的有八一...
- 霧芯科技(RLX.US)盤前漲3.32%報2.18美元...
- 香港中華煤氣(0003.HK)“沽售”評級 預...
- 全球汽車制造巨頭Stellantis(STLA.US)盤...
- 達美航空(DAL.US)盤前漲1.02%報41.44美...
- 億航智能(EH.US)盤前漲2.15%報11.89美元...
- 京投發展:一季度簽約銷售金額為9.86億,...