【財經分析】打造細分領域數據優勢釋放行業版ChatGPT生產力

2023-04-27 17:38:31來源：新華財經

新華財經北京4月27日電（郭興華）4月26日，“企業數據精準確權與AIGC全球合規論壇”在清華經管學院舉辦。4月11日，國家互聯網信息辦公室發布《生成式人工智能服務管理辦法（征求意見稿）》。4月7日，阿里系“通義千問”官宣內測，結合此前召開發布會的百度“文心一言”，我國多模態人工智能大模型開啟了追趕ChatGPT的競賽。2022年底GhatGPT火速圈粉以來，大量資本和研發進入這一賽道，人工智能的發展進入百米沖刺的階段。OpenAI官方發文稱，集成算法、算力和預訓練數據的AI模型即將進入強人工智能時代，人類可能正面臨著有史以來最重大的一次生產力水平躍遷。盡管我國企業目前推出的GPT類產品在性能上與ChatGPT-4相比有不小的差距，但是我們仍然可以在一些方面與之競爭，并非常有可能做的更好。

優質數據集的價值將越來越重要

【資料圖】

多模態人工智能大模型的開發工作主要涉及三個部分，算力、算法和投喂數據。根據OpenAI官方資料和專家分析，ChatGPT在算法方面的創新不多，目前的“驚艷”效果主要得益于算力的大幅提升和數據集的不斷完善。得益于AI賽道投入的增多和市場規模的擴大，作為追趕者面臨的算力成本投入將呈現下降的趨勢。然而，優質數據集作為一種自帶版權和產權屬性的資產，其使用成本并不一定會隨著時間的推移而下降。未來的如何構建優質數據集共贏體系，為AI持續提供高質量預訓練數據，將成為AI大模型競爭的核心。

數據來源盡量廣泛。根據OpenAI官方公開的信息，GPT-3的預訓練數據來源主要包括英文維基百科及其所有鏈接網頁、Common Crawl項目中的Web抓取數據、新聞文章、書籍、論文等文本資源以及其他公共語料庫和數據集。這些數據都是從互聯網上搜集而來的，以保證覆蓋面廣、樣本多樣化。

數據質量要求較高。OpenAI團隊指出，對大規模的自然語言處理預訓練數據，進行篩選和清洗是非常重要的步驟，可以提高模型的訓練效果和泛化能力。在預處理數據時，需要去除文本中的噪聲、錯誤數據和無用信息。為了避免偏見和不平衡的數據分布，需要對數據集進行均衡和采樣。標注和歸一化處理。標注是將不同類型的文本數據進行分類和標記，以便進行有監督學習。歸一化則是將不同格式和語言的數據進行相應的轉換和統一。

清華大學技術創新研究中心數權經濟研究室主任鐘宏表示，多模態人工智能大模型正以前所未有的進化速度顛覆舊有模式，迅速催生了新業態、新技術和新的應用。但是圍繞著數據安全、隱私保護和AI失控的一系列潛在風險成為了影響發展的關鍵問題。因此，全球急需共同構建AIGC時代下的數字信任體系，為“數字智人”技術的發展、商業化的應用和數字治理來建立規則。中國的大型科技企業需要廣泛接入數據資源來訓練人工智能模型，大型央國企的數據資源如何去接入人工智能相關的服務，這些問題給時代提出了全新的挑戰。為此，清華經管學院、螞蟻集團共同啟動《共建數字信任體系服務科技創新生態高質量發展研究》課題，依托清華在數據要素、數字商品、數字資產領域的智能確權與合規理論體系，發揮螞蟻集團在區塊鏈、AI等數字智能科技優勢，聯合多方研究建立面向人工智能時代的數字信任體系，以推動我國AIGC健康發展。

車聯網賽道，構建面向自動駕駛模型訓練的共享大數據集

依托我國在新能源汽車產業的優勢，構筑用于訓練5G智能網聯車的“ChatGPT”數據集將是一個潛力巨大的投資賽道。在推動汽車行業數據要素流通應用的過程中，一直存在兩個難題。首先，數據所屬權難界定。當同樣的數據被多次交易時，如何充分保障數據擁有者、數據服務商、數據使用者的利益是存在難度的。其次，數據共享與隱私保護之間的矛盾突出。企業間的合作必然牽連到數據合作。如果對數據僅進行脫敏處理，合作企業亦能通過數據的關聯性分析出用戶敏感信息，從而出現隱私風險；如果企業對數據進行過度處理，共享數據的實用價值就大大降低，制約了企業的深度合作和高速發展。

中汽創智科技有限公司CEO李豐軍表示，中汽創智牽頭，聯合中汽協、汽車企業和清華大學技術創新研究中心共同進行《汽車行業數據確權與合規標準化》研究，希望以清華、DAMA等機構專家在《企業數據確權與全球合規趨勢報告（2023）》中提出的“企業數據精準確權”理論體系為基礎，針對汽車行業建立有影響力的團體標準，解決汽車行業數字化、智能化發展過程中面臨的數據確權難、合規難等問題。中汽創智打造的“汽車大數據可信共享空間（車數空間）”按照“數據二十條”中“原始數據不出域、數據可用不可見”的要求，基于股東方汽車企業沉淀的大量的車聯網數據和生態合作方的行業數據，面向異業合作，實現了智能網聯汽車大數據在跨行業應用場景中，向企業提供模型、核驗等產品和服務，并且包括用途可控可計量的數據共享流通服務。同時，中汽創智正針對“自動駕駛算法”這類需要大數據訓練集進行訓練的人工智能產品，面向車企同業合作，探索車企間的數據聯盟，幫助各個車企建立起面向自動駕駛模型訓練的共享大數據集，助力車企自動駕駛研發，實現合作與共贏。

輔助診療賽道，AI大模型需要與傳統工具相結合

醫學是最早通過AI的方法來處理數據，提高診斷準確率的AI應用領域之一。基于醫學領域的高質量數據，可以很好的釋放AI生產力，賦能醫學的相關領域，比如：在醫學研究方面，可以有效進行疾病機制研究等；在臨床診療方面，可以有效輔助提升、規范診療措施，以及進一步進行個性化的精準診療；在新藥研發方面，可以在靶標發現、苗頭及先導化合物發現等方面有效輔助藥物研發，大幅節省時間和經費。

然而，萬方醫學研究院院長楊風雷博士認為，有效利用醫學數據前，需要解決一些問題，比如數據的確權問題，數據的權利方可能包括患者、醫生、醫院、政府等不同的相關方。這些數據的多維特征包括個人隱私和信息保護等問題。

楊風雷表示，多模態人工智能大模型的性能總體上讓人刮目相看，有潛力解決醫學領域相當多的問題。但是，它們也有一些不足，比如：一些答案中存在錯誤；由于數據分布和不同提示產生回復隨機性等所帶來的輸出不一致；以及模型部署和資源消耗巨大等。這些問題，尤其是前兩個問題違背了醫學倫理，而這些不足卻是傳統的基于規則的AI輔助診療系統的優勢。因此，考慮到醫學領域的安全要求高特點，近期或者相當長一段時間內，結合各自優勢，采用新舊工具相結合的方式，可能是比較好的選擇。

數字經濟學家陳曉華在接受采訪時表示，AI是新一輪科技革命和產業變革的引領者，也是數字經濟時代持續賦能經濟社會發展，推動產業優化的新動能。在基礎設施層面，隨著東數西算工程的持續落地，我國算力供給格局將進一步優化，從而降低相關企業研發與運營的算力成本。從模型層與應用層的角度來看，我國擁有海量的用戶群體與數據積累，一旦跨過商業化拐點，各企業將加速融入此類技術并結合自身場景優勢實現新一輪產業創新與升級。而從監管和治理層面，國家網信辦首個AIGC監管文件征求意見稿發布，意味著我國AI行業的標準化步伐正加速推進，未來我國AI產業生態將更加規范有序可持續發展。（郭興華，系中國經濟信息社區塊鏈首席分析師）

編輯：王春霞

關鍵詞：

責任編輯：孫知兵

免責聲明：本文僅代表作者個人觀點，與太平洋財富網無關。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。
如有問題，請聯系我們！

精彩推薦

火山的女兒食物食品禮物怎么獲得

閱讀排行

中國海油一季度歸母凈利潤達321億元
上一篇2023-04-27 18:00:52

未經過本站允許請勿將本站內容傳播或復制業務QQ：3 31 986 683

【財經分析】打造細分領域數據優勢 釋放行業版ChatGPT生產力

精彩推薦

火山的女兒食物食品禮物怎么獲得

閱讀排行

推薦閱讀

【財經分析】打造細分領域數據優勢釋放行業版ChatGPT生產力