AI發展:訓練數據即將遭遇瓶頸
然而,《自然》《麻省理工科技評論》等多家雜志網站指出,AI擴展正逼近極限。一方面,AI“吞噬”著越來越多的能源;另一方面,滋養無數模型成長的傳統數據集,正被LLM開發人員過度開墾。
AI幾乎讀取了互聯網上的所有內容,但仍渴望獲得更多數據。為此,開發人員必須尋找變通之道。
圖片來源:twistedsifter.com
訓練數據即將遭遇的瓶頸已悄然浮現。有研究機構預測,到2028年左右,用于訓練AI模型的數據集典型規模將達到公共在線文本總估計量的規模。換句話說,AI可能會在大約4年內耗盡訓練數據。與此同時,數據所有者(如報紙出版商)開始打擊對其內容的濫用行為,進一步收緊了訪問權限,這將引發“數據共享”規模上的危機。為此,開發人員必須尋找變通之道。
數據集供需失衡
過去10年間,LLM的發展顯示出了對數據的巨大需求。自2020年以來,用于訓練LLM的“標記”(或單詞)數量已增長100倍,從數百億增加到數萬億。一個常見的數據集RedPajama,包含數萬億個單詞。這些數據會被一些公司或研究人員抓取和清洗,成為訓練LLM的定制數據集。
然而,可用互聯網內容的增長速度出乎意料的緩慢。據估計,其年增長率不到10%,而AI訓練數據集的大小每年增長超過一倍。預測顯示,這兩條曲線將在2028年左右交匯。
與此同時,內容供應商越來越多地加入軟件代碼或修改條款,阻止爬蟲及AI抓取其數據。在這些內容中,被明確標記為限制爬蟲訪問的數量,從2023年的不足3%猛增到了2024年的20%至33%之間。
當前,圍繞AI訓練中數據使用的合法性,試圖為數據提供商爭取應有賠償的多起訴訟正在進行。2023年12月,《紐約時報》向OpenAI及其合作伙伴微軟提起了訴訟,指控其侵犯了版權;今年4月,紐約市Alden全球資本旗下的8家報紙聯合發起了一起類似的訴訟。對此,OpenAI表示,《紐約時報》的訴訟“毫無根據”。
若法院最終站在內容提供商一方,支持其獲得經濟賠償,那么對于AI開發人員,尤其是那些資金緊張的學者而言,獲取所需數據無疑將變得更加艱難。
新方法有待印證
數據匱乏對AI的傳統擴展策略構成了潛在挑戰。
尋找更多數據的一個途徑是收集非公開數據,如社交媒體消息或視頻文字記錄。然而,這種做法的合法性尚存爭議。
一些公司選擇使用自己的數據來訓練AI模型,如Meta利用虛擬現實頭顯收集的音頻和圖像進行訓練。但各公司政策不同,包括Zoom在內的一些公司則明確表示不會使用客戶內容訓練AI。
另一種選擇可能是專注于快速增長的專業數據集,如天文學或基因組學數據,但其對訓練LLM的可用性和實用性尚不清楚。
如果AI接受除文本之外的多種類型的數據訓練,可能會為豐富數據的涌入打開閘門。Meta首席AI科學家勒丘恩強調,人類通過觀察物體而“吸收”的數據遠超用于訓練LLM的數據量,機器人形態的AI系統或許能從中獲取經驗。
此外,制造數據也是解決之道。一些AI公司付費讓人們生成訓練內容,或使用AI生成的合成數據來訓練AI。這已成為一個潛在的巨大數據源。然而,合成數據也存在問題,如遞歸循環可能鞏固錯誤、放大誤解,并降低學習質量。
小模型更專更精
另一種策略是摒棄模型“越大越好”的開發觀念。一些開發者已在追求更高效、專注于單一任務的小型語言模型。這些模型需要更精細、更專業的數據以及更好的訓練技術。
12月5日,OpenAI發布了新的OpenAI o1模型。盡管該公司未透露模型的規模或訓練數據集大小,但o1采用了新方法:在強化學習上投入更多時間,讓模型對每個回答進行更深入的思考。這標志著一種轉變,即從依賴大規模數據集進行預訓練,轉向更注重訓練和推理。
當前,LLM可能已飽覽互聯網大部分內容,或許無需更多數據即可變得更智能。美國斯坦福大學一項研究表明,模型從多次讀取給定數據集中學到的內容,與從相同數量的唯一數據中學習到的內容一樣豐富。
合成數據、專門數據集、多次讀取和自我反思等因素的結合,或將共同推動AI的進一步飛躍。
關鍵詞:
責任編輯:孫知兵
免責聲明:本文僅代表作者個人觀點,與太平洋財富網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
如有問題,請聯系我們!
- AI發展:訓練數據即將遭遇瓶頸2024-12-31
- 國家發改委成立低空經濟發展司2024-12-31
- HOTDOG數字藏品:數字化賦能,開啟多行業變2024-12-31
- 旭晨網絡|智慧零售賦能商企數字化轉型2024-12-31
- 《2024中國制造強國發展指數報告》顯示:我2024-12-31
- 年底沖刺,家電換新求“新”更求“質”2024-12-31
- 強化企業科技創新主體地位2024-12-31
- 旭晨傳媒|一站式微營銷驅動數字化增長2024-12-31
- 人形機器人加速奔跑2024-12-31
- 量子之歌聚焦銀發經濟領域探索“老齡化+AI2024-12-31
- 中國經濟深觀察|創新之變:從“互聯網+”2024-12-31
- 微眾創客|提升私域復購,推動品牌增長2024-12-31
- 第41次南極考察|“雪龍2”號完成秦嶺站卸2024-12-31
- 第41次南極考察|“雪龍2”號與“永盛”號2024-12-31
- 機器狗再登泰山2024-12-31
- 筆筆付橙|開啟AI智慧經營新時代2024-12-31
- 長春市抗癌藥物研究所2024年工作紀實2024-12-31
- 盟科藥業自主研發的抗NTM感染新藥MRX-5獲FD2024-12-31
- 奮楫向前 高質量發展闊步行 ——2024年中2024-12-31
- 秦榮芳主任深入學習黨的二十大精神,助力書2024-12-31
- 建司75載丨探解國壽壽險推進兩鄉振興的“三2024-12-31
- 2024 ESG全球領導者大會在滬舉行,國壽壽2024-12-31
- 首店璀璨啟航!Joybake法式面包博物館登陸2024-12-31
- “守住錢袋子 護好幸福家”——中國人壽防2024-12-31
- 7年蛻變,700萬用戶見證,愛立熊開啟賦能教2024-12-31
- 主業深耕 國壽壽險書寫服務上海高質量發展2024-12-31
- 國壽壽險:執保險畫筆,繪就“和美鄉村”新2024-12-31
- 中國人壽壽險公司榮獲《機構投資者》2024年2024-12-31
- 王若曦榮獲ECI AWARDS 2024年度創新新銳2024-12-31
- 走進鄉間的金融課堂:中國人壽壽險公司“消2024-12-31
精彩推薦
- 護航年末流動性 降準蓄勢待發
- 千億資金翻涌 信托公司能否成為綠色金...
- 市值管理新規推動估值重塑 央國企或成主導
- 央行連續操作注入流動性 降準預期再升溫
- 小黃象攜手中國國家U18冰球隊,以熱愛書...
- 北京花卉交易中心豐富市民“花樣”生活
- 南漳柑橘“致富經”:高山盆地“金果”...
- 市場監管總局:推動平臺企業和平臺內商...
- 遇見非遺丨把沉睡的泥土鐫刻進生活
- “江南蔬菜之鄉”江西樂平3000余畝水芹...
- 襄陽牛肉面:“熱辣滾燙”顯“俠義”
- 【百萬莊小課堂】今天你emo了嗎?職場青...
- 中國試點開放信用監管數據 便利境外來...
- 深圳年度最大規模畢業生雙選會提供崗位3...
- 廣西桂林滿城桂花飄香