AnalyticDB(ADB)+LLM:構建AIGC時代下企業專屬Chatbot-世界快看
點擊鏈接閱讀原文,獲取更多技術內容:
如何基于向量數據庫+LLM(大語言模型),打造更懂你的企業專屬Chatbot?
(資料圖)
作者 | 阿里云AnalyticDB
來源 | 阿里開發者公眾號
為什么Chatbot需要大語言模型+向量數據庫?
這個春天,最讓人震感的科技產品莫過于ChatGPT的橫空出世,通過大語言模型(LLM)讓人們看到了生成式AI能實現到和人類語言高度相仿的語言表達能力,AI不再遙不可及而已經可以走進人類的工作和生活,這使得沉寂一段時間的AI領域重新煥發了能量,無數的從業者正趨之若鶩地投身于下一個改變時代的機會;據不完全統計,在短短的4個月時間內,美國已經完成了超4000筆的生成式AI的行業融資。生成式AI已經成為了資本和企業都無法忽視的下一代的技術密碼,而其對于底層的基礎設施能力提供了更高的要求。
大模型能夠回答較為普世的問題,但是若要服務于垂直專業領域,會存在知識深度和時效性不足的問題,那么企業如何抓住機會并構建垂直領域服務?目前有兩種模式,第一種是基于大模型之上做垂直領域模型的Fine Tune,這個綜合投入成本較大,更新的頻率也較低,并不適用于所有的企業;第二種就是在向量數據庫中構建企業自有的知識資產,通過大模型+向量數據庫來搭建垂直領域的深度服務,本質是使用數據庫進行提示工程(Prompt Engineering)。以法律行業為例,基于垂直類目的法律條文和判例,企業可以構建垂直領域的法律科技服務。如法律科技公司Harvey,正在構建“律師的副駕駛”(Copilot for Lawyer)以提高法律條文的起草和研究服務。
將企業知識庫文檔和實時信息通過向量特征提取然后存儲到向量數據庫,結合LLM大語言模型可以讓Chatbot(聊天機器人)的回答更具專業性和時效性,構建企業專屬Chatbot。下面視頻是一個 基于大語言模型+AnalyticDB for PostgreSQL(以下簡稱ADB-PG,內置向量數據庫能力) 讓Chatbot更好地回答時事問題Demo:
視頻加載中...AnalyticDB PostgreSQL支持向量數據檢索能力,可以支持企業用戶一站式搭建Chatbot專屬知識庫。目前開放1個月【免費試用】規格,點擊領?。? ,即刻開啟體驗!
本文接下來將重點介紹基于大語言模型(LLM)+向量數據庫打造企業專屬Chatbot的原理和流程,以及ADB-PG構建該場景的核心能力。
什么是向量數據庫?
在現實世界中,絕大多數的數據都是以非結構化數據的形式存在的,如圖片,音頻,視頻,文本等。這些非結構化的數據隨著智慧城市,短視頻,商品個性化推薦,視覺商品搜索等應用的出現而爆發式增長。為了能夠處理這些非結構化的數據,我們通常會使用人工智能技術提取這些非結構化數據的特征,并將其轉化為特征向量,再對這些特征向量進行分析和檢索以實現對非結構化數據的處理。因此,我們把這種能存儲,分析和檢索特征向量的數據庫稱之為向量數據庫。
向量數據庫對于特征向量的快速檢索,一般會采用構建向量索引的技術手段,我們通常說的向量索引都屬于ANNS(Approximate Nearest Neighbors Search,近似最近鄰搜索),它的核心思想是不再局限于只返回最精確的結果項,而是僅搜索可能是近鄰的數據項,也就是通過犧牲可接受范圍內的一點精確度來換取檢索效率的提高。這也是向量數據庫與傳統數據庫最大的差別。
為了將ANNS向量索引更加方便的應用到實際的生產環境中,目前業界主要有兩種實踐方式。一種是單獨將ANNS向量索引服務化,以提供向量索引創建和檢索的能力,從而形成一種專有的向量數據庫;另一種是將ANNS向量索引融合到傳統結構化數據庫中,形成一種具有向量檢索功能的DBMS。
在實際的業務場景中,專有的向量數據庫往往都需要和其他傳統數據庫配合起來一起使用,這樣會造成一些比較常見的問題,如數據冗余、數據遷移過多、數據一致性問題等,與真正的DBMS相比,專有的向量數據庫需要額外的專業人員維護、額外的成本,以及非常有限的查詢語言能力、可編程性、可擴展性和工具集成。而融合了向量檢索功能的DBMS則不同,它首先是一個非常完備的現代數據庫平臺,能滿足應用程序開發人員的數據庫功能需求;然后它集成的向量檢索能力一樣也可以實現專有的向量數據庫的功能,并且使向量存儲和檢索繼承了DBMS的優秀能力,如易用性(直接使用SQL的方式處理向量)、事務、高可用性、高可擴展性等等。
本文介紹的ADB-PG即是具有向量檢索功能的DBMS,在包含向量檢索功能的同時,還具備一站式的數據庫能力。在介紹ADB-PG的具體能力之前,我們先來看一下Demo視頻中Chatbot的創建流程和相關原理。
LLM大語言模型+ADB-PG:打造企業專屬Chatbot
案例-本地知識問答系統
對于前面Demo視頻結合大語言模型LLM和ADB-PG進行時事新聞點評解答的例子,讓LLM回答\"通義千問是什么\"。可以看到,如果我們讓LLM直接回答,得到的答案沒有意義,因為LLM的訓練數據集里并不包含相關的內容。而當我們使用向量數據庫作為本地知識存儲,讓LLM自動提取相關的知識之后,其正確地回答了\"通義千問是什么\"。
同樣地,這種方式可以應用于處理文檔,PDF,郵件,網絡資訊等等尚未被LLM訓練數據集覆蓋到的內容。比如:
1.結合最新的航班信息和最新的網紅打卡地點等旅游攻略資源,打造旅游助手。比如回答下周最適合去哪里旅游,如何最經濟實惠的問題。
2.體育賽事點評,時事熱點新聞點評,總結。今天誰是NBA比賽的MVP。
3.教育行業,最新的教育熱點解讀,比如,告訴我什么是AIGC,什么是Stable Diffusion以及如何使用等等。
4.金融領域,快速分析各行業領域金融財報,打造金融咨詢助手。
5.專業領域的客服機器人...
實現原理
本地知識問答系統(Local QA System)主要是通過結合了大語言模型的推理能力和向量數據庫的存儲和檢索能力。來實現通過向量檢索到最相關的語義片段,然后讓大語言模型結合相關片段上下文來進行正確的推理得到結論。在這個過程中主要有兩個流程:
a.后端數據處理和存儲流程
b.前端問答流程
同時其底層主要依賴兩個模塊:
1.基于大語言模型的推理模塊
2.基于向量數據庫的向量數據管理模塊
后端數據處理和存儲流程
上圖黑色的部分為后端的數據處理流程,主要是將我們的原始數據求解embedding,并和原始數據一起存入到向量數據庫ADB-PG中。這里你只需要關注上圖的藍色虛線框部分。黑色的處理模塊和ADB-PG向量數據庫。
Step1:先將原始文檔中的文本內容全部提取出來。然后根據語義切塊,切成多個chunk,可以理解為可以完整表達一段意思的文本段落。在這個過程中還可以額外做一些元數據抽取,敏感信息檢測等行為。 Step2:將這些Chunk都丟給embedding模型,來求取這些chunk的embedding。 Step3:將embedding和原始chunk一起存入到向量數據庫中。阿里云開發者社區,千萬開發者的選擇。百萬精品技術內容、千節免費系統課程、豐富的體驗場景、活躍的社群活動、行業專家分享交流,盡在:
關鍵詞:
責任編輯:孫知兵
免責聲明:本文僅代表作者個人觀點,與太平洋財富網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
如有問題,請聯系我們!
- AnalyticDB(ADB)+LLM:構建AIGC時代下企業2023-05-17
- 股票清倉和不清倉有何區別?債券與股票的區2023-05-17
- 股市行情不好怎么辦?股票暴跌怎么辦2023-05-17
- 環球快看點丨5月17日生意社丙烷基準價為4632023-05-17
- 【天天新要聞】5月17日生意社LDPE基準價為82023-05-17
- 股市行情如何判斷?如何判斷股市趨勢2023-05-17
- 港股市場今年以來近七成新股破發 有企業觀2023-05-17
- 車載Mini LED市場廣闊 多家上市公司競相布局2023-05-17
- 天天觀天下!多家上市公司稱二季度訂單呈增2023-05-17
- 全球熱資訊!【環球財經】債務上限不確定性2023-05-17
- 【新要聞】券商積極補充流動資金 今年以來2023-05-17
- 環球報道:中信證券:出行和餐飲場景仍是最2023-05-17
- 上影線長說明什么?長上影線第二天一定跌嗎2023-05-17
- 頭發為什么發黃(頭發發黃是因為什么?。?2023-05-17
- 投資黃金要注意什么?投資黃金可靠嗎2023-05-17
- 投資黃金一定能避險嗎?怎樣投資黃金方法最2023-05-17
- 銀行降息是好事還是壞事?降準意味著降息嗎2023-05-17
- 光峰科技:5月16日融券賣出金額9.48萬元,2023-05-17
- 炬光科技:5月16日獲融資買入3423.78萬元,2023-05-17
- 云涌科技:5月16日獲融資買入69.03萬元 全2023-05-17
- 可轉債退市了錢還有嗎?可轉債退市沒有賣掉2023-05-17
- 磚頭尺寸大小_磚頭尺寸2023-05-17
- 環球熱頭條丨如何將pdf轉化為word形式_如何2023-05-17
- 中電聯:2023年1-4月電力消費情況_世界快播2023-05-17
- 環球看點!兩部門:鼓勵地方政府加強政企聯2023-05-17
- 游戲市場迎產品“大年” A股公司儲備項目2023-05-17
- 東證指數創33年新高 從巴菲特到華爾街巨頭2023-05-17
- 【讀財報】創業板一季度業績透視:近四成公2023-05-17
- 每日消息!跨境證券業務整改再進一步 富途2023-05-17
- 天天日報丨什么是炒外匯?怎么炒外匯?2023-05-17
精彩推薦
- AnalyticDB(ADB)+LLM:構建AIGC時代下企...
- 股票清倉和不清倉有何區別?債券與股票的...
- 股市行情不好怎么辦?股票暴跌怎么辦
- 股市行情如何判斷?如何判斷股市趨勢
- 環球報道:中信證券:出行和餐飲場景仍是...
- 中電聯:2023年1-4月電力消費情況_世界快播
- 環球看點!兩部門:鼓勵地方政府加強政...
- 今日熱聞!數字孿生,讓城市更“聰明”
- ai免費生成圖片的軟件(免費圖片轉文字的...
- 全球關注:華潤電力(00836.HK):5月16...
- 今日(急)CSOL的兩個新角色值得買嗎?我...
- 當前頭條:廣電網絡機頂盒最新刷機_廣電...
- 《英雄聯盟》MSI 2023:BLG 1-0 G2先下一城
- 前沿熱點:結束連續7個月減持 3月中國...
- 全球觀察:盤前大跌!富途控股、老虎證...