首頁 > 金融 > 產經資訊 > 正文

AnalyticDB(ADB)+LLM：構建AIGC時代下企業專屬Chatbot-世界快看

2023-05-17 09:14:27來源：阿里開發者

點擊鏈接閱讀原文，獲取更多技術內容：

如何基于向量數據庫+LLM（大語言模型），打造更懂你的企業專屬Chatbot？

(資料圖)

作者 | 阿里云AnalyticDB

來源 | 阿里開發者公眾號

為什么Chatbot需要大語言模型+向量數據庫？

這個春天，最讓人震感的科技產品莫過于ChatGPT的橫空出世，通過大語言模型（LLM）讓人們看到了生成式AI能實現到和人類語言高度相仿的語言表達能力，AI不再遙不可及而已經可以走進人類的工作和生活，這使得沉寂一段時間的AI領域重新煥發了能量，無數的從業者正趨之若鶩地投身于下一個改變時代的機會；據不完全統計，在短短的4個月時間內，美國已經完成了超4000筆的生成式AI的行業融資。生成式AI已經成為了資本和企業都無法忽視的下一代的技術密碼，而其對于底層的基礎設施能力提供了更高的要求。

大模型能夠回答較為普世的問題，但是若要服務于垂直專業領域，會存在知識深度和時效性不足的問題，那么企業如何抓住機會并構建垂直領域服務？目前有兩種模式，第一種是基于大模型之上做垂直領域模型的Fine Tune，這個綜合投入成本較大，更新的頻率也較低，并不適用于所有的企業；第二種就是在向量數據庫中構建企業自有的知識資產，通過大模型+向量數據庫來搭建垂直領域的深度服務，本質是使用數據庫進行提示工程(Prompt Engineering)。以法律行業為例，基于垂直類目的法律條文和判例，企業可以構建垂直領域的法律科技服務。如法律科技公司Harvey，正在構建“律師的副駕駛”（Copilot for Lawyer）以提高法律條文的起草和研究服務。

將企業知識庫文檔和實時信息通過向量特征提取然后存儲到向量數據庫，結合LLM大語言模型可以讓Chatbot（聊天機器人）的回答更具專業性和時效性，構建企業專屬Chatbot。下面視頻是一個基于大語言模型+AnalyticDB for PostgreSQL（以下簡稱ADB-PG，內置向量數據庫能力）讓Chatbot更好地回答時事問題Demo：

視頻加載中...

AnalyticDB PostgreSQL支持向量數據檢索能力，可以支持企業用戶一站式搭建Chatbot專屬知識庫。目前開放1個月【免費試用】規格，點擊領取：，即刻開啟體驗！

本文接下來將重點介紹基于大語言模型（LLM）+向量數據庫打造企業專屬Chatbot的原理和流程，以及ADB-PG構建該場景的核心能力。

什么是向量數據庫？

在現實世界中，絕大多數的數據都是以非結構化數據的形式存在的，如圖片，音頻，視頻，文本等。這些非結構化的數據隨著智慧城市，短視頻，商品個性化推薦，視覺商品搜索等應用的出現而爆發式增長。為了能夠處理這些非結構化的數據，我們通常會使用人工智能技術提取這些非結構化數據的特征，并將其轉化為特征向量，再對這些特征向量進行分析和檢索以實現對非結構化數據的處理。因此，我們把這種能存儲，分析和檢索特征向量的數據庫稱之為向量數據庫。

向量數據庫對于特征向量的快速檢索，一般會采用構建向量索引的技術手段，我們通常說的向量索引都屬于ANNS（Approximate Nearest Neighbors Search，近似最近鄰搜索），它的核心思想是不再局限于只返回最精確的結果項，而是僅搜索可能是近鄰的數據項，也就是通過犧牲可接受范圍內的一點精確度來換取檢索效率的提高。這也是向量數據庫與傳統數據庫最大的差別。

為了將ANNS向量索引更加方便的應用到實際的生產環境中，目前業界主要有兩種實踐方式。一種是單獨將ANNS向量索引服務化，以提供向量索引創建和檢索的能力，從而形成一種專有的向量數據庫；另一種是將ANNS向量索引融合到傳統結構化數據庫中，形成一種具有向量檢索功能的DBMS。

在實際的業務場景中，專有的向量數據庫往往都需要和其他傳統數據庫配合起來一起使用，這樣會造成一些比較常見的問題，如數據冗余、數據遷移過多、數據一致性問題等，與真正的DBMS相比，專有的向量數據庫需要額外的專業人員維護、額外的成本，以及非常有限的查詢語言能力、可編程性、可擴展性和工具集成。而融合了向量檢索功能的DBMS則不同，它首先是一個非常完備的現代數據庫平臺，能滿足應用程序開發人員的數據庫功能需求；然后它集成的向量檢索能力一樣也可以實現專有的向量數據庫的功能，并且使向量存儲和檢索繼承了DBMS的優秀能力，如易用性（直接使用SQL的方式處理向量）、事務、高可用性、高可擴展性等等。

本文介紹的ADB-PG即是具有向量檢索功能的DBMS，在包含向量檢索功能的同時，還具備一站式的數據庫能力。在介紹ADB-PG的具體能力之前，我們先來看一下Demo視頻中Chatbot的創建流程和相關原理。

LLM大語言模型+ADB-PG：打造企業專屬Chatbot

案例-本地知識問答系統

對于前面Demo視頻結合大語言模型LLM和ADB-PG進行時事新聞點評解答的例子，讓LLM回答\"通義千問是什么\"。可以看到，如果我們讓LLM直接回答，得到的答案沒有意義，因為LLM的訓練數據集里并不包含相關的內容。而當我們使用向量數據庫作為本地知識存儲，讓LLM自動提取相關的知識之后，其正確地回答了\"通義千問是什么\"。

同樣地，這種方式可以應用于處理文檔，PDF，郵件，網絡資訊等等尚未被LLM訓練數據集覆蓋到的內容。比如：

1.結合最新的航班信息和最新的網紅打卡地點等旅游攻略資源，打造旅游助手。比如回答下周最適合去哪里旅游，如何最經濟實惠的問題。

2.體育賽事點評，時事熱點新聞點評，總結。今天誰是NBA比賽的MVP。

3.教育行業，最新的教育熱點解讀，比如，告訴我什么是AIGC，什么是Stable Diffusion以及如何使用等等。

4.金融領域，快速分析各行業領域金融財報，打造金融咨詢助手。

5.專業領域的客服機器人...

實現原理

本地知識問答系統(Local QA System)主要是通過結合了大語言模型的推理能力和向量數據庫的存儲和檢索能力。來實現通過向量檢索到最相關的語義片段，然后讓大語言模型結合相關片段上下文來進行正確的推理得到結論。在這個過程中主要有兩個流程：

a.后端數據處理和存儲流程

b.前端問答流程

同時其底層主要依賴兩個模塊：

1.基于大語言模型的推理模塊

2.基于向量數據庫的向量數據管理模塊

后端數據處理和存儲流程

上圖黑色的部分為后端的數據處理流程，主要是將我們的原始數據求解embedding，并和原始數據一起存入到向量數據庫ADB-PG中。這里你只需要關注上圖的藍色虛線框部分。黑色的處理模塊和ADB-PG向量數據庫。

Step1：先將原始文檔中的文本內容全部提取出來。然后根據語義切塊，切成多個chunk，可以理解為可以完整表達一段意思的文本段落。在這個過程中還可以額外做一些元數據抽取，敏感信息檢測等行為。 Step2：將這些Chunk都丟給embedding模型，來求取這些chunk的embedding。 Step3：將embedding和原始chunk一起存入到向量數據庫中。