向量資料庫:AI時代的搜尋革命

AI 浪潮來襲,向量資料庫大放異彩

隨著大語言模型 (LLM) 和生成式 AI (GenAI) 運動的蓬勃發展,向量資料庫技術迎來了蓬勃發展的沃土。傳統的關聯式資料庫,如 Postgres 或 MySQL,非常適於結構化資料(可整齊地排列在列和行中的預定義資料類型),但對於非結構化資料,如圖片、影片、電子郵件、社群媒體貼文以及任何不符合預定義資料模型的資料,就無能為力了。

另一方面,向量資料庫能以向量嵌入物的形式儲存和處理資料,將文字、文件、圖片和其他資料轉換為數值表示,捕捉不同資料點之間的意義和關係。這非常適合機器學習,因為資料庫依據各項目與其他項目的相關程度在空間上儲存資料,讓檢索語義相似的資料變得更容易。

這對 LLM(例如 OpenAI 的 GPT-4)來說特別有用,因為它能讓 AI 聊天機器人透過分析過去類似的對話,更深入瞭解對話的脈絡。向量搜尋也適用於各種即時應用程式,例如社群媒體或電子商務應用程式的內容推薦,因為它能檢視使用者的搜尋內容,並在瞬間檢索出類似的項目。

向量搜尋還能協助減少 LLM 應用程式中的幻覺,提供原始訓練資料集可能沒有的其他資訊。向量資料庫創新公司 Qdrant 的執行長兼共同創辦人安德烈·薩亞尼對 TechCrunch 解釋道:「不用向量相似度搜尋,你還是能夠開發 AI/ML 應用程式,但你必須進行更多重新訓練和微調。」當資料集很大,你又需要一個以有效且便利的方式處理向量嵌入物的工具時,向量資料庫就派上用場了。Qdrant 在今年 1 月獲得了 2,800 萬美元的資金,以利用其成長,使它成為去年成長最快的 10 大商業開源新創公司之一。而它遠不是最近唯一募到資金的向量資料庫新創公司,Vespa、Weaviate、Pinecone 和 Chroma 去年分別為各種向量產品募得合計 2 億美元。

新創企業紛紛投入

自今年年初以來,我們還看到 Index Venture 領投了 Superlinked 的 950 萬美元種子輪,Superlinked 是個能將複雜資料轉換為向量嵌入物的平臺。幾週前,Y Combinator YC 公佈了其冬季 24 年度的培育公司名單,其中包括 Lantern,這家新創公司販售 PostgreSQL 的向量搜尋引擎。此外,Marqo 於去年底募得了 440 萬美元的種子輪,緊接著在今年 2 月募得了 1,250 萬美元的 A 輪資金。Marqo 平臺提供了完整的向量工具,包括向量產生、儲存和檢索,讓使用者無須採用 OpenAI 或 Hugging Face 等第三方工具,並透過單一 API 提供所有功能。

Marqo 的共同創辦人湯姆·哈默和傑西·N·克拉克之前曾在亞馬遜擔任工程職務,在那裡他們意識到在文本和圖片等不同模態中對語義且彈性的搜尋有很大的需求。於是他們在 2021 年辭職,成立了 Marqo。克拉克對 TechCrunch 表示:「我在亞馬遜從事視覺搜尋和機器人的工作,那時候我認真的思考向量搜尋,我思考著新的產品探索方式,這很快就匯聚到了向量搜尋上。在機器人應用中,我使用多模式搜尋來搜尋大量圖片,以識別是否有水管和包裝等異常事物。否則,這將很難解決。」

進軍企業領域

儘管向量資料庫在 ChatGPT 和 GenAI 運動的喧囂中大放異彩,但它們並不是每個企業搜尋情境的萬靈丹。資料庫支援和服務公司 Percona 的創辦人彼得·賽札迪夫對 TechCrunch 解釋道:「專屬資料庫傾向於完全專注於特定使用案例,因此能針對所需的任務設計其架構以發揮效能,還能設計使用體驗,這是一般用途資料庫做不到的,因為後者需要將其融入現有設計中。」儘管專門化的資料庫可能在某一方面的表現優於其他方面,但這就是我們開始看到現有資料庫公司,例如 Elastic、Redis、OpenSearch、Cassandra、Oracle 和 MongoDB,將向量資料庫搜尋智慧加入產品組合的原因,雲端服務供應商,例如 Microsoft Azure、Amazon AWS 和 Cloudflare,也開始這麼做。

賽札迪夫將這個最新的趨勢與十多年前 JSON 的情況進行比較,當時網路應用程式變得越來越普遍,而開發人員需要一種語言無關的資料格式,以便人類容易讀寫。在這種情況下,出現了文件資料庫,例如 MongoDB,這種新的資料庫類別,而現有的關聯式資料庫也引入了對 JSON 的支援。賽札迪夫對 TechCrunch 表示:「我認為向量資料庫也可能發生同樣的情況。」正在開發非常複雜且大規模 AI 應用程式的使用者將使用專門的向量搜尋資料庫,而需要為其現有應用程式開發一點 AI 功能的人,比較可能在他們已在使用的資料庫中使用向量搜尋功能。

但扎亞尼和他的 Qdrant 同事押注,完全圍繞向量建置的原生解決方案,將提供必要的速度、記憶體安全性和平臺,因為向量資料在爆發性成長中,這跟那些事後才將向量搜尋加進來的公司不同。扎亞尼說:「他們的話術是,如果需要,我們也可以進行向量搜尋。我們的說法是,我們能以最佳方式進行進階向量搜尋。這一切都是關於專業化。我們建議從你的技術堆疊中已有的資料庫開始。某個時間點,如果向量搜尋是你的解決方案中的關鍵組成,使用者將會面臨限制。」

向量資料庫的優點

優勢:

  • 處理非結構化資料的效率高
  • 透過分析向量嵌入物來理解語義相似性
  • 支援即時應用程式的快速、準確搜尋
  • 減少 LLM 應用程式中的幻覺風險
  • 與既有技術堆疊整合的靈活性

相關文章