什麼是向量資料庫?

一般資料庫 = 行和列

想像一個電子表格,記錄 Champlain College 所有的學生俱樂部:

id姓名類別房間
1
動漫俱樂部
媒體
C-102
2藝術俱樂部創意
C-103
3
機器人團隊
技術
C-108
4
Champlain 音樂協會
創意
C-109

有了這種 關聯式資料庫, 您基本上可以問:

  • 「讓我看看所有的創意俱樂部」
  • 「哪個俱樂部在C-108房間?」
  • "列出所有名稱中有'Art'的俱樂部"

但如果你問

"哪個俱樂部是 最相似 到機器人隊?"

一般的資料庫會聳聳肩。除非您明確定義類似性,否則它無法理解類似性。


向量資料庫 = 依意義分組

現在讓我們想像每個 學生俱樂部在主樓層有自己的房間 的學院。事情是這樣的

  • 所有喜愛 繪畫 前往 藝術俱樂部室.
  • 所有符合以下條件的學生 機器人與程式設計 雲集 機器人室.
  • 所有享受 動漫動漫俱樂部室.

因此,如果您走進藝術俱樂部,您會發現 同類人或有共同興趣的人。
他們不只是被標籤分組,而是 挨近 在學院的空間裡。

現在以同樣的方式來思考向量資料庫。

向量資料庫沒有房間,而是有一個 多維空間 (想想地圖上有數百個方向)。每個項目,例如文字、圖像、產品或文件,都會轉換成一串數字,稱為 向量.該向量就像坐標說的一樣:

「把這個詞放在空間裡」

所以:

  • 「食物」 被放置在靠近 「生菜」, 「漢堡」以及 「餐廳」
  • 但是 「食物」 遠離 「腳」雖然聽起來很像

為什麼?因為他們 意思並不相同。

圖片來源:
來源 「向量資料庫初學者入門」
© Xomnia - 僅用於教育目的。


這有什麼幫助?

當您搜尋 向量資料庫,它會檢視您的查詢在空間中的「位置」,並找出符合下列條件的事物 附近, 就像詢問一樣:

"我對機器人學很感興趣。我應該去哪個房間?"

系統說:"到 C-108 室的機器人小組。對了,科技社和人工智能社就在隔壁"

因此,您不只是在比對單字,您也在比對 意義.


概括

  • 關聯式資料庫 就像試算表:適合精確資訊和篩選器
  • 向量資料庫 就像校園地圖一樣:它們依據意義來組織資料,並將資料分門別類。 物以类聚
  • 就像 Champlain 為每個俱樂部的興趣提供房間一樣、 向量資料庫有空間 每個概念
  • 這可以讓人工智能回答模糊的問題,例如:「讓我看這樣的東西」或「尋找有類似氣氛的東西」。

評論

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

zh_HKChinese