Solr 詞彙表

這些是 Solr 中常用的術語。

Solr 術語

在可能的情況下,術語會連結到 Solr 參考指南的相關部分,以取得更多資訊。

跳到字母

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

A

原子更新

一種僅更新文件的一個或多個欄位的方法,而不是重新索引整個文件。

B

布林運算子

這些運算子透過使用 AND、OR 和 NOT 等運算子來控制查詢中關鍵字的包含或排除。

C

叢集

在 Solr 中,叢集是一組 Solr 節點,透過 ZooKeeper 彼此協調運作,並以一個單位進行管理。一個叢集可能包含多個集合。另請參閱 SolrCloud

集合

在 Solr 中,使用單一組態和 Schema,將一個或多個 文件 分組到單一邏輯索引中。

SolrCloud 中,集合可能會被分成多個邏輯分片,這些分片可能會分散在多個節點上。

單節點安裝和使用者管理的叢集改為使用 核心 的概念。「集合」最常在 SolrCloud 環境中使用,但由於它代表「邏輯索引」,因此該術語也可用於指稱使用者管理叢集中的個別核心。

Commit

在索引中使文件變更永久化。在新增文件的情況下,它們會在「提交」後可搜尋。

核心

個別的 Solr 執行個體(代表邏輯索引)。多個核心可以在單一節點上執行。另請參閱 SolrCloud

核心重新載入

在變更 schema 檔、solrconfig.xml 或其他設定檔後,重新初始化 Solr 核心。

D

分散式搜尋

分散式搜尋是指查詢在多個 分片 上處理的搜尋。

文件

一組 欄位 及其值。文件是 集合 中基本的資料單位。文件會使用標準雜湊指派給 分片,或透過在文件 ID 中明確指派分片來指派。每次寫入操作後,文件都會進行版本控制。

E

集合

ZooKeeper 術語,表示多個 ZooKeeper 執行個體同時運行,並彼此協調以實現容錯。

F

分面

根據索引詞彙將搜尋結果排列成類別。

欄位

要索引/搜尋的內容,以及定義 Solr 應如何處理內容的中繼資料。

I

反向文件頻率 (IDF)

衡量詞彙通用重要性的一種指標。其計算方式為總文件數除以特定詞彙在文件中出現的文件數。請參閱 http://en.wikipedia.org/wiki/Tf-idfLucene TFIDFSimilarity javadocs 以取得更多關於基於 TF-IDF 的評分和 Lucene 評分的資訊。另請參閱詞頻

反向索引

一種建立可搜尋索引的方式,列出每個詞彙以及包含這些詞彙的文件,類似於書籍後面的索引,列出詞彙及其出現的頁面。當執行關鍵字搜尋時,此方法被認為比另一種方法更有效率,另一種方法是建立一個文件列表,並與每個文件中使用的每個詞彙配對。由於使用者使用他們期望在文件中出現的詞彙進行搜尋,因此在文件之前找到詞彙可以節省處理資源和時間。

L

領導者

每個分片的單一副本,負責協調索引更新(文件新增或刪除)到同一分片中的其他副本。這是通過選舉分配給節點的臨時責任,如果目前的分片領導者失效,將自動選出一個新節點來取代其位置。另請參閱 SolrCloud

M

元數據

字面上來說,是關於數據的數據。元數據是有關文件的資訊,例如標題、作者或位置。

N

自然語言查詢

使用者以平常說話或寫作方式輸入的搜尋,例如「阿斯匹靈是什麼?」。

節點

一個運行 Solr 的 JVM 實例。也稱為 Solr 伺服器。

O

樂觀並行

也稱為「樂觀鎖定」,這是一種允許更新目前在索引中的文件,同時保留鎖定或版本控制的方法。

監督者

SolrCloud 中的單一節點,負責處理和協調涉及整個叢集的操作。它會追蹤現有節點、集合、分片和副本的狀態,並將新副本分配給節點。這是通過選舉分配給節點的臨時責任,如果目前的監督者失效,將自動選出一個新節點來取代其位置。另請參閱 SolrCloud

Q

查詢解析器

查詢解析器會處理使用者輸入的詞彙。

R

召回率

搜尋引擎檢索使用者查詢的所有可能匹配項的能力。

相關性

文件對於使用者進行搜尋的適切性。

副本

SolrCloud 集合中,作為 分片實際拷貝的核心

複寫

一種將領導者索引從一個伺服器複製到一個或多個「追隨者」或「子」伺服器的方法。

請求處理器

告知 Solr 如何處理傳入「請求」的邏輯和配置參數,無論請求是返回搜尋結果、索引文件還是處理其他自訂情況。

S

搜尋元件

請求處理器用於處理查詢請求的邏輯和配置參數。搜尋元件的範例包括分面、醒目提示和「更多類似此項」功能。

分片

在 SolrCloud 中,單一集合的邏輯分割。每個分片都包含至少一個實際的副本,但是可能會有多個副本分佈在多個節點上,以實現容錯。另請參閱 SolrCloud

SolrCloud

Solr 中一組功能的總稱,可讓您管理 Solr 節點叢集,以實現可擴展性、容錯和高可用性。

Solr Schema (managed-schema.xml 或 schema.xml)

Solr 索引綱要定義要索引的欄位以及欄位的類型(文字、整數等)。預設情況下,可以使用綱要 API在執行時「管理」綱要數據,並且通常保存在名為 managed-schema.xml 的檔案中,Solr 會根據需要修改此檔案,但可以將集合設定為使用靜態綱要,該綱要僅在啟動時從人工編輯的設定檔中載入 - 通常名為 schema.xml。有關詳細資訊,請參閱綱要工廠設定

SolrConfig (solrconfig.xml)

Apache Solr 設定檔。定義索引選項、RequestHandler、醒目提示、拼寫檢查和各種其他設定。檔案 solrconfig.xml 位於 Solr 主目錄 conf 目錄中。

拼寫檢查

能夠向使用者建議搜尋詞彙的替代拼寫,以檢查拼寫錯誤導致結果很少或沒有結果的情況。

停用詞

一般來說,對於使用者的搜尋沒有太多意義,但可能已作為自然語言查詢一部分輸入的詞彙。停用詞通常是非常小的代詞、連接詞和介詞(例如,「the」、「with」或「and」)。

建議器

Solr 中的功能,提供在使用者輸入時向其建議可能的查詢詞彙的能力。

同義詞

同義詞通常是指在意義上彼此接近且可以相互替代的詞彙。在搜尋引擎實作中,同義詞可以是縮寫以及單字,或是不一致地使用連字號的詞彙。在此環境中同義詞的範例可以是「Inc.」和「Incorporated」,或是「iPod」和「i-pod」。

T

詞頻

一個詞彙在給定文件中出現的次數。請參閱 http://en.wikipedia.org/wiki/Tf-idfLucene TFIDFSimilarity javadocs 以取得更多關於基於 TF-IDF 的評分和 Lucene 評分的資訊。另請參閱 反向文件頻率 (IDF)

交易日誌

每個副本維護的僅附加寫入操作日誌。SolrCloud 實作需要此日誌,且由 Solr 自動建立和管理。

W

萬用字元

萬用字元允許替換單字的一個或多個字母,以考慮可能的拼寫或時態變化。

Z

ZooKeeper

也稱為 Apache ZooKeeper。SolrCloud 用於追蹤叢集的設定檔和節點名稱的系統。ZooKeeper 叢集用作叢集的中央設定儲存、需要分散式同步操作的協調器,以及叢集拓撲的記錄系統。另請參閱 SolrCloud