Solr 詞彙表

這些是 Solr 中常用的術語。

Solr 術語

在可能的情況下，術語會連結到 Solr 參考指南的相關部分，以取得更多資訊。

跳到字母

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

A

原子更新: 一種僅更新文件的一個或多個欄位的方法，而不是重新索引整個文件。

B

布林運算子: 這些運算子透過使用 AND、OR 和 NOT 等運算子來控制查詢中關鍵字的包含或排除。

C

叢集: 在 Solr 中，叢集是一組 Solr 節點，透過 ZooKeeper 彼此協調運作，並以一個單位進行管理。一個叢集可能包含多個集合。另請參閱 SolrCloud。
集合: 在 Solr 中，使用單一組態和 Schema，將一個或多個文件分組到單一邏輯索引中。

在 SolrCloud 中，集合可能會被分成多個邏輯分片，這些分片可能會分散在多個節點上。

單節點安裝和使用者管理的叢集改為使用核心的概念。「集合」最常在 SolrCloud 環境中使用，但由於它代表「邏輯索引」，因此該術語也可用於指稱使用者管理叢集中的個別核心。
Commit: 在索引中使文件變更永久化。在新增文件的情況下，它們會在「提交」後可搜尋。
核心: 個別的 Solr 執行個體（代表邏輯索引）。多個核心可以在單一節點上執行。另請參閱 SolrCloud。
核心重新載入: 在變更 schema 檔、solrconfig.xml 或其他設定檔後，重新初始化 Solr 核心。

D

分散式搜尋: 分散式搜尋是指查詢在多個分片上處理的搜尋。
文件: 一組欄位及其值。文件是集合中基本的資料單位。文件會使用標準雜湊指派給分片，或透過在文件 ID 中明確指派分片來指派。每次寫入操作後，文件都會進行版本控制。

E

集合: ZooKeeper 術語，表示多個 ZooKeeper 執行個體同時運行，並彼此協調以實現容錯。

F

分面: 根據索引詞彙將搜尋結果排列成類別。
欄位: 要索引/搜尋的內容，以及定義 Solr 應如何處理內容的中繼資料。

I

反向文件頻率 (IDF): 衡量詞彙通用重要性的一種指標。其計算方式為總文件數除以特定詞彙在文件中出現的文件數。請參閱 http://en.wikipedia.org/wiki/Tf-idf 和 Lucene TFIDFSimilarity javadocs 以取得更多關於基於 TF-IDF 的評分和 Lucene 評分的資訊。另請參閱詞頻。
反向索引: 一種建立可搜尋索引的方式，列出每個詞彙以及包含這些詞彙的文件，類似於書籍後面的索引，列出詞彙及其出現的頁面。當執行關鍵字搜尋時，此方法被認為比另一種方法更有效率，另一種方法是建立一個文件列表，並與每個文件中使用的每個詞彙配對。由於使用者使用他們期望在文件中出現的詞彙進行搜尋，因此在文件之前找到詞彙可以節省處理資源和時間。

L

領導者: 每個分片的單一副本，負責協調索引更新（文件新增或刪除）到同一分片中的其他副本。這是通過選舉分配給節點的臨時責任，如果目前的分片領導者失效，將自動選出一個新節點來取代其位置。另請參閱 SolrCloud。

M

元數據: 字面上來說，是關於數據的數據。元數據是有關文件的資訊，例如標題、作者或位置。

N

自然語言查詢: 使用者以平常說話或寫作方式輸入的搜尋，例如「阿斯匹靈是什麼？」。
節點: 一個運行 Solr 的 JVM 實例。也稱為 Solr 伺服器。

O

樂觀並行: 也稱為「樂觀鎖定」，這是一種允許更新目前在索引中的文件，同時保留鎖定或版本控制的方法。
監督者: SolrCloud 中的單一節點，負責處理和協調涉及整個叢集的操作。它會追蹤現有節點、集合、分片和副本的狀態，並將新副本分配給節點。這是通過選舉分配給節點的臨時責任，如果目前的監督者失效，將自動選出一個新節點來取代其位置。另請參閱 SolrCloud。

Q

查詢解析器: 查詢解析器會處理使用者輸入的詞彙。

R

召回率: 搜尋引擎檢索使用者查詢的所有可能匹配項的能力。
相關性: 文件對於使用者進行搜尋的適切性。
副本: 在 SolrCloud 集合中，作為分片實際拷貝的核心。
複寫: 一種將領導者索引從一個伺服器複製到一個或多個「追隨者」或「子」伺服器的方法。
請求處理器: 告知 Solr 如何處理傳入「請求」的邏輯和配置參數，無論請求是返回搜尋結果、索引文件還是處理其他自訂情況。

S

搜尋元件: 請求處理器用於處理查詢請求的邏輯和配置參數。搜尋元件的範例包括分面、醒目提示和「更多類似此項」功能。
分片: 在 SolrCloud 中，單一集合的邏輯分割。每個分片都包含至少一個實際的副本，但是可能會有多個副本分佈在多個節點上，以實現容錯。另請參閱 SolrCloud。
SolrCloud: Solr 中一組功能的總稱，可讓您管理 Solr 節點的叢集，以實現可擴展性、容錯和高可用性。
Solr Schema (managed-schema.xml 或 schema.xml): Solr 索引綱要定義要索引的欄位以及欄位的類型（文字、整數等）。預設情況下，可以使用綱要 API在執行時「管理」綱要數據，並且通常保存在名為 managed-schema.xml 的檔案中，Solr 會根據需要修改此檔案，但可以將集合設定為使用靜態綱要，該綱要僅在啟動時從人工編輯的設定檔中載入 - 通常名為 schema.xml。有關詳細資訊，請參閱綱要工廠設定。
SolrConfig (solrconfig.xml): Apache Solr 設定檔。定義索引選項、RequestHandler、醒目提示、拼寫檢查和各種其他設定。檔案 solrconfig.xml 位於 Solr 主目錄 conf 目錄中。
拼寫檢查: 能夠向使用者建議搜尋詞彙的替代拼寫，以檢查拼寫錯誤導致結果很少或沒有結果的情況。
停用詞: 一般來說，對於使用者的搜尋沒有太多意義，但可能已作為自然語言查詢一部分輸入的詞彙。停用詞通常是非常小的代詞、連接詞和介詞（例如，「the」、「with」或「and」）。
建議器: Solr 中的功能，提供在使用者輸入時向其建議可能的查詢詞彙的能力。
同義詞: 同義詞通常是指在意義上彼此接近且可以相互替代的詞彙。在搜尋引擎實作中，同義詞可以是縮寫以及單字，或是不一致地使用連字號的詞彙。在此環境中同義詞的範例可以是「Inc.」和「Incorporated」，或是「iPod」和「i-pod」。

T

詞頻: 一個詞彙在給定文件中出現的次數。請參閱 http://en.wikipedia.org/wiki/Tf-idf 和 Lucene TFIDFSimilarity javadocs 以取得更多關於基於 TF-IDF 的評分和 Lucene 評分的資訊。另請參閱反向文件頻率 (IDF)。
交易日誌: 每個副本維護的僅附加寫入操作日誌。SolrCloud 實作需要此日誌，且由 Solr 自動建立和管理。

W

萬用字元: 萬用字元允許替換單字的一個或多個字母，以考慮可能的拼寫或時態變化。

Z

ZooKeeper: 也稱為 Apache ZooKeeper。SolrCloud 用於追蹤叢集的設定檔和節點名稱的系統。ZooKeeper 叢集用作叢集的中央設定儲存、需要分散式同步操作的協調器，以及叢集拓撲的記錄系統。另請參閱 SolrCloud。