關聯性

關聯性是指查詢回應滿足正在搜尋資訊的使用者的程度。

查詢回應的關聯性取決於執行查詢的背景。單一搜尋應用程式可能會被具有不同需求和期望的使用者在不同背景中使用。例如,一個氣候資料搜尋引擎可能會被以下人士使用:研究長期氣候趨勢的大學研究人員、有興趣計算春天最後霜凍可能日期的農民、對降雨模式和洪水頻率感興趣的土木工程師,以及計畫前往某地區度假並想知道要帶什麼的學生。由於這些使用者的動機各異,因此任何特定回應的關聯性也會有所不同。

查詢回應應有多全面?與一般的關聯性一樣,這個問題的答案取決於搜尋的背景。在某些情況下,例如針對傳票的法律電子證據開示搜尋中,沒有找到特定文件回應查詢的代價很高,而在其他情況下,例如在一個有數十或數百個蛋糕食譜的網站上搜尋蛋糕食譜,代價則很低。在設定 Solr 時,您應權衡全面性與其他因素,例如及時性和易用性。

電子證據開示和食譜範例示範了兩個與關聯性相關的重要概念

  • 精確度是指傳回結果中相關文件的百分比。

  • 召回率是指在系統中所有相關結果中傳回的相關結果的百分比。獲得完美的召回率微不足道:只需針對每個查詢傳回集合中的每個文件即可。

回到上面的例子,對於電子蒐證搜尋應用程式來說,100% 的檢索率(recall)至關重要,必須傳回所有與傳票相關的文件。然而,對於食譜應用程式來說,這個程度的精確度就不是那麼重要了。在某些情況下,休閒情境傳回過多的結果可能會讓使用者感到不知所措。在某些情況下,傳回較少但相關性較高的結果可能是最好的方法。

透過精確度(precision)和檢索率的概念,可以量化文件集合中跨使用者和查詢的相關性。一個完美的系統對於每個使用者和每個查詢都應該有 100% 的精確度和 100% 的檢索率。換句話說,它會檢索所有相關的文件,而沒有其他的文件。實際上,在真實系統中談論精確度和檢索率時,通常會關注特定結果數量的精確度和檢索率,最常見(且有用)的是前十個結果。

透過分面(faceting)、查詢篩選和其他搜尋元件,可以配置 Solr 應用程式的彈性,以協助使用者微調其搜尋,以便為使用者傳回最相關的結果。也就是說,可以配置 Solr 來平衡精確度和檢索率,以滿足特定使用者社群的需求。

Solr 應用程式的配置應考慮到

  • 應用程式各種使用者的需求(除了嚴格的資訊需求外,還可能包括易用性和回應速度)

  • 這些使用者在各種情境中具有意義的類別(例如,日期、產品類別或地區)

  • 文件的任何固有相關性(例如,確保官方產品描述或常見問題解答始終在搜尋結果的頂部附近傳回可能是有意義的)

  • 文件的時間是否顯著重要(在某些情況下,最新的文件可能始終是最重要的)

記住所有這些因素,在 Solr 部署的規劃階段,草擬您認為搜尋應用程式針對範例查詢應傳回的反應類型通常很有幫助。一旦應用程式啟動並執行,您可以使用一系列測試方法,例如焦點小組、內部測試、TREC 測試和 A/B 測試,以微調應用程式的配置,以最好地滿足使用者的需求。

有關相關性的更多資訊,請參閱 Grant Ingersoll 的部落格文章 偵錯搜尋應用程式相關性問題