統計

使用者指南的此章節涵蓋數學運算式中可用的核心統計函數。

描述性統計

describe 函數會傳回數值陣列的描述性統計。describe 函數會傳回包含描述性統計的單一元組，其中包含名稱/值組。

以下是一個簡單的範例，從 logs 集合中選取文件的隨機樣本，向量化結果集中的 response_d 欄位，並使用 describe 函數傳回有關向量的描述性統計。

let(a=random(logs, q="*:*", fl="response_d", rows="50000"),
    b=col(a, response_d),
    c=describe(b))

當此運算式傳送至 /stream 處理器時，它會回應

{
  "result-set": {
    "docs": [
      {
        "sumsq": 36674200601.78738,
        "max": 1068.854686837548,
        "var": 1957.9752647562789,
        "geometricMean": 854.1445499569674,
        "sum": 42764648.83319176,
        "kurtosis": 0.013189848821424377,
        "N": 50000,
        "min": 656.023249311864,
        "mean": 855.2929766638425,
        "popVar": 1957.936105250984,
        "skewness": 0.0014560741802307174,
        "stdev": 44.24901428005237
      },
      {
        "EOF": true,
        "RESPONSE_TIME": 430
      }
    ]
  }
}

請注意，隨機樣本包含 50,000 個記錄，且回應時間僅為 430 毫秒。此大小的樣本可用於以亞秒級效能可靠地估計非常大的基礎資料集的統計資料。

describe 函數也可以在 Zeppelin-Solr 的表格中視覺化

$describe$

直方圖和頻率表

直方圖和頻率表是視覺化隨機變數分布的工具。

hist 函數會建立一個設計用於連續資料的直方圖。freqTable 函數會建立一個用於離散資料的頻率表。

直方圖

在以下範例中，直方圖用於視覺化來自 logs 集合的回應時間的隨機樣本。此範例使用 random 函數擷取隨機樣本，並從結果集中的 response_d 欄位建立向量。然後將 hist 函數套用至向量，以傳回具有 22 個 bin 的直方圖。hist 函數會傳回一個元組清單，其中包含每個 bin 的摘要統計資訊。

let(a=random(logs, q="*:*", fl="response_d", rows="50000"),
    b=col(a, response_d),
    c=hist(b,  22))

當此運算式傳送至 /stream 處理器時，它會回應

{
  "result-set": {
    "docs": [
      {
        "prob": 0.00004896007228311655,
        "min": 675.573084576817,
        "max": 688.3309631697003,
        "mean": 683.805542728906,
        "var": 50.9974629924082,
        "cumProb": 0.000030022417162809913,
        "sum": 2051.416628186718,
        "stdev": 7.141250800273591,
        "N": 3
      },
      {
        "prob": 0.00029607514624062624,
        "min": 696.2875238591652,
        "max": 707.9706315779541,
        "mean": 702.1110569558929,
        "var": 14.136444379466969,
        "cumProb": 0.00022705264963879807,
        "sum": 11233.776911294284,
        "stdev": 3.759846323916307,
        "N": 16
      },
      {
        "prob": 0.0011491235433157194,
        "min": 709.1574910598678,
        "max": 724.9027194369135,
        "mean": 717.8554290699951,
        "var": 20.6935845290122,
        "cumProb": 0.0009858515418689757,
        "sum": 41635.61488605971,
        "stdev": 4.549020172412098,
        "N": 58
      },
      ...
      ]}}

使用 Zeppelin-Solr，直方圖可以先視覺化為表格

$histtable$

接著，可以利用面積圖將直方圖視覺化，方法是將 x 軸繪製為組距的 平均值，並將 y 軸繪製為 prob (機率)。

$hist$

透過將 y 軸切換為 cumProb 欄位，可以繪製累積機率。

$cumProb$

自訂直方圖

可以透過將多個 stats 函數的輸出組合到單一直方圖中來定義和視覺化自訂直方圖。自訂直方圖允許基於查詢比較組距，而不是自動對數值欄位進行分組。

stats 函數首先在使用者指南的「搜尋、取樣和彙總」章節中討論。

一個簡單的範例將說明如何定義和視覺化自訂直方圖。

在此範例中，三個 stats 函數被包裝在一個 plist 函數中。plist (平行列表) 函數平行執行其每個內部函數，並將結果串連成單一資料流。plist 還會維護每個子函數輸出的順序。在此範例中，每個 stats 函數都會計算符合特定查詢的文件計數。在此情況下，它們會計算包含 copper、gold 和 silver 等詞彙的文件數量。然後，包含計數的元組列表會儲存在變數 a 中。

接著，建立標籤的 array 並設定為變數 l。

最後，使用 zplot 函數繪製標籤向量和 count(*) 欄位。請注意，col 函數在 zplot 函數內部使用，以從 stats 結果中提取計數。

$custom hist$

頻率表

freqTable 函數會傳回離散資料集的頻率分佈。freqTable 函數不會像直方圖那樣建立組距。相反，它會計算每個離散資料值的出現次數，並傳回一個包含每個值的頻率統計資料的元組列表。

以下是根據股票代碼為 amzn 的每日開盤股價四捨五入的差異結果集建立的頻率表示例。

這個範例很有趣，因為它展示了達到結果的多步驟過程。第一步是在 stocks 集合中搜尋股票代碼為 amzn 的記錄。請注意，結果集依日期升序排序，並傳回 open_d 欄位，這是當天的開盤價。

然後將 open_d 欄位向量化並設定為變數 b，現在其中包含按日期升序排序的開盤價向量。

接著使用 diff 函數計算開盤價向量的 一階差分。一階差分只是從陣列中的每個值減去前一個值。這將提供每日價格差異的陣列，其中將顯示每日開盤價的變化。

然後使用 round 函數將價格差異四捨五入到最接近的整數，以建立離散值向量。此範例中的 round 函數有效地在整數邊界分組連續資料。

最後，在離散值上執行 freqTable 函數以計算頻率表。

let(a=search(stocks,
             q="ticker_s:amzn",
             fl="open_d, date_dt",
             sort="date_dt asc",
             rows=25000),
    b=col(a, open_d),
    c=diff(b),
    d=round(c),
    e=freqTable(d))

當此運算式傳送至 /stream 處理器時，它會回應

 {
   "result-set": {
     "docs": [
       {
         "pct": 0.00019409937888198756,
         "count": 1,
         "cumFreq": 1,
         "cumPct": 0.00019409937888198756,
         "value": -57
       },
       {
         "pct": 0.00019409937888198756,
         "count": 1,
         "cumFreq": 2,
         "cumPct": 0.00038819875776397513,
         "value": -51
       },
       {
         "pct": 0.00019409937888198756,
         "count": 1,
         "cumFreq": 3,
         "cumPct": 0.0005822981366459627,
         "value": -49
       },
       ...
       ]}}

使用 Zeppelin-Solr，頻率表可以首先視覺化為表格

$freqTable$

然後，可以透過切換到散佈圖並為 x 軸選取 value 欄位，並為 y 軸選取 count 欄位來繪製頻率表

$freqTable1$

請注意，視覺化效果可以清楚地顯示四捨五入為整數的每日股價變化頻率。最常出現的值是 0，出現 1494 次，其次是 -1 和 1，出現約 700 次。

百分位數

percentile 函數會傳回樣本集中特定百分位數的估計值。下面的範例會傳回一個包含 logs 集合中 response_d 欄位的隨機樣本。response_d 欄位會被向量化，並計算向量的第 20 個百分位數

let(a=random(logs, q="*:*", rows="15000", fl="response_d"),
    b=col(a, response_d),
    c=percentile(b, 20))

當此運算式傳送至 /stream 處理器時，它會回應

 {
   "result-set": {
     "docs": [
       {
         "c": 818.073554
       },
       {
         "EOF": true,
         "RESPONSE_TIME": 286
       }
     ]
   }
 }

percentile 函數也可以計算百分位數值陣列。下面的範例計算 response_d 欄位隨機樣本的第 20、40、60 和 80 個百分位數

let(a=random(logs, q="*:*", rows="15000", fl="response_d"),
    b=col(a, response_d),
    c=percentile(b, array(20,40,60,80)))

當此運算式傳送至 /stream 處理器時，它會回應

{
  "result-set": {
    "docs": [
      {
        "c": [
          818.0835543394625,
          843.5590348165282,
          866.1789509894824,
          892.5033386599067
        ]
      },
      {
        "EOF": true,
        "RESPONSE_TIME": 291
      }
    ]
  }
}

分位數圖

分位數圖或 QQ 圖是視覺比較兩個或多個分佈的強大工具。

分位數圖會在同一個視覺化效果中繪製兩個或多個分佈的百分位數。這允許在每個百分位數上視覺比較分佈。一個簡單的範例將有助於說明分位數圖的強大功能。

在此範例中，兩個股票代碼 goog 和 amzn 的每日股價變化分佈會使用分位數圖進行視覺化。

該範例首先建立一個代表將要計算的百分位數值的陣列，並將此陣列設定為變數 p。然後，從股票代碼 amzn 和 goog 中繪製 change_d 欄位的隨機樣本。change_d 欄位代表一天的股價變化。然後將 change_d 欄位向量化，並將兩個樣本分別放入變數 amzn 和 goog 中。然後使用 percentile 函數計算兩個向量的百分位數。請注意，變數 p 用於指定要計算的百分位數清單。

最後，使用 zplot 在 x 軸上繪製百分位數序列，並在 y 軸上繪製兩個分佈的計算百分位數值。並使用折線圖視覺化 QQ 圖。

$quantile plot$

此分位數圖清楚地顯示了 amzn 和 googl 每日價格變化分佈。在圖表中，x 軸為百分位數，y 軸為計算的百分位數值。

請注意，goog 百分位數值開始時較低，結尾時高於 amzn 圖，並且斜率更陡峭。這顯示 goog 價格變化分佈的變異性更大。該圖清楚地顯示了跨越整個百分位數範圍的分佈差異。

let(a=array(1,2,3),
    b=zscores(a))

當此運算式傳送至 /stream 處理器時，它會回應

{
  "result-set": {
    "docs": [
      {
        "b": [
          -1,
          0,
          1
        ]
      },
      {
        "EOF": true,
        "RESPONSE_TIME": 27
      }
    ]
  }
}

統計

描述性統計

直方圖和頻率表

直方圖

自訂直方圖

頻率表

百分位數

分位數圖

相關性和共變異數

相關性和相關矩陣

相關矩陣

共變異數和共變異數矩陣

統計推論檢定

轉換

反轉換

Z 分數