勵志

勵志人生知識庫

詞頻怎麼算

詞頻(Term Frequency, 簡稱 TF)是指一箇詞語在一份給定文件或文檔中出現的次數。它的計算方法是將某個詞在文件中的出現次數除以文件中的總詞語數。用數學公式表示,如果 \(n_{i,j}\) 是詞 \(i\) 在文檔 \(j\) 中的出現次數,而 \(n_d\) 是文檔 \(d\) 中所有詞語的出現次數之和,那麼詞頻 \(TF_{i,j}\) 可以計算爲:

\[ TF_{i,j} = \frac{n_{i,j}}{n_d} \]

逆向文件頻率(Inverse Document Frequency, 簡稱 IDF)是衡量一箇詞語普遍重要性的度量。它通過取文檔集合總數量除以包含該詞語的文檔數量,然後將得到的商取對數來計算。具體公式爲:

\[ IDF_t = \log\left(\frac{N}{df_t}\right) \]

其中 \(N\) 是文檔集合的總數量,\(df_t\) 是包含詞語 \(t\) 的文檔數量。

詞頻-逆文檔頻率(TF-IDF)是詞頻(TF)和逆文檔頻率(IDF)的乘積,用於評估一箇詞語在其出現文檔中的重要性,同時考慮到該詞語在整個文檔集閤中的罕見性。TF-IDF 的計算公式爲:

\[ TF-IDF_{i,j} = TF_{i,j} \times IDF_t \]

TF-IDF 算法基於一箇假設,即對區別文檔最有意義的詞語應該是那些在文檔中出現頻率高,而在整個文檔集合的其他文檔中出現頻率少的詞語。通過將 TF 和 IDF 相乘,可以體現同類文本的特點,同時減少常用詞對文本區分度的影響。