词频(Term Frequency,TF)指的是一个词语在给定文档中出现的频率。它是衡量词语在文档中重要性的一个指标,通常通过将词语出现的次数除以文档中所有词语的总数来计算。词频越高,意味着该词语在文档中越重要。
词频可以用以下公式表示:
```
TF(t,d) = (单词t在文档d中出现的次数) / (文档d中所有单词的总数)
```
其中,`t` 表示一个特定的单词,`d` 表示一个特定的文档。
词频是文本处理和分析中的一个基础概念,常用于搜索引擎优化、信息检索、文本挖掘等领域。通过词频分析,可以了解文档中哪些词语更为常见,进而对文档内容进行概括和理解。