TF-IDF理解

一、前言

最近在看关于特征抽取的论文，希望能从中找到一些方法来做数据抄袭检测，看到了一篇关于中文文本复制检测的文章，里面用到了TF-IDF算法，查找了些资料，把它整理了一下～～

二、 TF-IDF的理解

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术, TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m + k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处。

TF公式：

以上式子中$n_i,j$是该词在文件$d_j$中出现的次数，而分母则是在文件$d_j$中所有字词的出现次数之和。

IDF公式：

三、简单案例理解

假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。

四、结束语

markdown写公式没有加载出来，不知道咋回事～可能模板的锅。

LaTex写公式真方便啊～～～

TF-IDF理解

一、 前言

二、 TF-IDF的理解

三、 简单案例理解

四、 结束语

一、前言

三、简单案例理解

四、结束语