COSPLAY 与文本分类

“幸福的家庭都是相似的，不幸的家庭各有各的不幸” — 托尔斯泰《安娜·卡列尼娜》

一个显然的事实，计算机只能做计算，数值计算，它无法理解文本的内涵，但却可以计算文本用词的相似度。

一篇文章里如果反复出现 “贸易逆差、汇率、贬值” 等词汇，那它大概率就是一篇金融方面的文章。

而如果经常出现 “李白、杜甫、王维、江泽林则徐” 那它应该是一篇诗歌方面的文章。

所以，我们可以使用一个数组来储存这些关键词出现的频率，这样一篇文章就被转换成了数字，计算机就能算一算这篇文章是在讲什么了。

那么，怎么计算呢.jpg

看我cosplay

首先，我们知道：

$$ \cos A=\dfrac {\langle a,b\rangle }{\left| a\right| \cdot \left| b\right| } $$

我们将这个储存词频的数组看成一个 n 维向量 ，那么任意两篇文章的主题相关性就可以用向量间的余弦角来表示。

当两向量垂直时

$$ \cos A=0 $$

两文本毫不相干。

当两向量重合时

$$ \cos A=1 $$

两文本完全相同。

基于这个原理我们可以设计出一个很简单的文本分类器，我们可以称呼它为…~~coser！~~ 余弦相似性分类器。