COSPLAY 与 文本分类

幸福的家庭都是相似的,不幸的家庭各有各的不幸

“幸福的家庭都是相似的,不幸的家庭各有各的不幸” — 托尔斯泰 《安娜·卡列尼娜》

一个显然的事实,计算机只能做计算,数值计算,它无法理解文本的内涵,但却可以计算文本用词的相似度。

一篇文章里如果反复出现 “贸易逆差、汇率、贬值” 等词汇,那它大概率就是一篇金融方面的文章。

而如果经常出现 “李白、杜甫、王维、江泽林则徐” 那它应该是一篇诗歌方面的文章。

所以,我们可以使用一个 数组 来储存这些关键词出现的频率,这样一篇文章就被转换成了数字,计算机就能算一算这篇文章是在讲什么了。

那么,怎么计算呢.jpg

看我cosplay

首先,我们知道:

$$ \cos A=\dfrac {\langle a,b\rangle }{\left| a\right| \cdot \left| b\right| } $$

我们将这个储存词频的 数组 看成一个 n 维向量 ,那么任意两篇文章的主题相关性就可以用向量间的余弦角来表示。

当两向量垂直时

$$ \cos A=0 $$

两文本毫不相干。

当两向量重合时

$$ \cos A=1 $$

两文本完全相同。

基于这个原理我们可以设计出一个很简单的文本分类器,我们可以称呼它为…coser! 余弦相似性分类器。

FrostMiKu
Built with Hugo
主题 StackJimmy 设计