首发于AI Box

单词相关性对文档主题相关性的启发和影响

文章来源:

Title: A Correlated Topic Model Using Word Embeddings

Author: Guangxu Xun, Yaliang Li, Jing Gao, Aidong Zhang, Xin Zhao

From: the 26th International Joint Conference on Artificial Intelligence (IJCAI 2017)

作者简介: Yaliang Li is a Research Scientist at Baidu Research, USA. He received his Ph.D. degree from the Department of Computer Science and Engineering at SUNY Buffalo in 2017. His research topics include truth discovery, text and web mining, privacy-preserving data mining, and data mining applications in healthcare and medical domains.

一、 文章框架

对于一个语料库来说,其所包含的主题之间往往存在着相关性。比如说一篇关于体育的文章很可能与健康有关系,而与金融投资却关系不大。而这种相关性不仅仅存在于主题层面,也存在于单词层面。词向量(word embeddings)具备捕捉语义的能力,词向量与词向量之间的距离也可以直接用来衡量两个词之间的相关性,例如在词向量空间中,‘勒布朗詹姆斯’与‘斯蒂芬库里’之间的距离会明显小于他与‘奥巴马’之间的距离。另一个关于词向量比较出名的例子是:vector(‘king’) – vector(‘man’) + vector(‘woman’) 约等于vector(‘queen’)。这篇文章利用词向量之间额外的相关性信息来帮助发掘主题之间的相关性。

因为词向量间的语义相关性与它们间的距离成反比,这篇文章采用高斯分布代替传统主题模型中的多项分布来代表主题。同时为了捕捉主题间的相关性,主题服从logistic normal分布而不是Dirichlet分布。为了应对高斯主题的引入,以及分布间不共轭的问题,作者采用了基于data augmentation的Gibbs sampling方法来求解模型。

在文档生成过程中,现根据logistic normal分布确定主题,再根据对应的高斯主题生成词向量。在已知词向量的情况下,主题与logistic normal参数的联合分布为:

每回合采样中,每一个单词的对应主题可根据如下概率采样得到:

其中T_{r} (\omega |\mu ,\Sigma )代表多变量学生t分布。由于不共轭的问题,logistic normal分布的参数不能直接采样得到,作者通过引入服从Polya-Gamma分布的辅助变量\lambda_{d}^{k} ,进而可以高效的利用单变量高斯分布来采样logistic normal参数\eta _{d}^{k} :

需要注意的是,每次对单词所属的主题进行采样之后,需要更新此次采样涉及到的高斯主题:

二、 实验结果和分析

这篇论文在20 Newsgroups文集上进行了三方面的实验,探究了词向量中的语义信息以及相关性信息对主题层面相关性发掘的影响。20 Newsgroups作为最常用的文本数据集,它包含20个主题类别,并且不同类别之间有比较明显的相关性,比如棒球、冰球、汽车和摩托车等类别,很适合做主题相关性的研究。

1. 主题词以及主题相关性

实验中作者利用PCA降维可视化了冰球、棒球、汽车、摩托车、中东问题和枪支管理等6个主题,这6个主题中两两之间存在有较强的相关性。

由于词向量本就具有捕捉语义以及相关性的功能,这有助于捕捉主题之间的相关性。例如冰球(hockey)和棒球(baseball),这两个主题的诸多主题词像game、players、season、wings、runs等等都是语义相关甚至共享的,这也直接导致冰球和棒球这两个主题在词向量空间中有很大面积的重叠(相关)。

2. 主题粘合性(topic coherence score)

Topic coherence score是一个可以自动衡量被主题质量的指标。在词向量空间中利用高斯分布去拟合的每一个主题通常粘合性更强。这是因为语义相近的词向量会在空间中聚合,比如图中所有关于中东问题的词向量都分布在右上角,而高斯分布恰恰描述了空间中的一个球体,从而保证了每一个主题内部的粘合性。

3. 文档主题分布

20 Newsgroups数据集中共包含20个类别的文档,因此在验证主题质量的时候也可以看作为一个聚类的问题,实验表明发掘更高质量的主题有助于提高20 Newsgroups数据集上的文档聚类效果。

三、总结和思考

这篇文章的立意比较直观,旨在利用单词层面的语义和相关性先验知识来帮助发掘主题层面的相关性,建模和推导由于高斯主题的引入和不共轭问题的存在略显复杂。实验验证了词向量间相关性对主题层面相关性的影响。

发布于 2017-05-06 10:42