淘宝的评论归纳是如何做到的?

[图片]
关注者
1,639
被浏览
161,528

16 个回答

PS:语义分析的概要过程大家可以去程序员杂志七月刊上阅读

作为这个产品技术团队之一,简单说下这个过程:

1,按类目特征,拉取这个类目下的评论,进行分词,统计词频;

2,对词进行聚类,包含常用的LDA,结合本体库,将词进行归类和分类,建立语料库;(分类是最重要的一步,比如服装类目下学院风、淑女、熟女、休闲等都会归为款式这类)

3,属性情感搭配,建立属性词和情感词的连接关系,判断分句的情感;

4,属性词+情感词转换到属性类的情感,对句子进行位置标记;

5,将属性情感和位置标记结果build到搜索中,便于根据标签反向检索内容。

借用一句话:产品从0到1是很容易的,但是将1做到100确实个不断优化的过程,期待对这方面有兴趣的人给予建议和指导,也大大欢迎加入共建。

之前实现过一个,主要是依存句法分析+topic model(lda),文档见《用户评论中的标签抽取以及排序》:

pan.baidu.com/s/1sjAuHc