针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特...针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特性以及特征词采样等问题。首先建立评论及对应标签资源在信息熵相似度条件下的潜在关系,对该潜在关系使用随机游走方法获取各组资源和各组标签的权值系数,消除资源间的独立同分布。通过加权方法加权至每个资源的特征词,形成资源特征词和标签特征词的权重值系数。在此基础上构建联合特征词加权-LDA模型,通过迭代学习方法获取社会化标签资源的隐含主题知识。通过实验表明,提出的联合特征词加权-LDA相对于其他主题模型具有更好的主题识别效果。展开更多
在线影评的情感词能够直观的表达观众的电影观后感,已成为情感分析研究的热点之一。如何针对海量纷繁的影评数据建立领域特有的情感词库来提高影评情感分析准确性是当前影评情感分析亟待解决的问题。本文提出了一种新的基于词间距和点...在线影评的情感词能够直观的表达观众的电影观后感,已成为情感分析研究的热点之一。如何针对海量纷繁的影评数据建立领域特有的情感词库来提高影评情感分析准确性是当前影评情感分析亟待解决的问题。本文提出了一种新的基于词间距和点互信息的中文影评情感词库构建方法。该方法首先结合影评语料和基础词典利用K-means++聚类选择出情感倾向明显的正负面种子词集;再利用词间距和点互信息(Distance of Word Point-wise Mutual Information,DW-PMI)算法计算出影评领域词与种子词的语义相似度,得到影评领域情感词表;最后将影评领域情感词表加入基础情感词典构建出中文影评情感词库。实验结果证明所构建的词库可显著提高中文影评情感分析的准确度。展开更多
文摘针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特性以及特征词采样等问题。首先建立评论及对应标签资源在信息熵相似度条件下的潜在关系,对该潜在关系使用随机游走方法获取各组资源和各组标签的权值系数,消除资源间的独立同分布。通过加权方法加权至每个资源的特征词,形成资源特征词和标签特征词的权重值系数。在此基础上构建联合特征词加权-LDA模型,通过迭代学习方法获取社会化标签资源的隐含主题知识。通过实验表明,提出的联合特征词加权-LDA相对于其他主题模型具有更好的主题识别效果。
文摘在线影评的情感词能够直观的表达观众的电影观后感,已成为情感分析研究的热点之一。如何针对海量纷繁的影评数据建立领域特有的情感词库来提高影评情感分析准确性是当前影评情感分析亟待解决的问题。本文提出了一种新的基于词间距和点互信息的中文影评情感词库构建方法。该方法首先结合影评语料和基础词典利用K-means++聚类选择出情感倾向明显的正负面种子词集;再利用词间距和点互信息(Distance of Word Point-wise Mutual Information,DW-PMI)算法计算出影评领域词与种子词的语义相似度,得到影评领域情感词表;最后将影评领域情感词表加入基础情感词典构建出中文影评情感词库。实验结果证明所构建的词库可显著提高中文影评情感分析的准确度。