-
题名基于词典和规则集的中文微博情感分析
被引量:67
- 1
-
-
作者
王志涛
於志文
郭斌
路新江
-
机构
西北工业大学计算机学院
陕西省嵌入式系统技术重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第8期218-225,共8页
-
基金
国家重点基础研究发展计划(973)(No.2012CB316400)
国家自然科学基金(No.61222209
+3 种基金
No.61103063)
教育部"新世纪优秀人才支持计划"(No.NCET-12-0466)
教育部高等学校博士学科点专项科研基金(博导类)(No.20126102110043)
陕西省自然科学基础研究计划项目(No.2012JQ8028)
-
文摘
通过对微博文本的特性分析,提取了中文微博情感分析的关键问题:如何识别微博新词并理解其情感含义?如何利用附加信息辅助文本情感分析?如何结合语言特性构造情感计算方法?针对第一个问题,利用统计信息和点间互信息对新词进行挖掘和情感识别,在40万条新浪微博数据中构建了新情感词词典,用于对已有情感词资源的扩充。对于后两个问题,提出了基于词典和规则集的中文微博情感分析方法。根据微博特性,在不同的语言层次上定义了规则,结合情感词典对微博文本进行了从词语到句子的多粒度情感计算,并以表情符号作为情感计算的辅助元素。通过对采集到的原创微博数据集进行实验,验证了该方法的有效性。
-
关键词
微博
新词挖掘
规则集
情感分析
-
Keywords
micro-blog
new word mining
rule set
sentiment analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于新词发现的环境管理专业词库构建及其实证应用
被引量:4
- 2
-
-
作者
王芷筠
常杪
周黎
郭培坤
谷美枫
-
机构
清华大学环境学院
攀枝花市生态环境局环境信息与技术评估服务中心
-
出处
《环境工程技术学报》
CSCD
北大核心
2021年第2期385-392,共8页
-
基金
北京市科技计划首都蓝天行动培育项目(Z191100009119010)。
-
文摘
随着我国环境政策法规数量的不断增加,采用纯人工方式对政策法规进行整理归纳和分析解读变得越来越困难。运用文本挖掘等计算机技术辅助开展环境政策法规信息提取、内容分析以及智能化管理应用具有重要意义。精准分词则是实现文本挖掘各项功能的必要条件。为改善政策法规文本分词效果,以我国各级生态环境部门官网发布的环境政策法规文本为语料基础,通过新词发现算法与人工补充修正构建得到环境管理专业词库。应用实证结果表明:添加专业词库能将政策法规文本的分词准确率由72.6%升至94.1%;将基于支持向量机模型的政策法规文本自动分类误判率降低22.7%;且添加词库后的词频统计和关键词提取结果能为环境政策法规分析提供更全面、更具有时效性的统计信息。
-
关键词
新词发现
环境政策
专业词库
文本挖掘
-
Keywords
new word discovery
environmental policy
lexicon
text mining
-
分类号
X11
[环境科学与工程—环境科学]
-
-
题名基于字单元分析的中文辅助阅读系统
被引量:1
- 3
-
-
作者
方高林
于浩
孟遥
邹纲
-
机构
富士通研究开发中心有限公司
-
出处
《中文信息学报》
CSCD
北大核心
2008年第2期92-98,共7页
-
文摘
辅助汉语学习研究作为一个重要的研究领域,已经在自然语言处理领域激发起越来越多人的兴趣。文中提出一个基于字分析单元的辅助阅读系统,它可以为汉语学习者提供即时的辅助翻译和学习功能。系统首先提出基于字信息的汉语词法分析方法,对汉语网页中文本进行分词处理,然后利用基于组成字结构信息的方法发现新词。对于通用词典未收录的新词(例如:专业术语、专有名词和固定短语),系统提出了基于语义预测和反馈学习的方法在Web上挖掘出地道的译文。对于常用词,系统通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体用法实例。该系统关键技术包括:基于字信息的汉语词法分析,基于组成字结构信息的新词发现,基于语义预测和反馈学习的新词译文获取,这些模块均以字分析单元的方法为主线,并始终贯穿着整个系统。实验表明该系统在各方面都具有良好的性能。
-
关键词
计算机应用
中文信息处理
词法分析
新词发现
术语翻译
WEB挖掘
辅助汉语学习
-
Keywords
computer application
Chinese information processing
morphological analysis
new word finding~ termtranslation
Web mining
computer-aided Chinese learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-