期刊文献+
共找到167篇文章
< 1 2 9 >
每页显示 20 50 100
基于双重注意力模型的微博情感分析方法 被引量:49
1
作者 郑佳 +1 位作者 黄改娟 蒋玉茹 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第2期122-130,共9页
微博情感分析是获取微博用户观点的基础。该文针对现有大多数情感分析方法将深度学习模型与情感符号相剥离的现状,提出了一种基于双重注意力模型的微博情感分析方法。该方法利用现有的情感知识库构建了一个包含情感词、程度副词、否定... 微博情感分析是获取微博用户观点的基础。该文针对现有大多数情感分析方法将深度学习模型与情感符号相剥离的现状,提出了一种基于双重注意力模型的微博情感分析方法。该方法利用现有的情感知识库构建了一个包含情感词、程度副词、否定词、微博表情符号和常用网络用语的微博情感符号库;采用双向长短记忆网络模型和全连接网络,分别对微博文本和文本中包含的情感符号进行编码;采用注意力模型分别构建微博文本和情感符号的语义表示,并将两者的语义表示进行融合,以构建微博文本的最终语义表示;基于所构建的语义表示对情感分类模型进行训练。该方法通过将注意力模型和情感符号相结合,有效增强了对微博文本情感语义的捕获能力,提高了微博情感分类的性能。基于自然语言处理与中文计算会议(NLPCC)微博情感测评公共数据集,对所提出的模型进行评测,结果表明:该模型在多个情感分类任务中都取得了最佳效果,相对于已知最好的模型,在2013年的数据集上,宏平均和微平均的F1值分别提升了1.39%和1.26%,在2014年的数据集上,宏平均和微平均的F1值分别提升了2.02%和2.21%。 展开更多
关键词 情感分析 双重注意力模型 微博 语义表示 情感符号
原文传递
文本自动校对技术研究综述 被引量:39
2
作者 俞士汶 《计算机应用研究》 CSCD 北大核心 2006年第6期8-12,共5页
概述了文本自动校对技术的产生背景,分析了中西文文本的各自特点以及它们之间的异同,对中西文文本校对的技术难点和解决方法以及国内外的研究现状进行了回顾和评述,探讨了文本校对技术未来的发展方向及需要解决的问题。
关键词 文本自动校对 孤立词校对策略 上下文相关的校对策略 语言模型
下载PDF
面向多数据源的网络爬虫实现技术及应用 被引量:44
3
作者 曾健荣 +2 位作者 郑佳 黄改娟 陈若愚 《计算机科学》 CSCD 北大核心 2019年第5期304-309,共6页
基于大数据技术的社会计算方法是目前学术界研究的热点,如何从网络上快速获取相应的数据资源是相关研究的关键。网络爬虫技术是目前进行网络数据采集的主要手段,针对现有爬虫技术不便于采集多源数据的问题,提出了一种面向多数据源的网... 基于大数据技术的社会计算方法是目前学术界研究的热点,如何从网络上快速获取相应的数据资源是相关研究的关键。网络爬虫技术是目前进行网络数据采集的主要手段,针对现有爬虫技术不便于采集多源数据的问题,提出了一种面向多数据源的网络爬虫数据采集技术,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等6类媒体平台的数据采集爬虫的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,并提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。 展开更多
关键词 数据采集 网络爬虫 多数据源 数据展示 信息处理
下载PDF
基于二元接续关系检查的字词级自动查错方法 被引量:29
4
作者 丁冰青 《中文信息学报》 CSCD 北大核心 2001年第3期36-43,共8页
本文探讨了基于字字同现、词性二元接续和语义二元接续的中文文本的自动查错原理和查错算法 ;给出了字词接续判断模型 ,并讨论了与接续判断模型相关的查错知识库的构造方法。通过对实验结果的分析和评测 ,证明本文所述方法是可行的。
关键词 中文文本自动校对 自动查错 二元接续关系
下载PDF
基于词内部结合度和边界自由度的新词发现 被引量:35
5
作者 李文坤 陈若愚 《计算机应用研究》 CSCD 北大核心 2015年第8期2302-2304,2342,共4页
新词发现作为自然语言处理领域的一项基础研究,一直受到学术界和企业界的广泛关注。将新词发现问题转换为确定词语边界问题。首先对语料进行中文分词,然后统计"散串",最后提出一种基于词内部结合度和边界自由度的新词发现方... 新词发现作为自然语言处理领域的一项基础研究,一直受到学术界和企业界的广泛关注。将新词发现问题转换为确定词语边界问题。首先对语料进行中文分词,然后统计"散串",最后提出一种基于词内部结合度和边界自由度的新词发现方法。通过在大规模语料上进行新词发现实验,验证了该方法的有效性。今后的研究重点将放在如何有效地识别低频新词上,以提高系统的整体性能。 展开更多
关键词 新词发现 内部结合度 边界自由度
下载PDF
直线往复式轨道自动导引车智能调度算法 被引量:28
6
作者 桂琴 《计算机工程》 CAS CSCD 北大核心 2009年第15期176-178,181,共4页
以某自动化立体仓库系统为例,介绍运行于单条轨道上的2辆直线往复式轨道自动导引车(RGV)的智能调度算法和避碰防撞算法,解决2辆RGV的相向碰撞和同向追尾问题,在不相撞的前提下合理高效地向2辆RGV分配任务。实际应用结果表明,该算法能有... 以某自动化立体仓库系统为例,介绍运行于单条轨道上的2辆直线往复式轨道自动导引车(RGV)的智能调度算法和避碰防撞算法,解决2辆RGV的相向碰撞和同向追尾问题,在不相撞的前提下合理高效地向2辆RGV分配任务。实际应用结果表明,该算法能有效提高工作效率。 展开更多
关键词 自动化立体仓库 智能调度算法 直线往复式轨道自动导引车 避碰算法
下载PDF
微博文本的句向量表示及相似度计算方法研究 被引量:21
7
作者 段旭磊 孙祎卓 《计算机工程》 CAS CSCD 北大核心 2017年第5期143-148,共6页
在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子... 在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子中的每个词映射到高维词库形成句向量。对比3种训练句向量的方法,选出最适合微博领域的模型。实验结果表明,采用高维词库映射的方法对微博的句向量计算的效果最佳。 展开更多
关键词 微博文本 相似度计算 词向量 高维词库 句向量
下载PDF
中文文本语义错误侦测方法研究 被引量:20
8
作者 郑佳 《计算机学报》 EI CSCD 北大核心 2017年第4期911-924,共14页
中文文本语义错误侦测一直以来都是中文文本自动查错的难点.该文针对中文文本语义错误,提出了一种基于语义搭配知识库和证据理论的语义错误侦测模型.讨论了三层语义搭配知识库的构建以及基于该知识库和证据理论的语义错误侦测算法.三层... 中文文本语义错误侦测一直以来都是中文文本自动查错的难点.该文针对中文文本语义错误,提出了一种基于语义搭配知识库和证据理论的语义错误侦测模型.讨论了三层语义搭配知识库的构建以及基于该知识库和证据理论的语义错误侦测算法.三层语义搭配知识库的构建主要分为两步:(1)根据《现代汉语实词搭配词典》中的实词搭配框架构建词语搭配规则集,从训练语料中抽取词语搭配,并利用互信息和共现频次进行筛选,构建词语搭配知识库;(2)利用《HowNet》抽取词语的义原信息,生成词语-义原和义原-义原搭配知识库,并利用聚合度进行二次筛选.在三层语义搭配知识库的基础上,首先对知识库采用自顶向下的搜索模式确定可能错误的语义搭配,然后使用语义搭配的互信息量MI和聚合度PD作为证据,采用统计的方法建立证据信任分配函数,结合证据的冲突处理和加权分配D-S规则进行不确定性推理,获取词语的语义搭配关联强度,以判定是否存在语义错误.实验结果显示,该文所提出的查错模型和算法的F-Score值比其他文献中的最好值提高了14.02%. 展开更多
关键词 语义错误 知识库 D-S理论 语义搭配 错误侦测算法 自然语言处理 社会媒体
下载PDF
中文文本自动校对技术现状及展望 被引量:14
9
作者 丁冰青 《中文信息学报》 CSCD 北大核心 1998年第3期50-56,共7页
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。
关键词 中文文本 自动校对 自动查错 确认纠错 展望
下载PDF
自然语言处理中的语言模型及其比较研究 被引量:11
10
作者 徐波 曹元大 《广西师范大学学报(自然科学版)》 CAS 2003年第A01期16-24,共9页
就自然语言处理中的各种语言模型进行了深入的分析、比较,就各模型的本质及它们之间的关系进行了探讨,并就语言模型的建立方法及解决建立过程中所遇问题的方法进行了讨论.
关键词 自然语言处理 语言模型 统计分析 语言模型的建立
下载PDF
中文校对系统中纠错知识库的构造及纠错建议的产生算法 被引量:11
11
作者 《中文信息学报》 CSCD 北大核心 2001年第5期33-39,共7页
本文依据待校对文本中的常见错误类型介绍了纠错知识库的构造方法以及基于该纠错知识库的自动纠错算法。该算法通过利用出错字串的特征 ,结合上下文启发信息 ,可有效地对文本中的别字、漏字、多字、易位、多字替换等错误提供纠错建议。
关键词 纠错知识库 纠错建议 纠错算法 似然匹配 中文校对系统 排序方法
下载PDF
基于Hadoop的分布式搜索引擎关键技术 被引量:15
12
作者 王俊生 施运梅 《北京信息科技大学学报(自然科学版)》 2011年第4期53-56,61,共5页
实现了基于Hadoop的分布式搜索引擎,着重讨论了实现分布式搜索引擎涉及的3个关键性技术:索引表的建立、分词的处理和索引前的预处理。通过实验对比了集中式搜索引擎和分布式搜索引擎,结果表明了基于hadoop的分布式搜索引擎在处理数据方... 实现了基于Hadoop的分布式搜索引擎,着重讨论了实现分布式搜索引擎涉及的3个关键性技术:索引表的建立、分词的处理和索引前的预处理。通过实验对比了集中式搜索引擎和分布式搜索引擎,结果表明了基于hadoop的分布式搜索引擎在处理数据方面强劲的优势。 展开更多
关键词 HADOOP 分布式搜索引擎 MAP/REDUCE 索引表 分词
下载PDF
基于多特征融合的微博用户权威度定量评价方法 被引量:16
13
作者 郑佳 唐安杰 《电子学报》 EI CAS CSCD 北大核心 2017年第11期2800-2809,共10页
微博用户权威度是评价微博信息可靠性的重要因素之一.本文针对微博用户权威度的定量计算提出了一种基于多特征融合的微博用户权威度定量评价模型.首先,提出了用户权威度的概念,将其定义为用户影响力和被信服度两部分组成;在暂不考虑用... 微博用户权威度是评价微博信息可靠性的重要因素之一.本文针对微博用户权威度的定量计算提出了一种基于多特征融合的微博用户权威度定量评价模型.首先,提出了用户权威度的概念,将其定义为用户影响力和被信服度两部分组成;在暂不考虑用户领域影响因子的情况下,基于新浪微博数据,抽取出微博用户信息传播影响力、用户信息完整度、用户活跃度以及用户平台认证指数4项评价特征,以构建了用户权威度定量计算模型;然后,采用层次分析法对所构建模型的4项评价特征的权值进行确定,并分别给出了4项评价特征的提取算法.同时,在用户关注关系网络的基础上,提出了一种基于用户被关注价值的用户信息传播影响力模型UIRank,并通过实验验证了其比PageRank算法更加有效.实验结果表明,本文提出的微博用户权威度定量计算模型比较合理,为用户权威度的定量评价提供了一种可行的解决方案. 展开更多
关键词 微博 用户权威度 用户影响力 UIRank 层次分析法
下载PDF
面向微博热点事件的话题检测及表述方法研究 被引量:15
14
作者 周炜翔 《计算机应用研究》 CSCD 北大核心 2019年第12期3565-3569,3578,共6页
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采... 针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。 展开更多
关键词 文本聚类 IDLDA-ITextRank模型 话题抽取 话题表述
下载PDF
基于姓氏驱动的中国姓名自动识别方法 被引量:8
15
作者 徐波 +1 位作者 曹元大 宗成庆 《计算机工程与应用》 CSCD 北大核心 2003年第4期62-65,共4页
文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的... 文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的500个含有人名的句子进行测试,表明:中国姓名召回率达89.2%,精确率达93.15%。 展开更多
关键词 人名识别知识库 中国姓名识别 分级加权模型 姓氏驱动 自动识别
下载PDF
基于LDA模型和多层聚类的微博话题检测 被引量:15
16
作者 刘红兵 李文坤 《计算机技术与发展》 2016年第6期25-30,36,共7页
随着微博这一新兴社交媒体的广泛应用,以微博为背景的相关研究不断涌现,其中基于微博的话题检测是当前研究的热点之一。结合微博文本的相关特点,文中提出了一种基于LDA模型和多层聚类的微博话题检测方法。首先,通过LDA模型对微博数据建... 随着微博这一新兴社交媒体的广泛应用,以微博为背景的相关研究不断涌现,其中基于微博的话题检测是当前研究的热点之一。结合微博文本的相关特点,文中提出了一种基于LDA模型和多层聚类的微博话题检测方法。首先,通过LDA模型对微博数据建模并提取特征;其次,利用改进的Single-Pass聚类和层次聚类对微博数据进行聚类,从而发现热点话题。通过在大规模微博数据上进行话题检测实验,通过LDA建模比通过TF-IDF进行特征选择和权重计算效果好;改进的Single-Pass聚类能够处理第一遍Single-Pass聚类未处理的微博,提高了初步聚类的精度,并且为下一步层次聚类减少了时间;多层聚类的聚类效果在准确率、召回率和F值三方面均比单一聚类算法的聚类效果好。显然,文中的话题检测方法是可行的,也是有效的。 展开更多
关键词 LDA模型 话题检测 改进的Single—Pass聚类 层次聚类
下载PDF
智能化立体仓库入库货位分配的综合优化算法 被引量:13
17
作者 刘安宇 《计算机科学》 CSCD 北大核心 2010年第12期175-177,189,共4页
智能化立体仓库对现代企业提高仓储利用率和生产效率具有重要作用。介绍了秦皇岛港务集团公司立体仓库管理系统中仓库货位计算机分配的智能化算法,该算法充分考虑了重量均匀分布、就近货位选择、备件品种均匀分布、备件使用率、货位空... 智能化立体仓库对现代企业提高仓储利用率和生产效率具有重要作用。介绍了秦皇岛港务集团公司立体仓库管理系统中仓库货位计算机分配的智能化算法,该算法充分考虑了重量均匀分布、就近货位选择、备件品种均匀分布、备件使用率、货位空置时间等因素,根据整个仓库的当前状态计算入库货位,为入库货位的选择提供辅助决策。实际项目运行表明,所提的综合货位优化分配算法是有效的,对提高仓库的安全性、入库工作效率等具有非常重要的意义。 展开更多
关键词 立体仓库 货位分配算法 重量均匀分布 备件品种均匀分布 就近原则
下载PDF
一种面向文本分类的特征向量优化方法 被引量:13
18
作者 郭正斌 蒋玉茹 《计算机应用研究》 CSCD 北大核心 2017年第8期2299-2302,2348,共5页
对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先利用剔除近义词方法优化文本向量中的特征项;然后提出贡献率因子的概念,并利... 对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先利用剔除近义词方法优化文本向量中的特征项;然后提出贡献率因子的概念,并利用其优化特征值。实验表明,相比朴素贝叶斯分类方法其效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到优化特征向量、提高文本分类效果的目的。 展开更多
关键词 机器学习 Mahout 特征向量 向量优化 文本分类
下载PDF
计算机学科教师实践能力发展探究 被引量:13
19
作者 杨大利 路旭强 《计算机教育》 2010年第8期80-83,共4页
本文根据计算机学科的特点以及培养应用型人才对专业教师工程实践能力的要求,阐述了新形势下提高教师工程实践能力的意义。在分析了计算机专业教师在实践能力方面的现状和问题之后,文章依据系统思考模式的思想,提出发展和提高专业教师... 本文根据计算机学科的特点以及培养应用型人才对专业教师工程实践能力的要求,阐述了新形势下提高教师工程实践能力的意义。在分析了计算机专业教师在实践能力方面的现状和问题之后,文章依据系统思考模式的思想,提出发展和提高专业教师实践动手能力的途径和措施,比如改善教师的组成结构、减少不必要的评比与考核等。这些改革的目标是建设一支既具有较高文化素质、业务技能素质,又具有较强动手实践能力的专业教师队伍。 展开更多
关键词 计算机学科 专业教师 实践能力 专业素质
下载PDF
基于《知网》义原搭配的中文文本语义级自动查错研究 被引量:12
20
作者 郭充 《计算机工程与设计》 CSCD 北大核心 2010年第17期3924-3928,共5页
语义级的自动查错一直是汉语文本自动校对技术的难点。针对汉语文本中的语义搭配错误,提出了一种基于《知网》义原搭配的有效的自动查错方法,主要包括语义知识库的构建和自动查错算法。语义知识库的构建分为两步:①根据规则从训练语料... 语义级的自动查错一直是汉语文本自动校对技术的难点。针对汉语文本中的语义搭配错误,提出了一种基于《知网》义原搭配的有效的自动查错方法,主要包括语义知识库的构建和自动查错算法。语义知识库的构建分为两步:①根据规则从训练语料中统计出大量的动词与名词之间的二元搭配组合,并利用互信息等因素筛选记录;②利用《知网》对词语义项的义原描述(对于动词抽取其义项中的主义原,名词抽取其义项中的主义原和常见的4个辅助义原),将动词与名词的二元搭配组合转变为义原之间相互制约的多元组合。在语义知识库的基础上设计相应的自动查错算法。实验结果显示,该方法的召回率为35%,精确率为82.3%,具有较好的应用前景。 展开更多
关键词 语义搭配错误 互信息 知网 义原 语义知识库
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部