期刊文献+
共找到101篇文章
< 1 2 6 >
每页显示 20 50 100
基于层叠隐马尔可夫模型的中文命名实体识别 被引量:160
1
作者 俞鸿魁 张华平 +2 位作者 刘群 吕学强 《通信学报》 EI CSCD 北大核心 2006年第2期87-94,共8页
提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名... 提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。 展开更多
关键词 命名实体识别 角色标注 ICTCLAS
下载PDF
一种改进的基于《知网》的词语语义相似度计算 被引量:109
2
作者 江敏 肖诗斌 +1 位作者 王弘蔚 《中文信息学报》 CSCD 北大核心 2008年第5期84-89,共6页
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与&... 中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。 展开更多
关键词 计算机应用 中文信息处理 知网 词语相似度 义原 词语极性识别
下载PDF
一种通用HTML网页主题信息提取方法 被引量:11
3
作者 许文 都云程 +1 位作者 李渝勤 《现代图书情报技术》 CSSCI 北大核心 2007年第1期40-43,共4页
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。
关键词 DOM 信息提取 分块 相关度
下载PDF
基于同义词词林的中文文本主题词提取 被引量:11
4
作者 程涛 +1 位作者 王霞 吕学强 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期145-148,共4页
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下... 中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明。 展开更多
关键词 主题词提取 同义词词林 权值 同义词
下载PDF
一种结合超链接分析的搜索引擎排序方法 被引量:10
5
作者 吴明礼 《计算机工程》 CAS CSCD 北大核心 2004年第15期143-145,共3页
为了提高搜索引擎的检索性能,文章设计了一种搜索引擎的综合排序方法。它采用改进的布尔检索模式、中文分词、超链接分析以及索引链接文本等技术,主要具有以下特点:对经典布尔型检索模式所作的改进使得文档相关度不再是严格的0或1;超链... 为了提高搜索引擎的检索性能,文章设计了一种搜索引擎的综合排序方法。它采用改进的布尔检索模式、中文分词、超链接分析以及索引链接文本等技术,主要具有以下特点:对经典布尔型检索模式所作的改进使得文档相关度不再是严格的0或1;超链接分析通过互联网的链接结构计算出每个网络文档的质量;通过中文分词和索引链接文本可以更加准确地获得一个网络文档的信息内涵。将3者结合可以充分利用各自优势而弥补不足。 展开更多
关键词 搜索引擎 排序 布尔模式 链接分析
下载PDF
基于纳什均衡理论的网格资源调度机制 被引量:5
6
作者 刘丽 杨扬 +1 位作者 郭文彩 《计算机工程与应用》 CSCD 北大核心 2004年第29期106-108,共3页
网格环境下资源是分布的、异构的、动态的,由不同的组织拥有,各组织对资源的管理策略以及资源的存取花费各不相同,因此网格资源管理和调度是具有挑战性的问题。文章针对网格资源的特性,提出一种基于经济学理论的资源优化管理机制,描述... 网格环境下资源是分布的、异构的、动态的,由不同的组织拥有,各组织对资源的管理策略以及资源的存取花费各不相同,因此网格资源管理和调度是具有挑战性的问题。文章针对网格资源的特性,提出一种基于经济学理论的资源优化管理机制,描述了基于市场经济的网格资源管理模型,有效地解决了资源的供给和需求。以纳什均衡理论为基础,依靠市场机制,实现基于QoS的网格资源管理和调度。 展开更多
关键词 网格经济模型 基于QoS资源调度 纳什均衡
下载PDF
基于RSS的分布式博客搜索引擎的研究 被引量:6
7
作者 封硕 赵捧未 《情报杂志》 CSSCI 北大核心 2007年第8期96-97,共2页
针对传统搜索引擎对频繁更新的博客网站实时性搜索较差的问题,提出一种基于RSS的分布式博客搜索引擎的系统框架,通过划分网络区域,采取分布式的思想采集和索引博客网页的RSS结构化数据,从而达到了对频繁更新站点的实时性搜索,也降低了... 针对传统搜索引擎对频繁更新的博客网站实时性搜索较差的问题,提出一种基于RSS的分布式博客搜索引擎的系统框架,通过划分网络区域,采取分布式的思想采集和索引博客网页的RSS结构化数据,从而达到了对频繁更新站点的实时性搜索,也降低了搜索引擎的存储成本和数据冗余程度。 展开更多
关键词 搜索引擎 分布式 RSS 博客
下载PDF
基于内容的文档图像检索的特征抽取研究 被引量:9
8
作者 马永成 肖诗斌 +1 位作者 林春雨 《江西师范大学学报(自然科学版)》 CAS 北大核心 2008年第2期138-141,共4页
随着多媒体资源的飞速增长,多媒体检索技术成为当前检索技术的一个热点,该文将介绍文档图像这类特殊的多媒体资源检索技术中的特征提取方法.根据汉字特点,从几个角度,介绍了几种汉字图像块的特征提取方法及相应的相似度算法,并进行了试... 随着多媒体资源的飞速增长,多媒体检索技术成为当前检索技术的一个热点,该文将介绍文档图像这类特殊的多媒体资源检索技术中的特征提取方法.根据汉字特点,从几个角度,介绍了几种汉字图像块的特征提取方法及相应的相似度算法,并进行了试验测试,试验结果表明几种方法可行. 展开更多
关键词 文档图像 汉字特征提取 特征的相似度计算
下载PDF
用户兴趣分类在个性化搜索引擎中的应用 被引量:9
9
作者 李银松 +1 位作者 张玉杰 吕学强 《情报学报》 CSSCI 北大核心 2008年第4期535-540,共6页
个性化搜索引擎是指在普通搜索引擎的基础上,根据用户的背景,兴趣等调整排序算法,针对不同的用户提供不同的服务。本文对搜索引擎的排序算法和用户行为进行了深入细致的研究,通过隐性方法收集用户行为信息,统计并构建用户长期兴趣... 个性化搜索引擎是指在普通搜索引擎的基础上,根据用户的背景,兴趣等调整排序算法,针对不同的用户提供不同的服务。本文对搜索引擎的排序算法和用户行为进行了深入细致的研究,通过隐性方法收集用户行为信息,统计并构建用户长期兴趣模型,短期兴趣模型,时段兴趣模型等,利用向量相似度计算获取最适合用户当前状态的兴趣模型,最后将该兴趣模型结合到搜索引擎的排序算法中,影响文档得分,实现结果集的个性化排序。实验证明,该方法简单有效,可以增加搜索引擎对用户兴趣的应变能力。 展开更多
关键词 信息检索 个性化搜索引擎 用户兴趣分类 LUCENE
下载PDF
基于OpenURL的开放链接服务之原型研究 被引量:8
10
作者 吴春峰 《现代图书情报技术》 CSSCI 北大核心 2005年第12期55-58,共4页
分析了传统链接的一些缺陷,参考了OpenURL1.0的框架,对开放链接服务进行了研究和分析,提出了一个基于OpenURL1.0的开放链接服务原型的实现方案。该方案可以应用于数字图书馆的数字资源整合。
关键词 OPENURL 开放链接服务 知识库 链接源 链接目标
下载PDF
基于分解转移矩阵的PageRank迭代计算方法 被引量:4
11
作者 刘松彬 都云程 《中文信息学报》 CSCD 北大核心 2007年第5期41-45,共5页
本文提出了一种基于分解转移矩阵的PageRank的迭代计算方法。该方法对PageRank理论模型进一步推导,把其Markov状态转移矩阵进行了分解,从而降低存储开销和计算复杂度,减少I/O需求,使得PageRank计算的工程化实现更为简单。实验表明1 700... 本文提出了一种基于分解转移矩阵的PageRank的迭代计算方法。该方法对PageRank理论模型进一步推导,把其Markov状态转移矩阵进行了分解,从而降低存储开销和计算复杂度,减少I/O需求,使得PageRank计算的工程化实现更为简单。实验表明1 700多万的网页2.8亿条链接,可以在30秒内完成一次迭代,内存需求峰值585MB,可以满足工程化应用的需求。 展开更多
关键词 计算机应用 中文信息处理 PAGERANK 搜索引擎 Markov状态转移矩阵 矩阵分解
下载PDF
网络空间的舆情态势感知 被引量:9
12
作者 张丕翠 杨建武 《信息安全研究》 2019年第11期1013-1020,共8页
随着互联网的发展,网络舆情对社会的影响愈加凸显,日益受到党政机关和企业的广泛关注.为了有效提升网络舆情的发现力、研判力和评估力,研究了基于态势感知的网络舆情监测分析技术.首先提出了网络舆情态势感知分析模型,并探讨了其实现的... 随着互联网的发展,网络舆情对社会的影响愈加凸显,日益受到党政机关和企业的广泛关注.为了有效提升网络舆情的发现力、研判力和评估力,研究了基于态势感知的网络舆情监测分析技术.首先提出了网络舆情态势感知分析模型,并探讨了其实现的技术方法.然后通过实际应用案例,具体阐述了网络舆情态势感知系统中指标体系的构建方法和技术系统的实现方案.该案例系统在融合多舆论场舆情要素的基础上,构建了有效的量化指标体系,从宏观的角度实现网络舆情的状态评估,并在一定条件下对网络舆情的发展趋势进行预测,实现了对网络舆情信息和事件的全面感知和实时预警.以此为基础,可进一步研究与业务进行联动的机制,实现网络舆情监测应对的业务闭环. 展开更多
关键词 网络舆情 态势感知 指标体系 研判分析 实时预警 趋势预测
下载PDF
基于改进的隐马尔科夫模型的网页新闻关键信息抽取 被引量:9
13
作者 刘志强 都云程 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第3期120-128,共9页
【目的】通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题,并根据应用场景对算法做出改进以提高抽取效果。【方法】将网页文档转为DOM树并进行预处理,映射待抽取信息项为状态,映射待抽取观测项为词汇,研究... 【目的】通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题,并根据应用场景对算法做出改进以提高抽取效果。【方法】将网页文档转为DOM树并进行预处理,映射待抽取信息项为状态,映射待抽取观测项为词汇,研究隐马尔科夫模型在网页新闻关键信息抽取中的应用并对算法提出改进。【结果】使用隐马尔科夫模型的改进算法,在已构建抽取模型的网站中,平均准确率可达97%。【局限】抽取模型在分类能力上稍有不足,无法对细微差别信息进行准确抽取。【结论】该方法具有识别准确率高、建模能力强、训练数据小、训练速度快的优点。 展开更多
关键词 信息抽取 隐马尔科夫模型 机器学习 DOM树
原文传递
基于数字纸张的信息检索和数据挖掘技术 被引量:6
14
作者 孙丽华 《现代图书情报技术》 CSSCI 北大核心 2005年第1期9-11,共3页
随着数字纸张概念的提出和相关产业的日益发展,基于数字纸张的应用需求日益迫切,满足这些 应用的软件解决方案中的一个核心内容就是数字纸张的内容管理,其中最基本最核心的两项技术是信息检索 技术和数据挖掘技术,本文重点地阐述了这两... 随着数字纸张概念的提出和相关产业的日益发展,基于数字纸张的应用需求日益迫切,满足这些 应用的软件解决方案中的一个核心内容就是数字纸张的内容管理,其中最基本最核心的两项技术是信息检索 技术和数据挖掘技术,本文重点地阐述了这两项技术的最新应用成果。 展开更多
关键词 数字纸张 信息检索 数据挖掘
下载PDF
基于话题检测的自适应增量K-means算法 被引量:6
15
作者 李胜东 吕学强 +1 位作者 孙军 《中文信息学报》 CSCD 北大核心 2014年第6期190-193,共4页
根据话题检测任务的定义和特点,本文分析了传统的增量聚类算法和K-means算法的优缺点,提出了基于话题检测的自适应增量K-means算法,设计了话题检测实验,实验结果证明了该算法提高了话题检测性能,具有良好的应用前景。
关键词 话题检测 增量聚类 K-MEANS算法 话题检测与跟踪评测
下载PDF
基于大规模语料的新词语识别方法 被引量:5
16
作者 俞鸿魁 +1 位作者 吕学强 李渝勤 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期89-91,共3页
根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的... 根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的系统,可以抽取不限长度不限领域的新词语. 展开更多
关键词 新词语 流行语 语料库
下载PDF
网络舆情预警研究综述 被引量:6
17
作者 迪路阳 钟寒 《数据分析与知识发现》 CSSCI CSCD 北大核心 2023年第8期17-29,共13页
【目的】综述网络舆情预警的发展态势,总结网络舆情预警的研究内容与进展。【文献范围】在Web of Science核心数据库和CNKI分别以舆情预警、网络舆情、舆情风险等相关词汇作为关键词进行检索,经阅读筛选,共选取52篇能够代表学科基础与... 【目的】综述网络舆情预警的发展态势,总结网络舆情预警的研究内容与进展。【文献范围】在Web of Science核心数据库和CNKI分别以舆情预警、网络舆情、舆情风险等相关词汇作为关键词进行检索,经阅读筛选,共选取52篇能够代表学科基础与前沿发展态势的文献进行综合述评。【方法】从网络舆情特性与风险评价指标的角度归纳网络舆情预警的基础,总结当前网络舆情预警的研究进展与不足之处。【结果】目前主要相关研究分别基于专家赋权、机器学习、传播过程、情感分析4个方法类别,均能在适用场景下准确预警网络舆情的风险等级,这对网络环境以及社会安定具有重要意义。【局限】网络舆情风险应对研究中,针对政府管控对策的文献较多,出于对预警的侧重,只选择部分有关预警技术的文献进行分析。【结论】目前相关工作对网络舆情的概念过于细分,不具有普适性;风险评价指标尚需完善;验证过程相对片面,缺乏权威统一的标准来比较不同监测系统的优劣。 展开更多
关键词 网络舆情 舆情监测 风险评估 舆情预警
原文传递
跨语言相似文档检索 被引量:4
18
作者 王洪俊 +1 位作者 俞士汶 肖诗斌 《中文信息学报》 CSCD 北大核心 2007年第1期30-37,共8页
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种... 检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。 展开更多
关键词 计算机应用 中文信息处理 跨语言相似文档检索 文档相似度 双语文档对齐
下载PDF
基于句子相似度计算的信息抽取 被引量:4
19
作者 廉站俊 吕学强 +1 位作者 张玉杰 《现代图书情报技术》 CSSCI 北大核心 2007年第6期38-41,共4页
提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算,对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试,取得较好效果。
关键词 信息抽取 概率分布 主题 句子相似度计算
下载PDF
基于改进的潜在语义分析的文本聚类 被引量:5
20
作者 宋涛 +1 位作者 房祥 吕学强 《北京信息科技大学学报(自然科学版)》 2012年第3期21-25,共5页
文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于... 文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。 展开更多
关键词 潜在语义分析 权重计算 奇异值分解 K-MEANS 文本聚类
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部