期刊文献+
共找到469篇文章
< 1 2 24 >
每页显示 20 50 100
中文搜索引擎的原理剖析及开发实现技术 被引量:19
1
作者 李志蜀 李果 《计算机应用研究》 CSCD 北大核心 2001年第11期96-99,共4页
介绍了当前搜索引擎的分类、现状及中文搜索引擎的发展 ,剖析了中文搜索引擎采用的核心技术—全文检索与中文分词技术 ,探讨了编程中应注意的问题和部分实现技术 。
关键词 中文搜索引擎 中文分词 信息查询 INTERNET 中文信息处理
下载PDF
基于改进最大匹配算法的中文分词粗分方法 被引量:18
2
作者 周俊 郑中华 张炜 《计算机工程与应用》 CSCD 2014年第2期124-128,共5页
中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语... 中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。 展开更多
关键词 中文分词 最大匹配 广义词 诱导词集
下载PDF
基于文本挖掘的用电客户诉求智能聚类研究 被引量:17
3
作者 梁浩波 《广东电力》 2016年第8期45-50,66,共7页
从95598供电服务热线来电内容中挖掘用电客户服务需求来提升95598客户服务能力,基于此,提出了1套基于文本挖掘技术的用电客户诉求的智能聚类模型并通过开源技术将其系统化实现,该系统能够将用电客户来电内容的文本信息进行智能聚类并归... 从95598供电服务热线来电内容中挖掘用电客户服务需求来提升95598客户服务能力,基于此,提出了1套基于文本挖掘技术的用电客户诉求的智能聚类模型并通过开源技术将其系统化实现,该系统能够将用电客户来电内容的文本信息进行智能聚类并归类到不同诉求主题,进而得到用电客户的诉求热点,为实现精准的客户服务提供决策支持。实验表明,该系统能够有效地进行客户诉求文本的智能聚类,具有较高的聚类准确率。 展开更多
关键词 文本挖掘 文本聚类 中文分词 文本表示 客户诉求
下载PDF
基于无向图序列标注模型的中文分词词性标注一体化系统 被引量:12
4
作者 朱聪慧 赵铁军 郑德权 《电子与信息学报》 EI CSCD 北大核心 2010年第3期700-704,共5页
在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模... 在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模型中。由于可以采用更深层次的依赖关系作为特征,一体化系统在1998年人民日报语料上取得了97.19%的分词精确率和95.34%的词性标注精确率,是目前同类系统,在这一语料上取得的最好结果。 展开更多
关键词 中文分词 词性标注 一体化系统 无向图模型
下载PDF
中文医疗文本匿名化方法研究 被引量:6
5
作者 徐益辉 姚琴 +2 位作者 袁冬生 周天舒 李劲松 《中国数字医学》 2014年第7期19-21,共3页
医疗文档的匿名化工作能够有效保护患者隐私,推动中国电子病历匿名化的发展。但传统的人工筛检患者隐私信息方法不仅效率低下,错检、漏检频繁,且消耗大量人力资源。针对这一问题,引入中文分词技术,提出并实现了一种基于中文分词技术的... 医疗文档的匿名化工作能够有效保护患者隐私,推动中国电子病历匿名化的发展。但传统的人工筛检患者隐私信息方法不仅效率低下,错检、漏检频繁,且消耗大量人力资源。针对这一问题,引入中文分词技术,提出并实现了一种基于中文分词技术的识别并处理中文人名的算法。该方法通过对医疗文本当中的自然句切割和切词以及充分挖掘姓名和其上下文信息的关联程度,实现了在电子病历中批量处理中文医疗文档。通过此方法,人名的检出率达到96.80%,超过临床人员对PHI的人工平均检出率81%,同时获得了90.57%的精确率。在保护患者隐私的同时,最大化地减少匿名化对医疗文档临床医用价值的影响。 展开更多
关键词 中文分词 隐私保护 关联信息
下载PDF
智能时代的网络舆情分析技术应用 被引量:1
6
作者 周洪斌 贾苏 许礼捷 《微型电脑应用》 2023年第12期66-68,共3页
网络舆情具有集中式、爆发式的特点,因此对网络舆情进行s及时有效的分析是当今社会治理必须面对的问题。智能技术的发展为网络舆情数据的高效收集、分析提供了全新的方式、方法。采用网络爬虫、中文分词以及文本情感分析技术,实现新闻... 网络舆情具有集中式、爆发式的特点,因此对网络舆情进行s及时有效的分析是当今社会治理必须面对的问题。智能技术的发展为网络舆情数据的高效收集、分析提供了全新的方式、方法。采用网络爬虫、中文分词以及文本情感分析技术,实现新闻评论的自动化采集、可视化分析,为网络舆情分析与引导提供帮助。 展开更多
关键词 网络舆情分析 网络爬虫 中文分词 文本情感分析
下载PDF
一种基于新词发现的Web文本表示方法 被引量:4
7
作者 吴春颖 王士同 蔡崇超 《计算机应用》 CSCD 北大核心 2008年第3期764-767,共4页
Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经... Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经常有新词出现,因此在VSM基础上提出了一种基于新词发现的Web文本表示方法:首先进行预处理将网页转化为文本;然后进行文本分词;接着通过二元互信息进行新词发现,同时把新词加入字典重新分词;最后用词和新词共同来表示Web文本。实验结果表明,该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,提高Web文本分类效果。 展开更多
关键词 中文分词 二元语法 互信息 新词发现 Web文本表示
下载PDF
基于朴素贝叶斯分类的Java课程网络答疑反馈系统 被引量:5
8
作者 姜利群 《电脑知识与技术(过刊)》 2016年第8X期206-208,共3页
网络答疑系统是现代教育技术扩展课堂教学的一个重要举措。采用朴素贝叶斯分类算法,开发了Java课程网络答疑反馈系统,它辅助教师进行答疑解惑,并能对学生的问题进行分类并反馈给教师,由此帮助教师改进课堂教学。
关键词 朴素贝叶斯 中文分词 文本分类 网络答疑反馈系统
下载PDF
基于Lucene的全文检索系统模型的研究和开发 被引量:4
9
作者 朱岸青 黄杰 《暨南大学学报(自然科学与医学版)》 CAS CSCD 北大核心 2009年第5期504-508,共5页
设计实现了一个基于Lucene的全文检索系统模型.在该系统模型中,针对中文分词实现了基于词库的采用正向最大匹配算法的中文分词模块;针对多种格式文档的处理采用接口实现的方式和动态实例化的方法,实现了可以有效地处理txt、xml、html、... 设计实现了一个基于Lucene的全文检索系统模型.在该系统模型中,针对中文分词实现了基于词库的采用正向最大匹配算法的中文分词模块;针对多种格式文档的处理采用接口实现的方式和动态实例化的方法,实现了可以有效地处理txt、xml、html、pdf、doc和rtf等常见格式文档. 展开更多
关键词 全文检索 中文分词 格式文档
下载PDF
中文分词算法之最大匹配算法的研究 被引量:5
10
作者 张玉茹 《现代计算机》 2011年第16期24-26,共3页
对当前中文分词算法中的最大匹配算法进行研究,详细分析用该算法的长词优先原则进行分词切分,分析最大匹配算法的分类和用简单的例子阐明算法思想,并同时指出最大匹配算法所存在的缺点,提出优化设想。
关键词 中文分词 最大匹配 缺点 优化
下载PDF
基于Trie树的京剧术语语义词典 被引量:3
11
作者 乐娟 《计算机工程》 CAS CSCD 北大核心 2011年第S1期30-32,共3页
现有的中文分词系统缺少专业分词组件,难以满足特定领域术语分词的需求,导致专业领域分词精确度较低。为此,提出基于Trie树的京剧术语词典。扩展主流词库,通过定义语义代码的方式建立京剧专业术语之间的语义联系,并利用双数组算法实现T... 现有的中文分词系统缺少专业分词组件,难以满足特定领域术语分词的需求,导致专业领域分词精确度较低。为此,提出基于Trie树的京剧术语词典。扩展主流词库,通过定义语义代码的方式建立京剧专业术语之间的语义联系,并利用双数组算法实现Trie。实验结果表明,加入专业术语词典可以提高系统的分词准确率。 展开更多
关键词 中文分词 分词词典 京剧术语 语义词典 双数组Trie
下载PDF
基于分词的垃圾邮件过滤系统设计与分析 被引量:2
12
作者 唐朝晖 傅建明 杜南山 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2005年第S2期191-194,共4页
以字为单位处理中文邮件存在着很大困难,针对于此,笔者引进中文分词算法,设计并实现了基于分词的垃圾邮件过滤系统,并且阐述了与实现相关的3个关键算法:用于关键词匹配的多模式相似/精确匹配算法,用于中文邮件处理的中文分词算法,以及... 以字为单位处理中文邮件存在着很大困难,针对于此,笔者引进中文分词算法,设计并实现了基于分词的垃圾邮件过滤系统,并且阐述了与实现相关的3个关键算法:用于关键词匹配的多模式相似/精确匹配算法,用于中文邮件处理的中文分词算法,以及用于特征提取的N元特征提取算法.最后实验证明了该系统对中英文垃圾邮件过滤都有很高的性能.另外,文章第三部分还给出了基于分词的非垃圾邮件分类系统的设计与实现. 展开更多
关键词 垃圾邮件 多模式相似/精确匹配 中文分词 N元特征提取
下载PDF
基于Re-Perceptron-CRF的规范类文本分词研究
13
作者 李宝林 刘宇韬 《成都信息工程大学学报》 2023年第3期298-305,共8页
通过Re-Perceptron-CRF组合方法,利用规范类文档特点,对关键词进行切分。分别采取Viterbi、Perceptron、CRF和Re-Perceptron-CRF 4种算法分别对规范类文本进行分词研究。具体为基于句法分析对规范类文本使用正则表达式进行标准化处理,... 通过Re-Perceptron-CRF组合方法,利用规范类文档特点,对关键词进行切分。分别采取Viterbi、Perceptron、CRF和Re-Perceptron-CRF 4种算法分别对规范类文本进行分词研究。具体为基于句法分析对规范类文本使用正则表达式进行标准化处理,得到适合分析的预处理文本,并通过Perceptron与CRF的双重算法返回各自的最优结果。实验表明,Re-Perceptron-CRF算法明显提高分词效果,在准确率和召回率上均有良好表现,其准确率和召回率分别达到94.36%和97.02%。该方法为规范类文本中文分词相关工作提供一定的研究思路,为后续应用提供好的数据支撑。但由于数据量较小,该方法仅适用于特定领域,如建筑检测领域。 展开更多
关键词 管理科学与工程 文本分析 中文分词 Re-Perceptron-CRF 词性标注
下载PDF
基于特定领域的Web文本信息获取系统的研究 被引量:3
14
作者 赵栓柱 陈俊杰 《太原理工大学学报》 CAS 北大核心 2006年第2期165-168,共4页
从特定领域用户获取Web文本信息的实际应用角度出发,在分析了系统相关开发理论基础上,通过从内容和语义上指导Web信息的搜索,尝试设计了一个基于特定领域的Web文本信息获取系统模型,并从实现技术上提出了开发这个系统的体系结构,分析了... 从特定领域用户获取Web文本信息的实际应用角度出发,在分析了系统相关开发理论基础上,通过从内容和语义上指导Web信息的搜索,尝试设计了一个基于特定领域的Web文本信息获取系统模型,并从实现技术上提出了开发这个系统的体系结构,分析了各组成模块的主要特点及其功能。着重研究了该系统的几项关键技术:Robot技术、Web页面内容的分析和站点结构的分析技术、中文文本的分类问题,包括中文的分词、特征提取、特征匹配及权值计算等的综合应用技术。 展开更多
关键词 Web文本信息 特定领域 分类系统 中文分词
下载PDF
适用于医疗卫生领域的中文分词方法研究 被引量:3
15
作者 于清 陈永杰 丁岩 《新疆师范大学学报(自然科学版)》 2017年第1期62-66,共5页
目前中文分词技术已经比较成熟,但是应用于医疗卫生专业领域,出现准确率、召回率、F-值均下降等问题。文章在自建2.5万句汉语医疗卫生用语语料库基础上,实验基于词典的自动分词方法、基于统计的自动分词方法、词典与统计相结合的分词方... 目前中文分词技术已经比较成熟,但是应用于医疗卫生专业领域,出现准确率、召回率、F-值均下降等问题。文章在自建2.5万句汉语医疗卫生用语语料库基础上,实验基于词典的自动分词方法、基于统计的自动分词方法、词典与统计相结合的分词方法,并通过对各种分词方法测评比较,探索适合于医疗领域的分词方法,这对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务意义重大。 展开更多
关键词 医疗 中文分词 语料库
下载PDF
网页文本内容情感挖掘研究 被引量:3
16
作者 彭霞 《青岛职业技术学院学报》 2018年第3期31-35,共5页
基于Python语言自动爬取网页,采用机器学习算法挖掘网页文本数据中所蕴含的主观情感,并对其进行分类识别。以"青岛新闻网"网页文本数据为例,探索网络舆情发展规律,为地方政府转变社会治理思维、创新治理模式提供参考。
关键词 PYTHON 中文分词 机器学习 负面偏差 网络舆情
下载PDF
地质灾害信息存储技术及检索方法 被引量:2
17
作者 姚梦辉 刘军旗 +2 位作者 封瑞雪 陈根深 赵剑雄 《计算机系统应用》 2018年第6期209-213,共5页
地质灾害调查、勘查及防治等工作过程中,获取了大量的多源异构数据,其中的文本数据多以文件名检索或大字段形式整体存储,这种传统的存储方式不能满足文本信息中有用信息的快速检索与提取,是当前地质灾害数据存储和检索所面临的一个重要... 地质灾害调查、勘查及防治等工作过程中,获取了大量的多源异构数据,其中的文本数据多以文件名检索或大字段形式整体存储,这种传统的存储方式不能满足文本信息中有用信息的快速检索与提取,是当前地质灾害数据存储和检索所面临的一个重要问题.本文基于非结构化数据库技术、中文分词技术、关键词提取技术,实现了地质灾害文本数据中任意有用信息的快速检索及与统计,可以为灾害数据的深层挖掘与融合提供有力支持. 展开更多
关键词 地质灾害 非结构化数据库 中文分词 段落切分 信息检索
下载PDF
基于BP神经网络的中文分词算法研究 被引量:2
18
作者 吴建源 《佛山科学技术学院学报(自然科学版)》 CAS 2012年第2期33-37,共5页
简要探讨了BP神经网络的学习过程与主要参数,分析了基于BP神经网络的中文分词算法,并在用joone-editor建立的神经网络模型中加以实验。
关键词 中文分词 BP神经网络 正向传播 反向传播 joone-editor
下载PDF
基于双字词的动态最大匹配分词算法的研究 被引量:1
19
作者 宋国柱 陈俊杰 《太原科技大学学报》 2009年第3期199-202,共4页
通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法——基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法。实验结果表明,此算法相对于现有... 通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法——基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法。实验结果表明,此算法相对于现有最大匹配分词算法有显著提高。 展开更多
关键词 中文分词 动态 最大匹配 词库
下载PDF
电商评论的情感分析研究 被引量:1
20
作者 周艳聪 白家文 《中小企业管理与科技》 2020年第17期130-131,共2页
随着电商行业的快速发展,商家在网络购物平台的竞争越来越激烈。购买者对购买商品作出评价,将同时为商家和其他购买者提供大量参考信息,然而从大量的评价中筛选有意义的信息是非常困难的。论文对京东商城某品牌热水器的评论数据进行建模... 随着电商行业的快速发展,商家在网络购物平台的竞争越来越激烈。购买者对购买商品作出评价,将同时为商家和其他购买者提供大量参考信息,然而从大量的评价中筛选有意义的信息是非常困难的。论文对京东商城某品牌热水器的评论数据进行建模,对文本进行预处理、中文分词、停用词过滤,通过建立LDA主题模型,实现对文本评论数据的倾向性判断,从而为商家和购买者提供有价值的信息。 展开更多
关键词 用户评论 预处理 中文分词 LDA主题模型 情感分析
下载PDF
上一页 1 2 24 下一页 到第
使用帮助 返回顶部