期刊文献+
共找到225篇文章
< 1 2 12 >
每页显示 20 50 100
深度文本匹配综述 被引量:65
1
作者 庞亮 兰艳艳 +3 位作者 徐君 郭嘉丰 万圣贤 程学旗 《计算机学报》 EI CSCD 北大核心 2017年第4期985-1003,共19页
自然语言理解的许多任务,例如信息检索、自动问答、机器翻译、对话系统、复述问题等等,都可以抽象成文本匹配问题.过去研究文本匹配主要集中在人工定义特征之上的关系学习,模型的效果很依赖特征的设计.最近深度学习自动从原始数据学习... 自然语言理解的许多任务,例如信息检索、自动问答、机器翻译、对话系统、复述问题等等,都可以抽象成文本匹配问题.过去研究文本匹配主要集中在人工定义特征之上的关系学习,模型的效果很依赖特征的设计.最近深度学习自动从原始数据学习特征的思想也影响着文本匹配领域,大量基于深度学习的文本匹配方法被提出,作者称这类模型为深度文本匹配模型.相比于传统方法,深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系,并能结合短语匹配中的结构信息和文本匹配的层次化特性,更精细地描述文本匹配问题.根据特征提取的不同结构,深度文本匹配模型可以分为3类:基于单语义文档表达的深度学习模型、基于多语义文档表达的深度学习模型和直接建模匹配模式的深度学习模型.从文本交互的角度,这3类模型具有递进的关系,并且对于不同的应用,具有各自性能上的优缺点.该文在复述问题、自动问答和信息检索3个任务上的经典数据集上对深度文本匹配模型进行了实验,比较并详细分析了各类模型的优缺点.最后该文对深度文本模型未来发展的若干问题进行了讨论和分析. 展开更多
关键词 文本匹配 深度学习 自然语言处理 卷积神经网络 循环神经网络 社会媒体
下载PDF
Web文本内容过滤方法的研究 被引量:9
2
作者 于海燕 陈晓江 +1 位作者 冯健 房鼎益 《微电子学与计算机》 CSCD 北大核心 2006年第9期51-54,共4页
文章研究了Web文本内容过滤的方法,分析了向量空间模型、关键词匹配算法等关键技术,并详细讨论了Web网页中文本内容过滤方法的实现过程。重点分析了该方法中的修正值选取、关键词权重函数以及过虑策略等方面的不足,提出了一个改进的Web... 文章研究了Web文本内容过滤的方法,分析了向量空间模型、关键词匹配算法等关键技术,并详细讨论了Web网页中文本内容过滤方法的实现过程。重点分析了该方法中的修正值选取、关键词权重函数以及过虑策略等方面的不足,提出了一个改进的Web文本内容过滤方法,能够有效降低算法的复杂性,提高性能。 展开更多
关键词 文本内容过滤 文本向量 关键词匹配 关键词权重
下载PDF
面向智能客服系统的情感分析技术 被引量:18
3
作者 宋双永 王超 +2 位作者 陈成龙 周伟 陈海青 《中文信息学报》 CSCD 北大核心 2020年第2期80-95,共16页
该文以阿里小蜜为例,对智能客服系统中的情感分析技术进行比较全面的介绍,包括情感分析算法模型的原理及其在智能客服系统的多个应用场景中的实际落地使用方式和效果分析。智能客服在解决客户高频业务问题的同时,也需要给客户提供多维... 该文以阿里小蜜为例,对智能客服系统中的情感分析技术进行比较全面的介绍,包括情感分析算法模型的原理及其在智能客服系统的多个应用场景中的实际落地使用方式和效果分析。智能客服在解决客户高频业务问题的同时,也需要给客户提供多维度的、具有类人能力的助理、导购、语聊和娱乐等服务,提高客户对智能客服机器人的整体满意度。在此过程中,情感分析技术在机器人类人能力建设中起到了至关重要的作用。该文围绕智能客服系统中人机结合的服务形式,从六个维度总结和介绍了情感分析技术在智能客服系统中的应用场景,包括用户情感检测、用户情感安抚、情感生成式语聊、客服服务质检、会话满意度预估和智能人工入口。 展开更多
关键词 情感分析 文本匹配 生成式语聊
下载PDF
改进SIFT算法在文字图像匹配中的应用 被引量:17
4
作者 胡海青 谭建龙 +2 位作者 朱亚涛 龚国成 刘金刚 《计算机工程》 CAS CSCD 2013年第1期239-243,共5页
使用SIFT算法对文字图像进行特征提取时,产生的特征点数目较少,且不同文字产生的特征向量存在强干扰性,导致匹配准确率较低。为此,提出一种改进的SIFT算法。该算法利用二值化图像代替灰度图像,增加特征点数目,并取消SIFT的旋转不变性。... 使用SIFT算法对文字图像进行特征提取时,产生的特征点数目较少,且不同文字产生的特征向量存在强干扰性,导致匹配准确率较低。为此,提出一种改进的SIFT算法。该算法利用二值化图像代替灰度图像,增加特征点数目,并取消SIFT的旋转不变性。实验结果证明,与标准SIFT算法相比,改进SIFT算法能有效提高文字图像匹配的准确率。 展开更多
关键词 文字图像 模板匹配 尺度不变特征变换算法 极值点 特征向量 特征提取
下载PDF
正则表达式在编程题自动阅卷中的应用 被引量:16
5
作者 佘石泉 周肆清 《计算机技术与发展》 2007年第7期244-246,共3页
分析了编程题的自动阅卷的现状及存在的不足。为了让计算机能够更加合理和有效地进行编程题的阅卷,提出了一种用正则表达式来分析程序代码,模拟人工阅卷的方法。介绍了此方法的原理和主要功能,给出了方法实现的具体步骤,对方法的关键部... 分析了编程题的自动阅卷的现状及存在的不足。为了让计算机能够更加合理和有效地进行编程题的阅卷,提出了一种用正则表达式来分析程序代码,模拟人工阅卷的方法。介绍了此方法的原理和主要功能,给出了方法实现的具体步骤,对方法的关键部分如Java处理正则表达式的各个类以及方法的具体实施等都进行了详细的解释并举例进行了说明。其核心思想是利用正则表达式来抽象标准答案,再利用正则表达式强大的文本匹配功能来进行程序代码的分析,把不变的文本转化为具有一般性的表达式,大幅度增加了匹配的灵活性,从而达到简化阅卷的目的。 展开更多
关键词 正则表达式 抽象 文本匹配
下载PDF
专业领域智能问答系统设计与实现 被引量:14
6
作者 陶永芹 《计算机应用与软件》 北大核心 2018年第5期95-101,共7页
现有的问答系统大多是面向非专业领域,而对专业领域问答比如金融、医疗、电商等难于得到用户满意的效果。通过对相关技术总结,提出面向专业领域智能问答系统的实现框架。结合领域知识特征提出使用领域知识构建领域词典,同时提出基于声... 现有的问答系统大多是面向非专业领域,而对专业领域问答比如金融、医疗、电商等难于得到用户满意的效果。通过对相关技术总结,提出面向专业领域智能问答系统的实现框架。结合领域知识特征提出使用领域知识构建领域词典,同时提出基于声韵母的语音识别后文本纠错方法。再结合条件随机场对领域概念进行标注,以完成查询问句的纠错和领域相关实体的识别。根据查询服务的特征运用本体去描述查询服务,建立服务与领域概念的联系,并将服务实例化的条件加入到本体中。提出服务描述和匹配策略以及上下文管理策略,以便根据服务的语义特征优化基于领域概念层级的服务匹配方法,实现服务的调用。同时考虑上下文关联查询的情况,将查询的结果保存以供下次查询使用。在"国民经济大数据问答系统"中应用该框架,系统验证了所提出的语音识别后文本纠错方法、服务描述和匹配策略以及上下文管理策略是有效的。 展开更多
关键词 智能问答系统 本体 文本纠错 服务匹配 实体识别
下载PDF
中文短文本聚合模型研究 被引量:11
7
作者 刘震 陈晶 +2 位作者 郑建宾 华锦芝 肖淋峰 《软件学报》 EI CSCD 北大核心 2017年第10期2674-2692,共19页
中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通... 中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能. 展开更多
关键词 中文短文本 聚合模型 文本相似度 广义Jaro—Winkler算法 快速匹配 精细匹配
下载PDF
基于词同现频率的文本特征描述 被引量:8
8
作者 余刚 陈华月 +1 位作者 朱征宇 高原 《计算机工程与设计》 CSCD 北大核心 2005年第8期2180-2182,共3页
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种... 文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。 展开更多
关键词 向量空间模型 文本挖掘 词同现频率 权重计算 匹配
下载PDF
一种结合LSTM和集成算法的文本校对模型 被引量:11
9
作者 陶永才 吴文乐 +2 位作者 海朝阳 石磊 卫琳 《小型微型计算机系统》 CSCD 北大核心 2020年第5期967-971,共5页
伴随着互联网的飞速发展,各行各业产生了大量的电子文本数据,但是这些文本经常存在语义错误,数据质量良莠不齐,如何提高电子文本的质量是亟待解决的难题.本文设计一种基于集成算法和长短时记忆网络的集成模型,提高语义特征检测和校对的... 伴随着互联网的飞速发展,各行各业产生了大量的电子文本数据,但是这些文本经常存在语义错误,数据质量良莠不齐,如何提高电子文本的质量是亟待解决的难题.本文设计一种基于集成算法和长短时记忆网络的集成模型,提高语义特征检测和校对的准确性.主要工作分为三部分:(1)使用神经网络和HowNet学习词语-义原之间的搭配关系;(2)将抽象化信息输入至长短时记忆网络集成模型,预测语义搭配关系;(3)结合模糊匹配方法,依据聚合度对预测结果投票并排序,将排名靠前的结果作为校对建议输出.实验结果显示,本文提出的校对模型和算法与其他文献相比在检错准确率和校对准确率上分别提高了1.8%和2.3%. 展开更多
关键词 文本校对 模糊匹配 集成算法 特征检测
下载PDF
结合预训练模型和语言知识库的文本匹配方法 被引量:11
10
作者 周烨恒 石嘉晗 徐睿峰 《中文信息学报》 CSCD 北大核心 2020年第2期63-72,共10页
针对文本匹配任务,该文提出一种大规模预训练模型融合外部语言知识库的方法。该方法在大规模预训练模型的基础上,通过生成基于WordNet的同义-反义词汇知识学习任务和词组-搭配知识学习任务引入外部语言学知识。进而,与MT-DNN多任务学习... 针对文本匹配任务,该文提出一种大规模预训练模型融合外部语言知识库的方法。该方法在大规模预训练模型的基础上,通过生成基于WordNet的同义-反义词汇知识学习任务和词组-搭配知识学习任务引入外部语言学知识。进而,与MT-DNN多任务学习模型进行联合训练,以进一步提高模型性能。最后利用文本匹配标注数据进行微调。在MRPC和QQP两个公开数据集的实验结果显示,该方法可以在大规模预训练模型和微调的框架基础上,通过引入外部语言知识进行联合训练有效提升文本匹配性能。 展开更多
关键词 文本匹配 预训练模型 语言知识库融合
下载PDF
互联网文本蕴含道路交通信息抽取的模式匹配方法 被引量:10
11
作者 仇培元 张恒才 陆锋 《地球信息科学学报》 CSCD 北大核心 2015年第4期416-422,共7页
互联网页面和社交网络文本中蕴含丰富的道路交通信息,是其他交通信息采集平台的有效补充。然而,自然语言文本形式的交通信息多以线性参考或地标方位描述交通事件空间位置,且大量存在事件元素缺失或隐含现象,对交通信息的自动化抽取有着... 互联网页面和社交网络文本中蕴含丰富的道路交通信息,是其他交通信息采集平台的有效补充。然而,自然语言文本形式的交通信息多以线性参考或地标方位描述交通事件空间位置,且大量存在事件元素缺失或隐含现象,对交通信息的自动化抽取有着较大影响。考虑到交通信息的自然语言表达方式虽然自由随意,但表达模式相对固定,提出一种从互联网文本中抽取道路交通信息的模式匹配方法。首先,基于道路交通事件描述的语言特征构建模式库;然后,以特征词词性序列的形式表达互联网文本和抽取模式,利用DTW距离度量序列相似度,实现抽取模式匹配;最后,在匹配抽取模式和填补规则指导下获取结构化的道路交通信息。由上海市城市交通相关门户网站和微博客平台的实验过程显示,本文所提出的模式匹配方法,抽取道路交通信息的准确率和召回率分别达到90%和80%以上,表明该方法能有效抽取互联网文本蕴含的道路交通信息,且实现过程相对简单,易于扩展,具有可用性。 展开更多
关键词 互联网文本 道路交通信息 模式匹配 DTW距离 信息抽取
原文传递
人工免疫系统中的抗体生成与匹配算法 被引量:9
12
作者 徐佳 张卫 《计算机工程》 CAS CSCD 北大核心 2010年第9期181-183,共3页
现有的人工免疫系统被应用于文本识别中时,检测器生成算法对不同基因等质化对待,不能最优反应基因在抗体中出现的频率。针对该问题,提出基因显性度的概念,通过在检测器生成算法及匹配算法中引入基因显性度的因子来提高算法效率。实验结... 现有的人工免疫系统被应用于文本识别中时,检测器生成算法对不同基因等质化对待,不能最优反应基因在抗体中出现的频率。针对该问题,提出基因显性度的概念,通过在检测器生成算法及匹配算法中引入基因显性度的因子来提高算法效率。实验结果表明,显性度的引入可降低检测器生成算法约30%的时间复杂度。 展开更多
关键词 人工免疫系统 文本识别 匹配算法 检测器生成 显性度
下载PDF
基于改进文本检测识别的绝缘子串异常定位和判别方法 被引量:9
13
作者 周宇 徐波 +1 位作者 宋爱国 陈格格 《高电压技术》 EI CAS CSCD 北大核心 2021年第11期3819-3826,共8页
绝缘子串的长宽比和倾斜角度变化大,使用通用目标检测算法时,检测和识别效果不佳。为此,借鉴文本检测思想提出新的绝缘子串异常定位和判别算法。检测部分,改进了基于语义的任意方向场景文字检测器算法进行绝缘子串检测;异常定位部分,提... 绝缘子串的长宽比和倾斜角度变化大,使用通用目标检测算法时,检测和识别效果不佳。为此,借鉴文本检测思想提出新的绝缘子串异常定位和判别算法。检测部分,改进了基于语义的任意方向场景文字检测器算法进行绝缘子串检测;异常定位部分,提出了针对绝缘子串的序列状态编码方法以及基于模板匹配的数据增广方式;再使用卷积循环神经网络(convolutional recurrent neural network,CRNN)和连接主义时间分类(connectionist temporal classification,CTC)方法提取绝缘子的纹理和序列特征,用编码的序列状态作为标签进行有监督训练。结果表明,所提算法的检测精度和识别精确率均超过了实验中的通用目标检测方法,精确度提升了4.1%。该方法可为各类条状物的异常定位和识别提供新思路。 展开更多
关键词 绝缘子串 文本检测 异常判别 序列状态编码 模板匹配 数据增广
下载PDF
满文识别技术研究与分析 被引量:8
14
作者 许爽 李敏 +1 位作者 朱满琼 周兴华 《大连民族学院学报》 CAS 2014年第5期546-551,共6页
满文文字识别技术对继承和发扬少数民族文化、研究满清历史、保护和传承非物质文化遗产,促进各民族共同繁荣有着十分重要的历史意义和研究价值。文章讨论了满文识别技术的基本原理和满文文字分割、特征提取、特征匹配识别等关键技术,分... 满文文字识别技术对继承和发扬少数民族文化、研究满清历史、保护和传承非物质文化遗产,促进各民族共同繁荣有着十分重要的历史意义和研究价值。文章讨论了满文识别技术的基本原理和满文文字分割、特征提取、特征匹配识别等关键技术,分析了目前满文文字识别技术的优缺点及发展趋势,为该领域的研究者指明方向,共同促进满文识别技术的发展。 展开更多
关键词 满文识别 文字分割 特征提取 特征匹配
下载PDF
基于改进ATSVM算法的评审专家自动推荐模型 被引量:8
15
作者 刘一星 梁山 《重庆科技学院学报(自然科学版)》 CAS 2010年第1期134-136,共3页
提出一种基于文本分类技术的评审专家自动推荐模型,通过文本分类技术对评审专家所发表的论文进行所属学科领域的分类,进而判断出评审专家的主要研究领域。模型采用了基于TF/IDF特征权重阈值的向量空间模型算法和改进后的ATSVM分类算法... 提出一种基于文本分类技术的评审专家自动推荐模型,通过文本分类技术对评审专家所发表的论文进行所属学科领域的分类,进而判断出评审专家的主要研究领域。模型采用了基于TF/IDF特征权重阈值的向量空间模型算法和改进后的ATSVM分类算法。实验结果表明,改进后的ATSVM分类算法可以增加交互的过程使训练得到的分类器具备自学习的能力,改进后的主动学习SVM分类器在多类别的分类上能够精确分类并且提高分类速度。 展开更多
关键词 评审专家 文本分类 自动推荐 学科领域 自动匹配
下载PDF
检索式聊天机器人技术综述 被引量:8
16
作者 吴俣 李舟军 《计算机科学》 CSCD 北大核心 2021年第12期278-285,共8页
随着自然语言处理技术的飞速发展以及互联网上对话语料的不断积累,闲聊导向对话系统(简称聊天机器人)取得了令人瞩目的进展,受到了学术界的广泛关注,并在产业界进行了初步的尝试。当前,聊天机器人分为检索式聊天机器人和生成式聊天机器... 随着自然语言处理技术的飞速发展以及互联网上对话语料的不断积累,闲聊导向对话系统(简称聊天机器人)取得了令人瞩目的进展,受到了学术界的广泛关注,并在产业界进行了初步的尝试。当前,聊天机器人分为检索式聊天机器人和生成式聊天机器人,而检索式聊天机器人由于其生成的回复流畅且计算资源消耗小,仍然是目前工业界聊天机器人的主要实现手段。文中首先简要介绍了检索式聊天机器人的研究背景、基本架构以及组成模块,重点阐述了回复选择模块的约束要求和相关数据集;然后,针对检索式聊天机器人中最为核心的回复选择技术,进行了深入分析与详细梳理。文中将近年来经典的回复选择技术归纳为如下4类:基于统计模型的方法、基于表示的神经网络模型的方法、基于交互的神经网络模型的方法以及基于预训练技术的方法,并指出了这4类方法的优点和不足。在此基础上,分析了目前检索式聊天机器人技术研究所面临的问题,并对其未来的发展趋势进行了展望。 展开更多
关键词 自然语言处理 聊天机器人 文本匹配 回复选择 预训练技术
下载PDF
面向信息与通信技术供应链网络画像构建的文本语义匹配方法 被引量:7
17
作者 罗森林 杨俊楠 +1 位作者 潘丽敏 吴舟婷 《北京理工大学学报》 EI CAS CSCD 北大核心 2021年第8期864-872,共9页
针对信息与通信技术(information and communication,ICT)项目及产品数据种类多、形式复杂,难以提取其语义匹配信息,且现有句子级文本匹配模型对不同长度文本无差别编码会引入噪声导致匹配效果差的问题,本文提出一种融合局部和全局特征... 针对信息与通信技术(information and communication,ICT)项目及产品数据种类多、形式复杂,难以提取其语义匹配信息,且现有句子级文本匹配模型对不同长度文本无差别编码会引入噪声导致匹配效果差的问题,本文提出一种融合局部和全局特征的实体文档级联合匹配模型,利用TextCNN编码器提取实体级招投标项目和产品名称的局部信息,消除产品描述中与招投标项目无关信息的影响,再利用卷积-自注意力编码器提取文档级产品描述的局部和全局信息,最后结合实体级和文档级匹配信息进行决策.实验结果表明,招投标项目与供应商产品匹配映射准确率92%以上,方法可直接实际应用. 展开更多
关键词 信息与通信技术供应链 文本匹配 卷积网络 自注意力网络 联合匹配模型
下载PDF
基于正则表达式和Jaccard系数的智能变电站录波通道同源匹配 被引量:3
18
作者 王冠南 郭丽娟 +2 位作者 彭曙蓉 陈慧霞 黄浩宇 《浙江电力》 2024年第1期20-27,共8页
针对220kV及以上电压等级智能变电站双套录波通道同源匹配问题,提出一种基于正则表达式和Jaccard系数的智能变电站录波通道同源匹配方法。首先,针对录波通道命名不规范的问题,使用正则表达式对通道名称文本进行预处理,统一通道名称的表... 针对220kV及以上电压等级智能变电站双套录波通道同源匹配问题,提出一种基于正则表达式和Jaccard系数的智能变电站录波通道同源匹配方法。首先,针对录波通道命名不规范的问题,使用正则表达式对通道名称文本进行预处理,统一通道名称的表达形式;同时,使用jieba分词算法和去停用词操作,去除通道名称文本中可能存在的冗余信息。然后,使用Jaccard相似系数匹配算法计算录波通道名称文本之间的相似度,依据相似度大小筛选出同源通道。最后,基于电网实际的录波文件数据进行仿真分析。仿真结果表明:所提方法可有效实现智能变电站录波通道同源匹配。 展开更多
关键词 录波通道同源匹配 文本匹配 正则表达式 Jaccard相似系数
下载PDF
基于BERT的语义匹配算法在问答系统中的应用 被引量:7
19
作者 吴炎 王儒敬 《仪表技术》 2020年第6期19-22,30,共5页
随着知识图谱和自然语言处理技术的高速发展,对智能搜索和智能问答等应用的要求越来越高,语义匹配技术成为其中不可缺少的一环。高效准确的语义匹配算法通过计算两个句子的语义相似度,可以显著提高文本搜索、问答匹配的效率,因此,提出... 随着知识图谱和自然语言处理技术的高速发展,对智能搜索和智能问答等应用的要求越来越高,语义匹配技术成为其中不可缺少的一环。高效准确的语义匹配算法通过计算两个句子的语义相似度,可以显著提高文本搜索、问答匹配的效率,因此,提出一种基于BERT模型(Bidirectional Encoder Representations from Transformers)的中文语义匹配算法。该算法将句子转换为特征向量表示,结合Attention机制,计算两个句子的语义相似度进行匹配。经过与传统的语义匹配模型BiLSTM(Bi-directional Long Short-Term Memory)、ESIM(Enhanced Sequential Inference Model)、BiMPM(Bilateral Multi-Perspective Matching)的对比实验,基于BERT的中文语义匹配算法在测试集上准确率、召回率、F1值分别可达86.38%、94.77%、87.43%,均优于以上语义匹配模型算法。 展开更多
关键词 中文语义匹配 BERT模型 文本相似度 attention机制 问句匹配 预训练语言模型
下载PDF
Web文本挖掘在互联网信息统计中的研究与设计 被引量:5
20
作者 李颖 阎保平 《微电子学与计算机》 CSCD 北大核心 2005年第1期62-65,69,共5页
互联网的迅猛发展,越来越迫切地需要全面准确对网上信息进行分类及统计,Web挖掘技术的兴起,尤其是该技术中的文本挖掘,使这种统计成为可能。本文研究了互联网信息统计的现状,介绍了Web挖掘技术并分析了Web文本挖掘的关键技术。继而结合... 互联网的迅猛发展,越来越迫切地需要全面准确对网上信息进行分类及统计,Web挖掘技术的兴起,尤其是该技术中的文本挖掘,使这种统计成为可能。本文研究了互联网信息统计的现状,介绍了Web挖掘技术并分析了Web文本挖掘的关键技术。继而结合文本挖掘技术设计了网站分类系统的模型,同时对其开发步骤进行了说明。最后展望了此技术方案在相关领域的应用前景。 展开更多
关键词 互联网 信息统计 WEB挖掘 文本挖掘 文本分类 模式匹配
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部