期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于统计的无词典分词方法 被引量:24
1
作者 傅赛香 袁鼎荣 +1 位作者 黄柏雄 钟智 《广西科学院学报》 2002年第4期252-255,264,共5页
通过分析词的结合模式 ,提出无词典分词模型 ,并对该模型进行实验测试。测试结果表明 。
关键词 分词方法 自动分词 无词典分词 词条过滤 词条统计 中文信息处理
下载PDF
基于TAKE的中文关键短语提取算法研究 被引量:1
2
作者 刘晨晖 张德生 胡钢 《计算机工程与应用》 CSCD 北大核心 2020年第10期115-121,共7页
针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分... 针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分词、词语过滤和特征计算方法,提出了一种改进的TAKE算法,并应用于中文文本关键短语挖掘中。与多种传统关键短语提取算法的对比实验结果表明,该算法提取的精确率、召回率和F值指标的量化结果相比于传统算法有比较明显的提升。 展开更多
关键词 文本挖掘 分词 词语过滤 特征计算 关键短语提取
下载PDF
贝叶斯模型在垃圾文本分类中的应用研究
3
作者 崔超 崔连和 《北京石油化工学院学报》 2013年第3期55-57,共3页
为完成在邮件服务器内部过滤垃圾邮件的任务,参考经典贝叶斯模型,研究有自动调节能力的模型算法。以实验室样本邮件为目标,定义过滤器算法模型,并对系统环境变量设置进行讨论[5],最后对测试邮件文件进行加工,证明了模型设计的合理性。
关键词 邮件服务器 邮件分类 目标词过滤
下载PDF
基于改进的Trie树和DFA的敏感词过滤算法 被引量:13
4
作者 吴珊 李英祥 +2 位作者 徐鸿雁 张仕霞 施宜军 《计算机应用研究》 CSCD 北大核心 2021年第6期1678-1682,1688,共6页
通过对文本内容中敏感词过滤方法及相关技术的研究,提出了一种基于改进的Trie树和DFA的敏感词过滤算法,解决了敏感词过滤技术中的人工干扰、分词障碍等关键问题,提高了文本中敏感词过滤的准确性和有效性。提出的算法包括三个步骤:基于... 通过对文本内容中敏感词过滤方法及相关技术的研究,提出了一种基于改进的Trie树和DFA的敏感词过滤算法,解决了敏感词过滤技术中的人工干扰、分词障碍等关键问题,提高了文本中敏感词过滤的准确性和有效性。提出的算法包括三个步骤:基于排列组合的数学原理对中文词向中拼混合词进行扩充;采用改进的Trie树结构来存储DFA的所有状态,构建敏感词树;根据构建的敏感词树结构以及采用最小匹配规则对文本内容中的敏感词进行检测和过滤。通过分析得到构建敏感词树算法的时间复杂度为O(n×len),敏感词检测及过滤算法时间复杂度为O(L)。实验结果表明,本算法其查准率为100%,查全率约为87%~100%。 展开更多
关键词 改进的Trie树 确定有穷自动机(DFA) 敏感词过滤 最小匹配规则
下载PDF
基于主题词频数特征的文本主题划分 被引量:11
5
作者 康恺 林坤辉 周昌乐 《计算机应用》 CSCD 北大核心 2006年第8期1993-1995,共3页
目前文本分类所采用的文本—词频矩阵具有词频维数过大和过于稀疏两个特点,给计算造成了一定困难。为解决这一问题,从用户使用搜索引擎时选择所需文本的心理出发,提出了一种基于主题词频数特征的文本主题划分方法。该方法首先根据统计... 目前文本分类所采用的文本—词频矩阵具有词频维数过大和过于稀疏两个特点,给计算造成了一定困难。为解决这一问题,从用户使用搜索引擎时选择所需文本的心理出发,提出了一种基于主题词频数特征的文本主题划分方法。该方法首先根据统计方法筛选各文本类的主题词,然后以主题词类替代单个词作为特征采用模糊C-均值(FCM)算法施行文本聚类。实验获得了较好的主题划分效果,并与一种基于词聚类的文本聚类方法进行了过程及结果中多个方面的比较,得出了一些在实施要点和应用背景上较有意义的结论。 展开更多
关键词 搜索引擎 文本聚类 模糊C-均值 主题词筛选
下载PDF
基于关键分词过滤及用推户荐操方作法偏好的智能软件个性化 被引量:1
6
作者 简子杨 董国威 吴晨 《信息与电脑》 2023年第13期188-190,共3页
现有的推荐方法计算平均绝对误差值大、计算准确率低,因此研究了基于关键分词过滤和用户操作偏好的智能软件个性化推荐方法。首先,通过对网络智能软件的用户操作进行兴趣分析,按照类别将指定用户根据兴趣相同或相似的原则进行文档关键... 现有的推荐方法计算平均绝对误差值大、计算准确率低,因此研究了基于关键分词过滤和用户操作偏好的智能软件个性化推荐方法。首先,通过对网络智能软件的用户操作进行兴趣分析,按照类别将指定用户根据兴趣相同或相似的原则进行文档关键分词协作过滤;其次,描述用户操作偏好特征,通过计算得到目标向量矩阵;最后,通过用户画像法实施智能软件个性化推荐,提升个性化推荐结果的准确性。实验结果表明,实验组的平均绝对误差(Mean Absolute Error,MAE)值为0.6,为3组中的最小值,提升了算法的准确率,获得较好的推荐效果。 展开更多
关键词 关键分词过滤 操作偏好 智能软件 个性化推荐
下载PDF
基于改进Trie树的变形敏感词过滤算法 被引量:4
7
作者 叶情 《现代计算机》 2018年第22期3-7,共5页
在文本处理中,针对一般敏感词的过滤系统已经十分成熟,但是对于现今普及的变形敏感词的过滤方法有待完善,尤其是对于复杂的中文变形敏感词。针对变形敏感词过滤这一问题,通过对变形敏感词进行分析总结,提出一种基于改进Trie树的变形敏... 在文本处理中,针对一般敏感词的过滤系统已经十分成熟,但是对于现今普及的变形敏感词的过滤方法有待完善,尤其是对于复杂的中文变形敏感词。针对变形敏感词过滤这一问题,通过对变形敏感词进行分析总结,提出一种基于改进Trie树的变形敏感词过滤算法。该算法经过对变形敏感词分析归类、文本进行分立预处理、构建符合中文特点的Trie树、变形敏感词过滤等阶段,形成一套完整的中文文本过滤体系。经过反复实验表明,该算法不仅可以有效查找中文本中的普通敏感词,并且能高效地过滤出变形敏感词,其中对总敏感词和变形敏感词的查全率分别达到95.46%和92.49%,扩大敏感词查找范围,提高敏感词过滤的精确度。 展开更多
关键词 敏感词过滤 TRIE树 变形敏感词 文本分立 模糊匹配
下载PDF
利用深度学习的文本相似度计算方法 被引量:4
8
作者 汪一百 陈实 叶剑锋 《湘潭大学自然科学学报》 CAS 2018年第2期104-107,共4页
针对在自然语言处理中起着关键作用的文本相似度计算问题,提出了一种神经网络深度学习的词向量模型计算方法.利用词向量计算文本语义相似度,并采用高频词滤波的方法削弱扰动的影响.对百度新闻、新浪新闻等的中文词库进行训练,并与传统... 针对在自然语言处理中起着关键作用的文本相似度计算问题,提出了一种神经网络深度学习的词向量模型计算方法.利用词向量计算文本语义相似度,并采用高频词滤波的方法削弱扰动的影响.对百度新闻、新浪新闻等的中文词库进行训练,并与传统的检测方法进行对比.实验结果证明了提出方法的有效性和准确性. 展开更多
关键词 文本相似度计算 词向量模型 深度学习 高频词滤波
下载PDF
基于MSER视频字幕敏感词过滤算法
9
作者 李雅静 丁海洋 《现代信息科技》 2023年第21期80-84,89,共6页
当前网络视频中充斥着涉及敏感信息的内容且不易识别,提出了一种基于最大稳定极值区域和字典树的视频字幕敏感词过滤算法,达到对此类视频内容过滤、处理的目的。该方法采用MSER算法对文字进行检测与定位,来获得候选文字区域,然后通过使... 当前网络视频中充斥着涉及敏感信息的内容且不易识别,提出了一种基于最大稳定极值区域和字典树的视频字幕敏感词过滤算法,达到对此类视频内容过滤、处理的目的。该方法采用MSER算法对文字进行检测与定位,来获得候选文字区域,然后通过使用几何和笔画宽度属性来减少这些可能区域的数量,再经过几何过滤的方法对候选区域进行筛选、优化,连接候选区域以获得文本区域,最后利用字典树算法进行敏感词过滤。实验结果表明,该方法可以有效地对视频字幕敏感信息进行检测和过滤。 展开更多
关键词 最大稳定极值区域 文字检测 视频图像 文字定位 敏感词过滤
下载PDF
基于“把关”原则的我国网络舆论监管研究 被引量:1
10
作者 谢洁琼 《绍兴文理学院学报》 2018年第5期90-96,共7页
目前国内外网络舆论管理规范存在于网络管理的立法之中,尚缺独立的管理体系;各国共通的做法是注重立法、行政、技术的综合运用。我国以"代码控制"为思路,运用多项传统管理技能,调动各种组织和社会资源,已形成多管齐下、且具... 目前国内外网络舆论管理规范存在于网络管理的立法之中,尚缺独立的管理体系;各国共通的做法是注重立法、行政、技术的综合运用。我国以"代码控制"为思路,运用多项传统管理技能,调动各种组织和社会资源,已形成多管齐下、且具有中国特色的监管体系。以网络舆论监管的国际环境、我国网络舆论监管手段、网络舆论监管现存问题三大块的探析为背景,参考国外监管措施,建议网络舆论监测与引导应以政府为主导,通过完善法律法规、提高网络媒体自律能力,建立各级网络舆情监测共享平台、整合互联网管理部门及其职能,加强网络素质教育、鼓励技术创新与区域合作等措施,形成多元治理格局,促进我国网络健康、稳定、有序发展。 展开更多
关键词 公共舆论 内容监管 敏感词过滤 防火长城
下载PDF
一种基于Java Web的敏感词过滤方法研究与实现 被引量:1
11
作者 傅明建 《智能计算机与应用》 2017年第4期21-23,共3页
本文研究一种基于Java Web的敏感词过滤系统,能够识别敏感词,在客户端用户发送数据时,系统能够自动阻断聊天内容,并且将敏感词替换为指定特殊符号关键词的敏感词。该系统基于B/S结构的Java Web分层框架结构进行架构设计,能够在对用户透... 本文研究一种基于Java Web的敏感词过滤系统,能够识别敏感词,在客户端用户发送数据时,系统能够自动阻断聊天内容,并且将敏感词替换为指定特殊符号关键词的敏感词。该系统基于B/S结构的Java Web分层框架结构进行架构设计,能够在对用户透明的情况下,自动阻断含有敏感词的聊天内容提交,并且将敏感词替换为指定特殊符号关键词。实验结果表明该系统能够有效阻止含有敏感关键词的聊天内容提交。 展开更多
关键词 敏感词过滤 JAVA WEB 聊天系统 关键词替换
下载PDF
基于非线性规划理论的事件主题词过滤方法
12
作者 高影繁 苏娜 +1 位作者 张运良 韩红旗 《情报学报》 CSSCI CSCD 北大核心 2018年第1期61-67,共7页
本文提出一种基于非线性规划理论的突发事件主题词自动过滤方法。首先以左右邻接熵为主题短语的边界识别依据,选出更具信息量的短语作为候选主题词,然后通过将候选主题词回溯原始文档集合的方式过滤掉部分噪声词,最后采用基于非线性规... 本文提出一种基于非线性规划理论的突发事件主题词自动过滤方法。首先以左右邻接熵为主题短语的边界识别依据,选出更具信息量的短语作为候选主题词,然后通过将候选主题词回溯原始文档集合的方式过滤掉部分噪声词,最后采用基于非线性规划理论的函数,对抽取到的候选主题词按权重进行排序,选定更具突发事件类别表征能力的主题词。在几个类别突发事件语料上与传统的TF-IDF算法的对比实验结果说明了本文方法的有效性和实用价值。 展开更多
关键词 突发事件主题词 左右邻接熵 噪声词过滤 非线性规划理论
下载PDF
可支持热点查询的双索引技术
13
作者 丁维 周长胜 +1 位作者 马志强 杨娜 《铁路计算机应用》 2007年第6期13-15,共3页
介绍可支持热点查询的双索引技术,搜索引擎的构成,描述索引的结构及其采取的双索引机制,并介绍索引性能的优化及词语过滤机制,热点查询技术。
关键词 搜索引擎 双索引机制 热点查询 索引优化 词语过滤机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部