期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
一种面向软件特征定位问题的语义相似度集成方法 被引量:5
1
作者 何云 李彤 +2 位作者 王炜 李响 兰微 《计算机研究与发展》 EI CSCD 北大核心 2019年第2期394-409,共16页
特征是软件系统中被需求所定义的可执行功能实体.识别软件特征与源代码间映射关系的过程被称作特征定位.基于信息检索的特征定位方法由于高易用性和低开销等优点,被广泛应于软件维护、代码搜索等领域.所有基于信息检索的特征定位方法均... 特征是软件系统中被需求所定义的可执行功能实体.识别软件特征与源代码间映射关系的过程被称作特征定位.基于信息检索的特征定位方法由于高易用性和低开销等优点,被广泛应于软件维护、代码搜索等领域.所有基于信息检索的特征定位方法均建立在语义相似度计算基础之上,当前语义相似度计算存在2个主要问题:第一,源代码数据中大量噪声信息对相似度计算的干扰;第二,不同索引方法局限性导致的相似度计算结果失准.针对这2个问题,提出了一种面向软件特征定位问题的语义相似度集成方法.该方法在预处理过程引入词性过滤,有效过滤源代码中噪声数据,提升相似性计算的准确度.然后,以源代码数据自身结构特性为依据,集成不同索引方法进行相似度计算.在公开数据集上进行了实验,与现有方法相比,词性过滤和相似度集成在平均排序倒数性能上分别带来了30.88%和10.28%的提升,验证了所提方法的有效性. 展开更多
关键词 特征定位 信息检索 语义相似度 词性过滤 索引方法 集成
下载PDF
基于词性过滤和改进边权重的短文本分类算法 被引量:1
2
作者 许梦玥 侯秀萍 王俊华 《长春工业大学学报》 CAS 2023年第6期546-551,共6页
针对短文本存在特征稀疏和信息不规范等特点,文中在TextGCN模型的基础上通过增加词性过滤减弱无关词对特征选择的影响,并加入TF-CR算法提高类别无关词权重,最后,通过与几个经典模型进行对比,验证改进模型的有效性。
关键词 词性过滤 特征选择 短文本分类
下载PDF
基于信息增益的中文网页SVM分类研究
3
作者 潘正才 陈海光 《上海师范大学学报(自然科学版)》 2013年第3期277-282,共6页
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算... 针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果. 展开更多
关键词 信息增益方法 词性过滤 同义词归并 特征加权 支持向量机
下载PDF
中文专利文献术语抽取 被引量:10
4
作者 徐川 施水才 +1 位作者 房祥 吕学强 《计算机工程与设计》 CSCD 北大核心 2013年第6期2175-2179,共5页
为了有效解决专利文献中术语抽取问题,提出采用字符串之间的结合强度融合词性过滤法抽取术语的方法。根据专利文献中术语出现的特点,提出了字符串之间的边界结合度方法和字符串之间的串边结合度方法,度量了字符串间的结合强度。在此基... 为了有效解决专利文献中术语抽取问题,提出采用字符串之间的结合强度融合词性过滤法抽取术语的方法。根据专利文献中术语出现的特点,提出了字符串之间的边界结合度方法和字符串之间的串边结合度方法,度量了字符串间的结合强度。在此基础之上,根据术语内部结构中词性的组成特点,提出了术语双字词性过滤的方法,并与结合强度的计算方法进行融合。实验结果表明,该方法对中文专利术语抽取有很好的效果,平均正确率为80.24%,平均召回率为80.61%。 展开更多
关键词 术语 边界结合度 串边结合度 双字词性过滤
下载PDF
基于过滤与权重平滑策略的自动标引方法研究 被引量:1
5
作者 高影繁 徐红姣 杜枫 《情报理论与实践》 CSSCI 北大核心 2014年第2期103-106,共4页
文章提出一种基于过滤和权重平滑策略的标引词自动抽取方法,该方法采用可变停用词作为文档分隔手段,采用词性、词频、词语位置等信息作为标引词过滤的手段,采用合理的权重倾向策略保证了标引词抽取在词组和单词中的均衡。方法综合利用... 文章提出一种基于过滤和权重平滑策略的标引词自动抽取方法,该方法采用可变停用词作为文档分隔手段,采用词性、词频、词语位置等信息作为标引词过滤的手段,采用合理的权重倾向策略保证了标引词抽取在词组和单词中的均衡。方法综合利用了词性标注等自然语言处理领域的研究成果和统计学信息,不依赖词汇在文档集中的分布规律,可以直接从单篇文档抽取标引词,在待标引文档篇幅受限的情况下具有良好的运行性能。 展开更多
关键词 词性过滤规则 权重 自动标引
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部