-
题名一种面向软件特征定位问题的语义相似度集成方法
被引量:5
- 1
-
-
作者
何云
李彤
王炜
李响
兰微
-
机构
云南大学软件学院
云南省软件工程重点实验室(云南大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第2期394-409,共16页
-
基金
国家自然科学基金项目(61462092
61379032
+3 种基金
61662085)
云南省自然科学基金重点项目(2015FA014)
云南省数据驱动的软件工程创新团队项目(2017HC012)
云南大学研究生科研创新基金项目(YDY17094)~~
-
文摘
特征是软件系统中被需求所定义的可执行功能实体.识别软件特征与源代码间映射关系的过程被称作特征定位.基于信息检索的特征定位方法由于高易用性和低开销等优点,被广泛应于软件维护、代码搜索等领域.所有基于信息检索的特征定位方法均建立在语义相似度计算基础之上,当前语义相似度计算存在2个主要问题:第一,源代码数据中大量噪声信息对相似度计算的干扰;第二,不同索引方法局限性导致的相似度计算结果失准.针对这2个问题,提出了一种面向软件特征定位问题的语义相似度集成方法.该方法在预处理过程引入词性过滤,有效过滤源代码中噪声数据,提升相似性计算的准确度.然后,以源代码数据自身结构特性为依据,集成不同索引方法进行相似度计算.在公开数据集上进行了实验,与现有方法相比,词性过滤和相似度集成在平均排序倒数性能上分别带来了30.88%和10.28%的提升,验证了所提方法的有效性.
-
关键词
特征定位
信息检索
语义相似度
词性过滤
索引方法
集成
-
Keywords
feature location
information retrieval
semantic similarity
POS filtering
index method
integration
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于词性过滤和改进边权重的短文本分类算法
被引量:1
- 2
-
-
作者
许梦玥
侯秀萍
王俊华
-
机构
长春工业大学计算机科学与工程学院
-
出处
《长春工业大学学报》
CAS
2023年第6期546-551,共6页
-
基金
吉林省教育厅“十三五”科学技术项目(JJKH20191311KJ)。
-
文摘
针对短文本存在特征稀疏和信息不规范等特点,文中在TextGCN模型的基础上通过增加词性过滤减弱无关词对特征选择的影响,并加入TF-CR算法提高类别无关词权重,最后,通过与几个经典模型进行对比,验证改进模型的有效性。
-
关键词
词性过滤
特征选择
短文本分类
-
Keywords
part of speech filtering
feature selection
short text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于信息增益的中文网页SVM分类研究
- 3
-
-
作者
潘正才
陈海光
-
机构
上海师范大学信息与机电工程学院
-
出处
《上海师范大学学报(自然科学版)》
2013年第3期277-282,共6页
-
基金
上海市教育委员会科研创新项目(09YZ154)
-
文摘
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.
-
关键词
信息增益方法
词性过滤
同义词归并
特征加权
支持向量机
-
Keywords
information gain method
part-of-speech filtering
synonyms merging
feature weighting
Support Vector Machine
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名中文专利文献术语抽取
被引量:10
- 4
-
-
作者
徐川
施水才
房祥
吕学强
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京拓尔思信息技术股份有限公司
-
出处
《计算机工程与设计》
CSCD
北大核心
2013年第6期2175-2179,共5页
-
基金
国家自然科学基金项目(61171159)
国家科技支撑计划课题基金项目(2011BAH11B03)
+1 种基金
北京市教委科技发展计划基金项目(KM201110772021
KM201211232023)
-
文摘
为了有效解决专利文献中术语抽取问题,提出采用字符串之间的结合强度融合词性过滤法抽取术语的方法。根据专利文献中术语出现的特点,提出了字符串之间的边界结合度方法和字符串之间的串边结合度方法,度量了字符串间的结合强度。在此基础之上,根据术语内部结构中词性的组成特点,提出了术语双字词性过滤的方法,并与结合强度的计算方法进行融合。实验结果表明,该方法对中文专利术语抽取有很好的效果,平均正确率为80.24%,平均召回率为80.61%。
-
关键词
术语
边界结合度
串边结合度
双字词性过滤法
-
Keywords
terminology extraction
combination degree of boundary-to-boundary of strings
combination degree of string-to- boundary of strings
two character terms filtering
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于过滤与权重平滑策略的自动标引方法研究
被引量:1
- 5
-
-
作者
高影繁
徐红姣
杜枫
-
机构
中国科学技术信息研究所
中国机械工业集团有限公司
-
出处
《情报理论与实践》
CSSCI
北大核心
2014年第2期103-106,共4页
-
基金
中国科学技术信息研究所重点工作课题"多语言科技信息语义关联网络构建及其应用"(项目编号:ZD2012-3-3)
中国科学技术信息研究所预研项目"基于句子解析的科技文献自动标引改进方法研究"(项目编号:YY-201218)的成果
-
文摘
文章提出一种基于过滤和权重平滑策略的标引词自动抽取方法,该方法采用可变停用词作为文档分隔手段,采用词性、词频、词语位置等信息作为标引词过滤的手段,采用合理的权重倾向策略保证了标引词抽取在词组和单词中的均衡。方法综合利用了词性标注等自然语言处理领域的研究成果和统计学信息,不依赖词汇在文档集中的分布规律,可以直接从单篇文档抽取标引词,在待标引文档篇幅受限的情况下具有良好的运行性能。
-
关键词
词性过滤规则
权重
自动标引
-
Keywords
part-of-speech filtering hales
weight
automatic indexing
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-