-
题名一种基于同步语义对齐的异构缺陷预测方法
被引量:2
- 1
-
-
作者
李伟湋
陈翔
张恒伟
黄志球
贾修一
-
机构
南京航空航天大学计算机科学与技术学院
南京航空航天大学航天学院
南通大学信息科学技术学院
南京理工大学计算机科学与工程学院
-
出处
《软件学报》
EI
CSCD
北大核心
2023年第6期2669-2689,共21页
-
基金
国家重点研发计划(2018YFB1003900)
国家自然科学基金(61906090,62176123)
中央高校基本科研业务费专项资金(30920021131)。
-
文摘
异构缺陷预测(heterogeneous defect prediction,HDP)在具有异构特征的项目间进行缺陷预测,可以有效解决源项目和目标项目使用了不同特征的问题.当前大多数HDP方法都是通过学习域不变特征子空间以减少域之间的差异来解决异构特征问题.但是,源域和目标域通常呈现出巨大的异质性,使得域对齐效果并不好.究其原因,这些方法都忽视了分类器对于两个域中的同一类别应产生相似的分类概率分布这一潜在知识,没有挖掘数据中包含的内在语义信息.另一方面,由于在新启动项目或历史遗留项目中搜集训练数据依赖于专家知识,费时费力且容易出错,探究了基于目标项目内少数标记模块来进行异构缺陷预测的可能性.鉴于此,提出一种基于同步语义对齐的异构缺陷预测方法(SHSSAN).一方面,探索从标记的源项目中学到的隐性知识,从而在类别之间传递相关性,达到隐式语义信息迁移.另一方面,为了学习未标记目标数据的语义表示,通过目标伪标签进行质心匹配达到显式语义对齐.同时,SHSSAN可以有效解决异构缺陷数据集中常见的类不平衡和数据线性不可分问题,并充分利用目标项目中的标签信息.对包含30个不同项目的公共异构数据集进行的实验表明,与目前表现优异的CTKCCA、CLSUP、MSMDA、KSETE和CDAA方法相比,在F-measure和AUC上分别提升了6.96%、19.68%、19.43%、13.55%、9.32%和2.02%、3.62%、2.96%、3.48%、2.47%.
-
关键词
异构缺陷预测
语义对齐
少样本数据
类不平衡
线性不可分
-
Keywords
heterogeneous defect prediction(hdp)
semantic alignment
few sample data
class imbalance
linearly inseparable
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-