期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
基于pu-learning的同行评议文本情感分析 被引量:2
1
作者 林原 王凯巧 +3 位作者 杨亮 林鸿飞 任璐 丁堃 《计算机工程与应用》 CSCD 北大核心 2023年第3期143-149,共7页
最近几年逐渐出现了对同行评议文本情感分析的研究,包括通过同行评议文本预测审稿人的推荐状态的任务。现有模型融入了论文本身或摘要信息,采用神经网络学习论文或摘要的高层表示,结合同行评议文本预测审稿人的推荐状态,这使得模型变得... 最近几年逐渐出现了对同行评议文本情感分析的研究,包括通过同行评议文本预测审稿人的推荐状态的任务。现有模型融入了论文本身或摘要信息,采用神经网络学习论文或摘要的高层表示,结合同行评议文本预测审稿人的推荐状态,这使得模型变得非常复杂的同时结果却没有实质性的提高。为此,提出了OSA机制来提高情感分析模型中对观点句的关注度。具体来说,采用pu-learning从同行评议文本的前N个句子中学习观点句的特征,使每一个句子都得到一个观点句权重,将其应用于情感分析模型的倒数第二层,由此得到最终的预测结果。在ICLR2017—2018数据集上使用不同的情感分析模型对OSA进行了评估,实验结果验证了OSA的高效性,并在两个数据集上取得了优异的性能。 展开更多
关键词 同行评议 情感分析 pu-learning 数据挖掘
下载PDF
基于PU-Learning和TextCNN的文献推荐方法研究
2
作者 刁羽 薛红 《新世纪图书馆》 2024年第2期66-73,共8页
论文旨在将现有的机器学习研究成果运用到图书馆文献推荐的实际工作中,以充分发挥电子资源的作用。鉴于难以获得用户对文献资源的显式评价,因此将用户浏览、下载的文献视为正类文献,将用户未交互的文献视为未标记文献,通过卷积网络文本... 论文旨在将现有的机器学习研究成果运用到图书馆文献推荐的实际工作中,以充分发挥电子资源的作用。鉴于难以获得用户对文献资源的显式评价,因此将用户浏览、下载的文献视为正类文献,将用户未交互的文献视为未标记文献,通过卷积网络文本分类模型并结合PU-Learning算法对待推荐文献的推荐概率进行预测。实践证明该方法具有较高的精准性,能够在图书馆文献推荐实际应用中发挥作用。 展开更多
关键词 卷积神网络 电子文献推荐 pu-learning 文本分类
下载PDF
基于融合特征的虚假评论检测方法 被引量:3
3
作者 张考 于洪涛 崔瑞飞 《信息工程大学学报》 2016年第4期504-508,512,共6页
针对现有虚假评论检测方法未充分利用用户历史行为中蕴含的动态信息,首先利用时序分析模型从这些动态信息中挖掘能够刻画用户行为的动态特征;其次,融合这些动态特征与用户层面静态特征发现可疑用户,并将用户可疑概率传播至用户所发表评... 针对现有虚假评论检测方法未充分利用用户历史行为中蕴含的动态信息,首先利用时序分析模型从这些动态信息中挖掘能够刻画用户行为的动态特征;其次,融合这些动态特征与用户层面静态特征发现可疑用户,并将用户可疑概率传播至用户所发表评论得到评论可疑概率;最后,融合评论可疑概率与评论层面静态特征形成融合特征,使用PU-Learning分类策略实现虚假评论的检测。真实数据集上的实验表明,本文方法的性能优于现有方法。 展开更多
关键词 时序分析 动态特征 融合特征 虚假评论 pu-learning
下载PDF
基于PU-learning的磷酸激酶预测算法
4
作者 王艺琪 王明举 +3 位作者 张进 彭智才 魏森 谢多双 《北京生物医学工程》 2019年第4期360-368,共9页
目的蛋白质磷酸化是通过激酶催化特定位点把磷酸基转移到底物蛋白质氨基酸残基的过程,是研究蛋白质活力及功能的重要机制。目前已鉴定的数千个磷酸化位点大多缺失激酶信息,为此本研究提出基于PU-learning的磷酸激酶预测算法,通过迭代标... 目的蛋白质磷酸化是通过激酶催化特定位点把磷酸基转移到底物蛋白质氨基酸残基的过程,是研究蛋白质活力及功能的重要机制。目前已鉴定的数千个磷酸化位点大多缺失激酶信息,为此本研究提出基于PU-learning的磷酸激酶预测算法,通过迭代标记磷酸位点,可以准确预测催化磷酸肽的磷酸激酶。方法首先该算法以PU-learning为框架,利用最大熵方差对不同种类的磷酸激酶自动筛选最佳阈值,从而提取每条磷酸肽上潜在的磷酸化位点,然后根据统计分析确定磷酸化位点对应的激酶,最后通过五折交叉验证该算法在Phospho.ELM数据库上的预测性能,并与现有算法对比。结果该算法的交叉验证特异性和灵敏度比现有最好算法在单个数据集上最高提高4%及10%,其预测Phospho.ELM中数据准确度达到79.52%。结论基于PU-learning的磷酸激酶预测算法显著优于现有算法,且可以准确预测Phospho.ELM数据库中未知激酶信息的磷酸肽,在磷酸化实验中具有较强的指导意义。 展开更多
关键词 蛋白质磷酸化 生物信息 半监督学习 pu-learning 磷酸激酶预测
下载PDF
基于数据模糊性的PU学习研究
5
作者 李婷婷 吕佳 《北京师范大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第1期45-51,共7页
PU学习是指从正例样本和无标记样本中训练分类器的一种学习方法.针对传统PU学习中所含初始正例过少,难以有效地从无标记样本中选出可靠负例,且分类过程易受噪声点影响等问题.本文提出了一种基于数据模糊性来提取无标记样本中有效信息的P... PU学习是指从正例样本和无标记样本中训练分类器的一种学习方法.针对传统PU学习中所含初始正例过少,难以有效地从无标记样本中选出可靠负例,且分类过程易受噪声点影响等问题.本文提出了一种基于数据模糊性来提取无标记样本中有效信息的PU学习方法:先对正例无标记样本集进行半监督聚类,选出靠近正例样本的低模糊度数据来扩充初始正例集,并选择远离正例样本的低模糊度数据作为可靠负例;再剪辑掉无标记样本中高模糊度数据;最后在扩充后的正例样本集和可靠负例集上训练分类器,对初始无标记样本集进行分类.在标准数据集上的对比实验证实了提出算法的有效性. 展开更多
关键词 pu学习 模糊性 可靠负例 噪声点 分类边界
下载PDF
基于PU学习算法的虚假评论识别研究 被引量:30
6
作者 任亚峰 姬东鸿 +1 位作者 张红斌 尹兰 《计算机研究与发展》 EI CSCD 北大核心 2015年第3期639-648,共10页
识别虚假评论有着重要的理论意义与现实价值.先前工作集中于启发式策略和传统的全监督学习算法.最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚... 识别虚假评论有着重要的理论意义与现实价值.先前工作集中于启发式策略和传统的全监督学习算法.最近研究表明:人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚假评论并不合理.容易被错误标注的样例称为间谍样例,如何确定这些样例的类别标签将直接影响分类器的性能.基于少量的真实评论和大量的未标注评论,提出一种创新的PU(positive and unlabeled)学习框架来识别虚假评论.首先,从无标注数据集中识别出少量可信度较高的负例.其次,通过整合LDA(latent Dirichlet allocation)和K-means,分别计算出多个代表性的正例和负例.接着,基于狄利克雷过程混合模型(Dirichlet process mixture model,DPMM),对所有间谍样例进行聚类,混合种群性和个体性策略来确定间谍样例的类别标签.最后,多核学习算法被用来训练最终的分类器.数值实验证实了所提算法的有效性,超过当前的基准. 展开更多
关键词 虚假评论 全监督学习 pu学习 狄利克雷过程混合模型 多核学习
下载PDF
基于改进两步法采样策略和卷积神经网络的崩塌易发性评价
7
作者 邓日朗 张庆华 +4 位作者 刘伟 陈凌伟 谭建辉 高泽茂 郑先昌 《地质科技通报》 CAS CSCD 北大核心 2024年第2期186-200,共15页
机器学习在崩塌滑坡泥石流地质灾害易发性分析评价领域已得到广泛的研究性应用,非灾害样本的选取是易发性建模过程中的关键问题,传统随机抽样和手工标注方法可能存在随机性和主观性。将土质崩塌易发性评价视为正例无标记(positive and u... 机器学习在崩塌滑坡泥石流地质灾害易发性分析评价领域已得到广泛的研究性应用,非灾害样本的选取是易发性建模过程中的关键问题,传统随机抽样和手工标注方法可能存在随机性和主观性。将土质崩塌易发性评价视为正例无标记(positive and unlabeled,简称PU)学习,提出了一种结合信息量(information value,简称IV)和间谍技术(Spy)的两步卷积神经网络(convolutional neural networks,简称CNN)框架(ISpy-CNN)。以广州市黄埔区崩塌编录和15类基础环境因子,通过信息量模型筛选出部分低信息量样本;采用间谍技术训练CNN模型,从低信息量样本中识别出具有高置信度的可靠负例划分为非崩塌样本;分别基于该学习框架、传统间谍技术和随机抽样,使用支持向量机(support vector machine,简称SVM)和随机森林(random forest,简称RF)对比验证。结果表明,ISpy-CNN框架在验证集上的准确率、F1值、敏感度和特异度较随机采样分别提升了6.82%,6.82%,6.82%,8.23%,较传统Spy技术分别提升了2.86%,2.89%,2.86%,2.31%;PU学习中第2步采用CNN模型的预测精度高于RF和SVM模型;与传统Spy技术相比,增加相同数量训练样本,ISpy-CNN框架筛选的样本集表现出较高的稳定性、预测精度和增长率。本研究提出的ISpy-CNN框架能更好地辅助选取高质量非灾害样本,且崩塌易发性分区结果更符合实际的崩塌空间分布。 展开更多
关键词 崩塌 易发性评价 pu学习 间谍技术 信息量 卷积神经网络 随机森林 支持向量机
下载PDF
基于新型间谍技术的半监督自训练正例无标记学习 被引量:2
8
作者 李婷婷 吕佳 范伟亚 《计算机应用》 CSCD 北大核心 2019年第10期2822-2828,共7页
正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框... 正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框架对初始有标记样本进行聚类并选取离聚类中心较近的样本来取代间谍样本,这些样本能有效地映射出无标记样本的分布结构,从而更好地辅助选取可靠负例;然后对间谍技术划分后的可靠正例进行自训练提纯,采用二次训练的方式取回被误分为正例样本的可靠负例。该框架有效地解决了传统间谍技术在PU学习中分类效率易受数据分布干扰以及随机间谍样本影响的问题。通过9个标准数据集上的仿真实验结果表明,所提框架的平均分类准确率和F-值均高于基本PU学习算法(Basic_PU)、基于间谍技术的PU学习算法(SPY)、基于朴素贝叶斯的自训练PU学习算法(NBST)和基于迭代剪枝的PU学习算法(Pruning)。 展开更多
关键词 正例无标记学习 间谍技术 半监督自训练 聚类 可靠负例 可靠正例
下载PDF
基于PU学习的链接预测方法
9
作者 李琦 王智强 梁吉业 《模式识别与人工智能》 EI CSCD 北大核心 2019年第9期793-799,共7页
基于分类的链接预测方法中,由于链接未知节点对的大规模性与不确定性,选择可靠负例成为构造链接预测分类器的难点问题.为此,文中提出基于正例和无标识样本(PU)学习的链接预测方法.首先,提取节点对的拓扑信息以构造样本集.再利用社区结... 基于分类的链接预测方法中,由于链接未知节点对的大规模性与不确定性,选择可靠负例成为构造链接预测分类器的难点问题.为此,文中提出基于正例和无标识样本(PU)学习的链接预测方法.首先,提取节点对的拓扑信息以构造样本集.再利用社区结构确定候选负例的分布,基于分布进行多次欠采样,获得多个候选负例子集,集成多个负例集与正例集中构建的分类器选择可靠负例.最后基于正例与可靠负例构造链接预测分类器.在4个网络数据集上的实验表明文中方法预测结果较优. 展开更多
关键词 链接预测 正例和无标识样本(pu)学习 社区结构 集成学习
下载PDF
一种元路径下基于频繁模式的实体集扩展方法 被引量:8
10
作者 郑玉艳 田莹 石川 《软件学报》 EI CSCD 北大核心 2018年第10期2915-2930,共16页
实体集扩展是指已知某个特定类别的几个种子实体,根据一定的规则得到该类别的更多实体.作为一种经典的数据挖掘任务,实体集扩展已经有很多的应用,诸如字典建立、查询建议等.现有的实体集扩展主要是基于文本或网页信息,即实体之间的关系... 实体集扩展是指已知某个特定类别的几个种子实体,根据一定的规则得到该类别的更多实体.作为一种经典的数据挖掘任务,实体集扩展已经有很多的应用,诸如字典建立、查询建议等.现有的实体集扩展主要是基于文本或网页信息,即实体之间的关系从其在文本或者网页中的共现来推断.随着知识图谱研究的兴起,根据知识图谱中知识的共现来研究实体集扩展也成为了一种可能.主要研究知识图谱中的实体集扩展问题,即:给定几个种子实体,利用知识图谱来得到更多的同类别的实体.首先,把知识图谱建模成一个异质信息网络,即含有多种实体类型或者关系类型的网络,提出了一种新的元路径下基于频繁模式的实体集扩展方法,称为FPMP_ESE.FPMP_ESE采用异质信息网络中的元路径来捕捉种子实体之间的潜在共同特征.为了找到种子实体之间重要的元路径,设计了一种新的基于频繁模式的元路径自动产生算法FPMPG.之后,为了更好地给每条元路径分配相应的权重,设计了启发式的方法和PUlearning的方法.最后,在真实数据集Yago上的实验结果表明,所提出方法较其他方法在实体集扩展任务上具有更好的性能和更高的效率. 展开更多
关键词 知识图谱 实体集扩展 异质信息网络 元路径 频繁模式 pu learning
下载PDF
基于PU learning的信用卡交易安全监管研究
11
作者 陈任峰 朱鸿斌 《网络与信息安全学报》 2023年第3期73-78,共6页
目前信用卡套现手段复杂多变、虚假交易形态层出不穷,在仅有账户级套现标签数据的基础上,信用卡套现管理面临着与客户交互过程难以获取其真实交易情况的业务痛点。为了探究一种精准的信用卡虚假交易监管方法,以商业银行信用卡系统的套... 目前信用卡套现手段复杂多变、虚假交易形态层出不穷,在仅有账户级套现标签数据的基础上,信用卡套现管理面临着与客户交互过程难以获取其真实交易情况的业务痛点。为了探究一种精准的信用卡虚假交易监管方法,以商业银行信用卡系统的套现账户交易标签数据为研究对象,建立了基于PUlearning(positive-unlabeledlearning)的信用卡单笔交易安全识别模型。所提模型在样本数据标注中引入了间谍(Spy)机制,随机抽取高可靠套现交易正样本100万笔及待标注的交易样本130万笔,借助学习器预测结果分布对难以判别的非套现交易负样本进行标注,以获取相对可靠的负样本标签120万笔。基于上述正样本及标注得到的负样本数据,构建了信用卡客户属性信息、额度使用情况及交易偏好特征等120个候选变量,通过变量重要性筛选得到入模变量近50个,利用XGBoost二分类算法进行模型开发预测。结果显示,所提模型对信用卡套现虚假交易的识别准确率为94.20%,群体稳定性指标(PSI)为0.10%,表明基于PUlearning的单笔交易安全识别模型能够实现对信用卡虚假交易的有效监测。该研究改进了机器学习二分类算法在难以获取高精度样本标签数据场景下的模型判别性能,为商业银行信用卡系统交易安全监控提供了新方法。 展开更多
关键词 套现交易数据监测 信用卡系统安全监管 半监督学习 pu learning
下载PDF
一种基于内容的新闻推荐系统实例 被引量:5
12
作者 代晨旭 周熙晨 《电脑知识与技术》 2015年第9期36-38,共3页
互联网的飞速发展产生了”信息过载”问题,新闻数量的爆炸性增长使得读者受到“信息迷航”问题的困扰。为解决这一问题新闻推荐系统应运而生。文章针对该系统的关键部分即新闻特征值提取和用户画像做了深入的研究。采用了TFIOF进行新... 互联网的飞速发展产生了”信息过载”问题,新闻数量的爆炸性增长使得读者受到“信息迷航”问题的困扰。为解决这一问题新闻推荐系统应运而生。文章针对该系统的关键部分即新闻特征值提取和用户画像做了深入的研究。采用了TFIOF进行新闻分词及特征值提取,将新闻用空间向量模型表示并利用PuLearning来解决用户画像时负反馈数据难以得到的问题。最后以实例证明了该方法的可行性。 展开更多
关键词 推荐系统 词频一逆文档概率 用户画像 负反馈数据 pu学习
下载PDF
论章太炎的正名思想--从语文规范到语言哲学 被引量:5
13
作者 孟琢 陈子昊 《杭州师范大学学报(社会科学版)》 CSSCI 2018年第5期65-72,共8页
正名是章太炎学术思想的基础。章太炎在继承荀学和朴学的过程中,形成了通过"溯本"确立语言历史理据、通过"辨体"协调语言规范性与约定性关系的基本理路,这在原名、制名、订名的正名实践中得到充分显现。章太炎的正... 正名是章太炎学术思想的基础。章太炎在继承荀学和朴学的过程中,形成了通过"溯本"确立语言历史理据、通过"辨体"协调语言规范性与约定性关系的基本理路,这在原名、制名、订名的正名实践中得到充分显现。章太炎的正名思想是对历史剧变的积极回应,体现出丰富的现实关怀。在齐物哲学中,章太炎通过"众同分"的阐释,建立起正名的哲学基础。 展开更多
关键词 章太炎 正名 荀子 朴学 辨体 齐物
下载PDF
强化学习离线策略评估研究综述 被引量:1
14
作者 王硕汝 牛温佳 +6 位作者 童恩栋 陈彤 李赫 田蕴哲 刘吉强 韩臻 李浥东 《计算机学报》 EI CAS CSCD 北大核心 2022年第9期1926-1945,共20页
在强化学习应用中,为避免意外风险,需要在强化学习实际部署前进行离线策略评估(Off-Policy Evaluation,OPE),这在机器人、自动驾驶等领域产生了巨大的应用前景.离线策略评估是从行为策略收集到的轨迹数据中,不需要通过实际的强化学习而... 在强化学习应用中,为避免意外风险,需要在强化学习实际部署前进行离线策略评估(Off-Policy Evaluation,OPE),这在机器人、自动驾驶等领域产生了巨大的应用前景.离线策略评估是从行为策略收集到的轨迹数据中,不需要通过实际的强化学习而估计目标策略的状态价值,通常情况下学习目标是使所估计的目标策略状态价值与目标策略真实执行的状态价值均方误差尽可能小.行为策略与目标策略间的差异性,以及新应用中出现的行为策略奖励稀疏性,不断给离线策略评估带来了挑战.本文系统性地梳理了近二十年离线策略评估的主要方法:纯模型法、重要性采样法、混合模型法和PU学习法(Positive Unlabeled,PU),主要内容包括:(1)描述了离线策略评估的相关理论背景知识;(2)分别阐述了各类方法的机理、方法中模型的细节差异;(3)详细对各类方法及模型进行了机理对比,并通过实验进行了主流离线策略评估模型的程序复现与性能对比.最后展望了离线策略评估的技术挑战与可能发展方向. 展开更多
关键词 人工智能 强化学习 离线策略评估 重要性采样 pu学习
下载PDF
基于PU学习的工业控制系统异常检测方法 被引量:2
15
作者 王伟 谢耀滨 尹青 《信息工程大学学报》 2019年第2期210-216,共7页
随着信息化的发展,工业控制系统面临严重的安全威胁,提出一种基于PU学习的工业控制系统异常检测方法。该方法通过状态表示将状态变量表示为二元组,从少量正常样本片段中提取状态转换图,从大量未标记样本中生成孤立森林模型。根据状态转... 随着信息化的发展,工业控制系统面临严重的安全威胁,提出一种基于PU学习的工业控制系统异常检测方法。该方法通过状态表示将状态变量表示为二元组,从少量正常样本片段中提取状态转换图,从大量未标记样本中生成孤立森林模型。根据状态转换图和孤立森林模型分别判断状态转换关系和状态自循环的正确性。在工控系统测试平台SWaT上进行验证,结果表明,当污染率c取12%时检测效果最佳,与基于协同训练与C4.5决策树的方法相比,从根本上提升了异常的查全率。 展开更多
关键词 工业控制系统 异常检测 pu学习 状态转换图 孤立森林
下载PDF
一种具有增量学习能力的PU主动学习算法 被引量:1
16
作者 陈文 晏立 周亮 《计算机工程》 CAS CSCD 北大核心 2011年第4期214-215,226,共3页
在正例和无标记样本增量学习中,初始正例样本较少且不同类别正例的反例获取困难,使分类器的分类和泛化能力不强,为解决上述问题,提出一种具有增量学习能力的PU主动学习算法,在使用3个支持向量机进行协同半监督学习的同时,利用基于网格... 在正例和无标记样本增量学习中,初始正例样本较少且不同类别正例的反例获取困难,使分类器的分类和泛化能力不强,为解决上述问题,提出一种具有增量学习能力的PU主动学习算法,在使用3个支持向量机进行协同半监督学习的同时,利用基于网格的聚类方法进行无监督学习,当分类与聚类结果不一致时,引入主动学习对无标记样本进行标记。实验结果表明,将该算法应用于Deep Web入口的在线判断和分类能有效提高入口判断的准确性及分类的正确性。 展开更多
关键词 pu学习 支持向量机 基于网格的聚类
下载PDF
基于PU分类的差分区分器及其应用 被引量:1
17
作者 宿恒川 朱宣勇 段明 《密码学报》 CSCD 2021年第2期330-337,共8页
差分分析方法的核心是构造高效的差分区分器.2019年Aron Gohr采用深度学习残差网络的方法构造差分区分器,应用于减轮Speck32/64密码算法,五轮和六轮的差分器成功率分别是0.929和0.788.本文采用PU学习(positive-unlabeled learning)的方... 差分分析方法的核心是构造高效的差分区分器.2019年Aron Gohr采用深度学习残差网络的方法构造差分区分器,应用于减轮Speck32/64密码算法,五轮和六轮的差分器成功率分别是0.929和0.788.本文采用PU学习(positive-unlabeled learning)的方法,对Speck32/64算法的差分对数据进行训练,利用神经网络中的多层感知机与基于PU学习构造的损失函数,训练得到了一个基于PU分类的差分区分器,并对于减轮Speck32/64算法进行攻击,五轮和六轮差分器成功率分别是0.965和0.860. 展开更多
关键词 pu学习 SPECK 差分区分器
下载PDF
基于关联分类算法的PU学习研究 被引量:1
18
作者 杨建林 刘扬 《数据分析与知识发现》 CSSCI CSCD 2017年第11期12-18,共7页
【目的】基于常用的关联分类算法CBA进行PU学习研究。【方法】将训练集中比例为?的正样本作为未被识别出的正样本,与负样本一起组成未标记样本集,从而构建PU学习场景。其中,基于全部正类别分类关联规则对样本进行分类,并使用分类关联规... 【目的】基于常用的关联分类算法CBA进行PU学习研究。【方法】将训练集中比例为?的正样本作为未被识别出的正样本,与负样本一起组成未标记样本集,从而构建PU学习场景。其中,基于全部正类别分类关联规则对样本进行分类,并使用分类关联规则相对置信度衡量分类关联规则分类结果的可信度。【结果】当?取值分别为0、0.3、0.6、0.9时,在实验数据集上,本文方法的分类结果的AUC值较CBA算法分别平均提高6.21%、11.15%、13.50%、16.56%,较POSC4.5算法分别平均提高11.27%、15.03%、12.22%、7.37%。【局限】由于未对全部样本中真实正样本所占的比例进行估计,并据此对分类关联规则的置信度进行修正,因而所提方法的分类效果随?取值的增长呈下降趋势。此外,CBA算法会产生大量的冗余规则,而本文并未对其中的规则进行筛选。【结论】本文方法在PU学习场景中的分类效果优于CBA算法和POSC4.5算法。 展开更多
关键词 关联分类 pu学习 CBA算法
原文传递
汉学涵义辩正——兼论峻立汉学家法的思想史意义
19
作者 李海生 《上海行政学院学报》 2003年第3期52-58,共7页
明末清初,我国学界出现了一股摒弃宋明理学、竞尚古经的思潮,延至乾嘉,终成气象,史称:朴学思潮。很久以来,人们亦习惯以“汉学”名之。其实,清儒标榜“汉学”,并非单纯地意指汉代学术,而是在张扬一种崇尚,于内表现为学术理念,于外规制... 明末清初,我国学界出现了一股摒弃宋明理学、竞尚古经的思潮,延至乾嘉,终成气象,史称:朴学思潮。很久以来,人们亦习惯以“汉学”名之。其实,清儒标榜“汉学”,并非单纯地意指汉代学术,而是在张扬一种崇尚,于内表现为学术理念,于外规制为学术范型,亦即形式上以考据为正统,观念上推崇汉儒经解,本质则是求真,同时还表达了强烈的“非宋学”含义。朴学的“汉学”化改造,完成于乾隆年间,最典型的标志是惠栋峻立汉学家法,可用二十字简括,即明源流、笃信汉、从古字、审古音、谨遵古训、鲜下己见,使考据学问有了明晰的规格,并为学界公认。峻立汉学家法使清代学术上了一个台阶,它既衔接了先导大师的反宋学传统,又抬升了治学的规格,改变了汉宋芜杂、规法不严的混沌状况,为朴学自主成军、出一宗派,继而占领全学界奠定了基础。 展开更多
关键词 思想史 汉学 汉学家法 朴学 惠栋峻立
原文传递
基于PU学习的软件故障检测研究 被引量:1
20
作者 张荷 李梅 +1 位作者 张阳 蔡晓妍 《计算机应用研究》 CSCD 北大核心 2015年第11期3324-3327,3331,共5页
针对软件故障数据中正例样本相对较少且大量样本标注困难的现实场景,已知未标注样本中包含用于建立故障检测模型的大量有用信息,提出仅用正例和未标注数据构建分类模型对软件开发过程中的故障进行检测的半监督学习方法。首先采用合成少... 针对软件故障数据中正例样本相对较少且大量样本标注困难的现实场景,已知未标注样本中包含用于建立故障检测模型的大量有用信息,提出仅用正例和未标注数据构建分类模型对软件开发过程中的故障进行检测的半监督学习方法。首先采用合成少数类过采样SMOTE算法对数据集中的正例样本进行过采样,平衡数据集中的类分布。在此基础上合理构建正例集合和未标注集合,采用POSC 4.5和Bagging算法构建软件故障决策树集成分类器。通过对NASA MDP数据库中的12个数据集进行对比实验,结果表明,仅用正例和未标注数据建模可以得到与有监督学习方法相近的软件故障检测率,且集成分类器方法比单分类器方法具有更高的检测率,未标注样本集大小的软件故障检测率同样有影响。 展开更多
关键词 软件故障检测 正例和未标注学习 不平衡数据 决策树 集成分类器
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部