期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
迁移学习研究进展 被引量:462
1
作者 罗平 +1 位作者 何清 史忠植 《软件学报》 EI CSCD 北大核心 2015年第1期26-39,共14页
近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1)用于学习的训练样本与新的测试样本满足独立同分布的条件;(2)... 近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1)用于学习的训练样本与新的测试样本满足独立同分布的条件;(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向. 展开更多
关键词 迁移学习 相关领域 独立同分布 生成模型 概念学习
下载PDF
协同过滤推荐系统综述 被引量:41
2
作者 赵俊逸 +3 位作者 敖翔 何清 蒋慧琴 马岭 《信息安全学报》 CSCD 2021年第5期17-34,共18页
随着互联网和信息计算的飞速发展,衍生了海量数据,我们已经进入信息爆炸的时代。网络中各种信息量的指数型增长导致用户想要从大量信息中找到自己需要的信息变得越来越困难,信息过载问题日益突出。推荐系统在缓解信息过载问题中起着非... 随着互联网和信息计算的飞速发展,衍生了海量数据,我们已经进入信息爆炸的时代。网络中各种信息量的指数型增长导致用户想要从大量信息中找到自己需要的信息变得越来越困难,信息过载问题日益突出。推荐系统在缓解信息过载问题中起着非常重要的作用,该方法通过研究用户的兴趣偏好进行个性化计算,由系统发现用户兴趣进而引导用户发现自己的信息需求。目前,推荐系统已经成为产业界和学术界关注、研究的热点问题,应用领域十分广泛。在电子商务、会话推荐、文章推荐、智慧医疗等多个领域都有所应用。传统的推荐算法主要包括基于内容的推荐、协同过滤推荐以及混合推荐。其中,协同过滤推荐是推荐系统中应用最广泛最成功的技术之一。该方法利用用户或物品间的相似度以及历史行为数据对目标用户进行推荐,因此存在用户冷启动和项目冷启动问题。此外,随着信息量的急剧增长,传统协同过滤推荐系统面对数据的快速增长会遇到严重的数据稀疏性问题以及可扩展性问题。为了缓解甚至解决这些问题,推荐系统研究人员进行了大量的工作。近年来,为了提高推荐效果、提升用户满意度,学者们开始关注推荐系统的多样性问题以及可解释性等问题。由于深度学习方法可以通过发现数据中用户和项目之间的非线性关系从而学习一个有效的特征表示,因此越来越受到推荐系统研究人员的关注。目前的工作主要是利用评分数据、社交网络信息以及其他领域信息等辅助信息,结合深度学习、数据挖掘等技术提高推荐效果、提升用户满意度。对此,本文首先对推荐系统以及传统推荐算法进行概述,然后重点介绍协同过滤推荐算法的相关工作。包括协同过滤推荐算法的任务、评价指标、常用数据集以及学者们在解决协同过滤算法存在的问题时所� 展开更多
关键词 推荐系统 协同过滤 稀疏性 深度学习
下载PDF
PDMiner:基于云计算的并行分布式数据挖掘工具平台 被引量:28
3
作者 何清 +2 位作者 曾立 赵卫中 谭庆 《中国科学:信息科学》 CSCD 2014年第7期871-885,共15页
随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究... 随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究.但是由于数据规模的增长,以往的很多研究工作并不能有效地处理大规模数据,因此,开发设计或者扩展已有算法使之能处理大规模数据集,已经成为数据挖掘中非常重要的研究课题.近年来,基于云计算的数据挖掘技术研究已经成为一个热点话题,本文中我们研究开发一个基于大规模数据处理平台Hadoop的并行分布式数据挖掘工具平台PDMiner.在PDMiner中,开发实现了各种并行数据挖掘算法,比如数据预处理、关联规则分析以及分类、聚类等算法.实验结果表明,并行分布式数据挖掘工具平台PDMiner中实现的并行算法:1)能够处理大规模数据集,达到TB级别;2)具有很好的加速比性能;3)大大整合利用已有的计算资源,因为这些算法可以在由这些商用机器构建的并行平台上稳定运行,提高了计算资源的利用效率;4)可以有效地应用到实际海量数据挖掘中.此外,在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务.更重要的是,我们开放了灵活的接口方便用户开发集成新的并行数据挖掘算法. 展开更多
关键词 云计算 并行算法 分布式 数据挖掘 大数据
原文传递
基于云计算的大数据挖掘平台 被引量:22
4
作者 何清 《中兴通讯技术》 2013年第4期32-38,共7页
开发了一个基于云计算的并行分布式大数据挖掘平台——PDMiner。PDMiner实现了各种并行数据挖掘算法,如数据预处理、关联规则分析以及分类、聚类等算法。实验结果表明,并行分布式数据挖掘平台PDMiner中实现的并行算法,能够处理大规模数... 开发了一个基于云计算的并行分布式大数据挖掘平台——PDMiner。PDMiner实现了各种并行数据挖掘算法,如数据预处理、关联规则分析以及分类、聚类等算法。实验结果表明,并行分布式数据挖掘平台PDMiner中实现的并行算法,能够处理大规模数据集,达到太字节级;具有很好的加速比性能;实现的并行算法可以在商用机器构建的并行平台上稳定运行,整合了已有的计算资源,提高了计算资源的利用效率;可以有效地应用到实际海量数据挖掘中。在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务。 展开更多
关键词 云计算 分布式并行数据挖掘 海量数据
下载PDF
蝴蝶种类自动识别研究 被引量:20
5
作者 谢娟英 侯琦 +6 位作者 史颖欢 吕鹏 景丽萍 张军平 谭晓阳 许升全 《计算机研究与发展》 EI CSCD 北大核心 2018年第8期1609-1618,共10页
针对现有蝴蝶识别研究中所用数据集蝴蝶种类偏少,且只含有蝴蝶标本照片、不含生态环境中蝴蝶照片的问题,发布了一个同时包含标本照片和生态照片的蝴蝶图像数据集,其中标本照片包含全部中国蝶类志蝴蝶种类,共计4 270张照片、1 176种,蝴... 针对现有蝴蝶识别研究中所用数据集蝴蝶种类偏少,且只含有蝴蝶标本照片、不含生态环境中蝴蝶照片的问题,发布了一个同时包含标本照片和生态照片的蝴蝶图像数据集,其中标本照片包含全部中国蝶类志蝴蝶种类,共计4 270张照片、1 176种,蝴蝶生态环境下照片1 425张、111种.提出基于深度学习技术Faster R-CNN的蝴蝶种类自动识别系统,包括生态照片中蝴蝶位置的自动检测和物种鉴定.实验去除只含有单张生态照片的蝴蝶种类,对剩余的蝴蝶生态照片进行5-5划分,构造2种不同训练数据集:一半生态照片+全部模式照片、一半生态照片+对应种类模式照片;训练3种不同网络结构的蝴蝶自动识别系统,以平均精度均值(mean average precision,mAP)为评价指标,采用上下、左右翻转、不同角度旋转、加噪、不同程度模糊、对比度升降等9种方式扩充训练集.实验结果表明,基于Faster R-CNN深度学习框架的蝴蝶自动识别系统对生态环境中的蝴蝶照片能实现其中蝴蝶位置的自动检测和物种识别,模型的mAP最低值接近60%,并能同时检测出生态照中的多只蝴蝶和完成物种识别. 展开更多
关键词 蝴蝶 自动识别 目标检测 深度学习 分类
下载PDF
一种基于Hadoop的大数据挖掘云服务及应用 被引量:13
6
作者 何清 敖翔 +1 位作者 罗平 《信息通信技术》 2015年第6期42-49,共8页
大数据潜在价值的发现依靠的是数据挖掘技术,但时间成本、技术门槛和价格因素等方面的原因使得相当多的数据拥有者没有享受到大数据所带来的利益。若数据挖掘以服务方式提供给数据拥有者将有可能对他们带来极大帮助。文章介绍一种基于Ha... 大数据潜在价值的发现依靠的是数据挖掘技术,但时间成本、技术门槛和价格因素等方面的原因使得相当多的数据拥有者没有享受到大数据所带来的利益。若数据挖掘以服务方式提供给数据拥有者将有可能对他们带来极大帮助。文章介绍一种基于Hadoop的大数据挖掘云服务WMCS的平台架构,分析其在政府和证券行业的相关应用,具体阐述WMCS的前后台架构以及并行化算法实现方法示例。基于WMCS,在面向政府管理的网络事件子话题分析和面向证券行业的新闻情感分析两个原型应用上的效果表明,该平台具有良好的效果与广泛的应用前景。 展开更多
关键词 大数据 数据挖掘 云服务 HADOOP
下载PDF
基于集成局部性特征学习的推荐算法 被引量:8
7
作者 罗丹 何清 《计算机科学与探索》 CSCD 北大核心 2018年第6期851-858,共8页
以往的协同过滤方法大部分采用基于矩阵分解的方法来学习用户和商品的隐性特征表示,但是基于矩阵分解的方法没有完全利用评分信息,导致不好的效果。近年来,深度学习已经在自然语言处理、语音识别以及图像分类等领域被证明可以很好地进... 以往的协同过滤方法大部分采用基于矩阵分解的方法来学习用户和商品的隐性特征表示,但是基于矩阵分解的方法没有完全利用评分信息,导致不好的效果。近年来,深度学习已经在自然语言处理、语音识别以及图像分类等领域被证明可以很好地进行表示学习。而且在用户对商品的评分矩阵中,不仅只有评分信息,还有隐含的倾向性排序信息。更进一步,针对整个评分矩阵进行特征表示学习的时候,不能满足用户聚类以及商品类别的局部结构特性。因此,提出了一种基于集成局部性特征学习的推荐算法。在该算法中,利用随机选择的锚点得到局部矩阵,然后在局部矩阵上利用自动编码机进行学习得到子模型,同时定义一种(用户,商品)二元组来考虑评分信息的排序关系。在两组数据上进行了实验,结果表明该算法显著优于经典的基于矩阵分解的推荐算法,并且该算法将深度学习用于推荐系统中,效果比LCR(local collaborative ranking)优越。 展开更多
关键词 推荐系统 深度学习 自动编码机 排序学习 局部结构
下载PDF
基于MapReduce的并行PLSA算法及在文本挖掘中的应用 被引量:7
8
作者 李宁 罗文娟 +2 位作者 何清 史忠植 《中文信息学报》 CSCD 北大核心 2015年第2期79-86,共8页
PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来... PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。 展开更多
关键词 概率主题模型 MAPREDUCE 并行 语义分析
下载PDF
面向企业信用风险评估的多视角异质图神经网络方法
9
作者 魏少朋 梁婷 +2 位作者 赵宇 《计算机研究与发展》 EI CSCD 北大核心 2024年第8期1957-1967,共11页
企业信用风险评估是一个重要且具有挑战的问题.由于金融市场中存在大量的异质关联关系,使得异质图神经网络天然适合建模企业信用风险.然而,现有大部分研究不能充分捕捉到复杂金融网络中企业的综合信用风险.针对此问题,提出了一个面向企... 企业信用风险评估是一个重要且具有挑战的问题.由于金融市场中存在大量的异质关联关系,使得异质图神经网络天然适合建模企业信用风险.然而,现有大部分研究不能充分捕捉到复杂金融网络中企业的综合信用风险.针对此问题,提出了一个面向企业信用风险评估的多视角异质图神经网络方法——CRGNN.该方法包含自身风险编码器以及传染风险编码器,其中自身风险编码器建模基于企业特征信息的自身风险,传染风险编码器由新提出的分层异质图Transformer网络和分层异质图特征注意力网络2个子模块组成.这2个模块分别挖掘基于企业不同邻居视角的传染风险和基于不同特征维度视角的传染风险.为了充分利用异质关系信息,2个模块都采用了分层机制.在企业破产预测数据集SMEsD和企业信用评估数据集ECAD上进行了大量的实验,AUC指标相比最优基线模型分别提高了3.98个百分点和3.47个百分点. 展开更多
关键词 图神经网络 信用风险评估 传染风险 深度学习 金融科技
下载PDF
基于集合效用边际贡献学习的可解释薪酬预测算法
10
作者 孙莹 章玉婷 +3 位作者 祝恒书 何清 熊辉 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1276-1289,共14页
知识技能对薪酬影响作用视为一种多变量影响下高维元素集合的效用建模问题.深度神经网络为解决复杂问题提供了新的机遇,但针对知识导向的细粒度薪酬预测问题,仍缺乏能够对复杂变量影响下的集合效用进行准确、可解释建模的神经网络结构.... 知识技能对薪酬影响作用视为一种多变量影响下高维元素集合的效用建模问题.深度神经网络为解决复杂问题提供了新的机遇,但针对知识导向的细粒度薪酬预测问题,仍缺乏能够对复杂变量影响下的集合效用进行准确、可解释建模的神经网络结构.为此,提出一种基于边际贡献的增量式集合效用网络(marginal contribution-based incremental set utility network,MCISUN)来拟合元素加入时的效用增量,从而灵活且可解释地建模集合效用.区别于以往基于池化层的排列不变性建模算法,MCISUN构建顺序敏感的中间结果,利用集合的排列不变性实现数据增强,有效提升模型数据效率及泛化性.最后,大规模真实薪酬数据上的实验结果表明所提模型在基于技能的薪酬预测任务上比最先进的(state-of-the-art,SOTA)模型效果提升超过30%.同时,定性实验证明模型能够为技能设置合理的贡献值且发现技能间的关联. 展开更多
关键词 集合效用建模 边际贡献 薪酬预测 神经网络 可解释性
下载PDF
易变数据流的系统资源配置方法 被引量:3
11
作者 王春凯 史忠植 《智能系统学报》 CSCD 北大核心 2019年第6期1278-1285,共8页
大规模数据流管理系统往往由上层的关系查询系统和下层的流处理系统组成。当用户提交查询请求时,往往需要根据数据流的流速和分布情况动态配置系统参数。然而,由于数据流的易变性,频繁改变参数配置会降低系统性能。针对该问题,提出了Ori... 大规模数据流管理系统往往由上层的关系查询系统和下层的流处理系统组成。当用户提交查询请求时,往往需要根据数据流的流速和分布情况动态配置系统参数。然而,由于数据流的易变性,频繁改变参数配置会降低系统性能。针对该问题,提出了OrientStream+框架。设定以用户自定义查询延迟阈值为间隔片段的微批量数据流传输机制;并利用多级别管道缓存,对相同配置的数据流进行批量处理;然后按照数据流的时间戳计算出精准查询结果;引入基于异常检测的增量学习模型,用于提高OrientStream+的预测精度。最后,在Storm上实现了该资源配置框架,并进行了大量的实验。实验结果表明,OrientStream+框架可进一步降低系统的处理延迟并提高系统的吞吐率。 展开更多
关键词 大规模数据流管理系统 易变数据流 增量学习 模型预测 参数配置 微批处理 系统性能 异常检测
下载PDF
融合用户内容与关系结构的用户影响力算法 被引量:3
12
作者 马慧芳 师亚凯 +1 位作者 谢蒙 《计算机应用》 CSCD 北大核心 2015年第12期3487-3490,3496,共5页
为快速检测出信息传播的途径,减少恶意信息造成的影响,提出了一种迭代的融合用户内容与关系结构的用户影响力算法(CSIAI)。该算法通过用户微博内容建模,迭代计算出词-用户文档的相似性;另外通过微博的关注和被关注行为,建立用户关系结构... 为快速检测出信息传播的途径,减少恶意信息造成的影响,提出了一种迭代的融合用户内容与关系结构的用户影响力算法(CSIAI)。该算法通过用户微博内容建模,迭代计算出词-用户文档的相似性;另外通过微博的关注和被关注行为,建立用户关系结构,计算用户影响力权值,得到用户的影响力邻接矩阵,提取k个较大影响力的节点作为信息传播的路径。在检测仿真实验中,CSIAI以影响覆盖率和响应时间作为评价指标,根据扩充后的新知识库,确定CSIAI中参数α和β的关系。随着用户数量增长,CSIAI的影响覆盖率和响应时间性能明显优于PageRank、CELF和非迭代的融合用户内容与关系结构的用户影响力算法(CSIA)。实验结果表明,CSIAI能有效地检测到信息的传播情况。 展开更多
关键词 微博内容 用户关系 影响力 信息传播 相似度迭代计算
下载PDF
大数据挖掘与云服务模式 被引量:3
13
作者 何清 《高科技与产业化》 2013年第8期56-61,共6页
随着物联网、移动通信、移动互联网和数据自动采集技术的飞速发展以及在各行各业的广泛应用,人类社会所拥有的数据面临着前所未有的爆炸式增长。美国互联网数据中心指出,互联网上的数据每年以50%的速度增长,每两年翻一番,而目前世界上90... 随着物联网、移动通信、移动互联网和数据自动采集技术的飞速发展以及在各行各业的广泛应用,人类社会所拥有的数据面临着前所未有的爆炸式增长。美国互联网数据中心指出,互联网上的数据每年以50%的速度增长,每两年翻一番,而目前世界上90%以上的数据是最近几年才产生的,人类社会进入了"大数据"时代。因此,信息的获取非常重要,一定程度上,信息的拥有量已经成为决定和制约社会发展的重要因素。 展开更多
关键词 服务模式 数据挖掘 互联网数据中心 移动互联网 人类社会 移动通信 采集技术 社会发展
原文传递
基于Spark的高效并行自动编码机 被引量:1
14
作者 钱明达 +2 位作者 申恩兆 张大鹏 何清 《数据采集与处理》 CSCD 北大核心 2018年第1期65-74,共10页
机器学习中一个非常关键的问题就是如何获取良好的数据特征表示,许多经典的特征提取方法是基于数据间关系或利用简单线性组合降维后得到数据的特征表示。其中深度学习算法在各种学习任务中都可以取得良好的效果,而且可以学到很好的数据... 机器学习中一个非常关键的问题就是如何获取良好的数据特征表示,许多经典的特征提取方法是基于数据间关系或利用简单线性组合降维后得到数据的特征表示。其中深度学习算法在各种学习任务中都可以取得良好的效果,而且可以学到很好的数据特征表示。但现有深度学习算法或模型大多为单机串行实现,不能处理较大规模的数据且运行时间较长。本文设计实现了一种基于Spark分布式平台的高效并行自动编码机,该编码机可以有效地进行特征表示学习,并且利用分布式计算平台Spark对算法进行加速,优化了对稀疏数据的操作,大大提升了运行效率。本文通过在文本数据特征学习以及协同过滤两个任务上的实验,表明本文所实现的并行自动编码机的有效性和高效性。 展开更多
关键词 自动编码机 SPARK 机器学习 深度学习 特征学习
下载PDF
厦门市新型冠状病毒肺炎境外输入确诊人数的预测模型构建和评价
15
作者 张怡盾 童逸琦 +2 位作者 黄仕杰 黄思颖 《中国医院统计》 2021年第6期513-517,共5页
目的分析厦门市境外疫情输入风险,为公共卫生部门防范境外输入病例传播提供数据支撑;评估医疗资源未来是否会出现紧缺,为本地指挥部门的行政决策提供参考依据。方法构建了一个统计模型对厦门市境外输入病例进行预测。因厦门初始样本数... 目的分析厦门市境外疫情输入风险,为公共卫生部门防范境外输入病例传播提供数据支撑;评估医疗资源未来是否会出现紧缺,为本地指挥部门的行政决策提供参考依据。方法构建了一个统计模型对厦门市境外输入病例进行预测。因厦门初始样本数量较少,模型首先根据广州的境外输入情况进行初始化,再基于厦门每日的疫情情况进行拟合。考虑到入境政策不断变化和各个国家(地区)疫情的快速发展,构建并维护字典来动态计算不同国家旅客的入境确诊风险权重,最后采用指数平滑法对模型进行参数更新。结果2020年3月23日至12月31日,厦门市累计报告境外输入新型冠状病毒肺炎确诊病例和无症状感染者277例,模型预测257例,F1值达到77.3%。结论该统计模型具备较好的预测能力。 展开更多
关键词 厦门市 新型冠状病毒 入境确诊人数 预测 指数平滑法 统计模型
下载PDF
基于知识图谱的推荐系统研究综述 被引量:110
16
作者 秦川 祝恒书 +6 位作者 郭庆宇 张琦 张乐 王超 陈恩红 熊辉 《中国科学:信息科学》 CSCD 北大核心 2020年第7期937-956,共20页
推荐系统旨在为用户推荐个性化的在线商品或信息,其广泛应用于众多Web场景之中,来处理海量信息数据所导致的信息过载问题,以此提升用户体验.鉴于推荐系统强大的实用性,自20世纪90年代中期以来,研究者针对其方法与应用两方面,进行了大量... 推荐系统旨在为用户推荐个性化的在线商品或信息,其广泛应用于众多Web场景之中,来处理海量信息数据所导致的信息过载问题,以此提升用户体验.鉴于推荐系统强大的实用性,自20世纪90年代中期以来,研究者针对其方法与应用两方面,进行了大量广泛的研究.近年来,很多工作发现知识图谱中所蕴含的丰富信息可以有效地解决推荐系统中存在的一系列关键问题,例如数据稀疏、冷启动、推荐多样性等.因此,本文针对基于知识图谱的推荐系统这一领域进行了全面的综述.具体地,首先简单介绍推荐系统与知识图谱中的一些基本概念.随后,详细介绍现有方法如何挖掘知识图谱不同种类的信息并应用于推荐系统.此外,总结了相关的一系列推荐应用场景.最后,提出了对基于知识图谱的推荐系统前景的看法,并展望了该领域未来的研究方向. 展开更多
关键词 知识图谱 推荐系统 协同过滤 异质信息网络 图嵌入
原文传递
基于混合正则化的无标签领域的归纳迁移学习 被引量:5
17
作者 罗平 +1 位作者 何清 史忠植 《科学通报》 CAS CSCD 北大核心 2009年第11期1618-1625,共8页
近年来迁移学习已经引起了越来越广泛的兴趣,签数据以及源领域数据是不同分布的分类问题,且建立一个归纳分类模型对新来的目标数据进行预测.首先分析了直推式迁移学习(transductive transfer learning)中存在的类别比例漂移问题,然后提... 近年来迁移学习已经引起了越来越广泛的兴趣,签数据以及源领域数据是不同分布的分类问题,且建立一个归纳分类模型对新来的目标数据进行预测.首先分析了直推式迁移学习(transductive transfer learning)中存在的类别比例漂移问题,然后提出归一化的方法使得预测的类别比例接近于实际样本类别比例.更进一步,提出了一种基于混合正则化框架的归纳迁移学习算法.其中包括目标领域分布结构的流形正则化,预测概率的熵正则化,以及类别比例的期望正则化.这个框架被用于从源领域到目标领域学习的归纳模型中.最后,在实际文本数据集上的实验结果表明,提出的归纳迁移学习模型是有效的,同时该模型可以直接对新来的目标数据进行预测. 展开更多
关键词 迁移学习 归纳学习 直推式学习 混合正则化
原文传递
一种新型网络信息采集器的研究 被引量:3
18
作者 林欢欢 +1 位作者 王文杰 史忠植 《计算机仿真》 CSCD 北大核心 2009年第5期129-133,共5页
为了克服内容评价搜索策略算法"近视"和链接分析算法"主体偏移"的缺点,提出了一种使用内容评价搜索策略和链接分析策略结合的算法。使用的方法开发网络信息采集器能够极大地提高用户的检索速度,并能有效地限制检索... 为了克服内容评价搜索策略算法"近视"和链接分析算法"主体偏移"的缺点,提出了一种使用内容评价搜索策略和链接分析策略结合的算法。使用的方法开发网络信息采集器能够极大地提高用户的检索速度,并能有效地限制检索领域,大大减小检索结果的信息冗余度,使用户能够快速获取其真正需要的信息。研究表明使用内容评价搜索策略和链接分析策略结合的算法开发网络信息采集器能够提高垂直搜索引擎快、精、准等方面的性能。 展开更多
关键词 语义空间 信息采集器 垂直搜索引擎
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部