期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
多查询相关的排序支持向量机融合算法 被引量:7
1
作者 王扬 黄亚楼 +3 位作者 谢茂强 刘杰 卢敏 廖振 《计算机研究与发展》 EI CSCD 北大核心 2011年第4期558-566,共9页
排序学习是目前信息检索与机器学习领域研究的热点问题.现有排序学习算法在学习时把训练样本集中的所有查询及其相关文档等同对待,忽视了查询之间的差异,影响了排序模型的性能.对查询之间的差异进行描述,并在训练过程中考虑这种差异,提... 排序学习是目前信息检索与机器学习领域研究的热点问题.现有排序学习算法在学习时把训练样本集中的所有查询及其相关文档等同对待,忽视了查询之间的差异,影响了排序模型的性能.对查询之间的差异进行描述,并在训练过程中考虑这种差异,提出一种基于有监督学习的融合多个与查询相关排序子模型的方法.该方法为每一个查询及其相关文档建立一个子排序模型,并将子排序模型的输出进行向量化表示,将多个查询相关的排序模型转化为体现查询差异的特征数据,实现多排序模型的集成.以排序支持向量机为例,在查询级和样本级建立新的损失函数作为优化目标,并利用此损失函数调节不同查询产生损失之间的权重,提出多查询相关的排序支持向量机融合算法.在文档检索和网页检索中的实验结果表明,使用多查询相关的排序支持向量机融合算法可以取得比传统排序学习模型更好的性能. 展开更多
关键词 信息检索 查询相关 排序学习 模型融合 排序支持向量机
下载PDF
基于近邻传播聚类的集成特征选择方法 被引量:6
2
作者 孟军 尉双云 《计算机科学》 CSCD 北大核心 2015年第3期241-244,260,共5页
针对高维数据中的类标记仅与少部分特征关联紧密的问题,提出了基于排序聚合和聚类分组的特征随机选择集成学习方法。采用排序聚合技术对特征进行过滤,选出与样本分类相关的特征,以bicor关联系数作为关联衡量标准,利用近邻传播聚类算法... 针对高维数据中的类标记仅与少部分特征关联紧密的问题,提出了基于排序聚合和聚类分组的特征随机选择集成学习方法。采用排序聚合技术对特征进行过滤,选出与样本分类相关的特征,以bicor关联系数作为关联衡量标准,利用近邻传播聚类算法进行分组,使不同组的特征互不关联,然后从每个分组中随机选择一个特征生成特征子集,便可得到多个既存在差异性又具备区分能力的特征子集,最后分别在对应的特征子空间训练基分类器,采用多数投票进行融合集成。在7个基因表达数据集上的实验结果表明,提出的方法分类误差较低,分类性能稳定,可扩展性好。 展开更多
关键词 分类 排序聚合 近邻传播聚类 集成特征选择
下载PDF
直接优化性能指标的多排序模型融合方法 被引量:4
3
作者 王扬 黄亚楼 +3 位作者 卢敏 庞晓东 谢茂强 刘杰 《计算机学报》 EI CSCD 北大核心 2014年第8期1658-1668,共11页
现有排序学习算法忽视了查询之间的差异,在建立排序模型的过程中等同对待训练样本集中的所有查询及其相关文档,影响了排序模型的性能.文中描述了查询之间的差异,并在训练过程中考虑查询之间的差异,提出了一种基于有监督学习的多排序模... 现有排序学习算法忽视了查询之间的差异,在建立排序模型的过程中等同对待训练样本集中的所有查询及其相关文档,影响了排序模型的性能.文中描述了查询之间的差异,并在训练过程中考虑查询之间的差异,提出了一种基于有监督学习的多排序模型融合方法.这种方法首先使用每一个查询及其相关文档训练出子排序模型,并将每一个子排序模型的输出转化为体现查询差异的特征数据,使用监督学习方法,实现了多排序模型的融合.更进一步,针对排序问题的特性,文中提出了一种直接优化排序性能的融合函数融合子排序模型,使用梯度上升方法优化其下界函数.文中证明了直接优化排序性能的融合函数融合子排序模型的性能优于子排序模型线性合并的性能.基于较大规模真实数据应用的实验结果表明,直接优化性能指标的多排序模型融合方法可以比传统排序学习模型具有更好的排序性能. 展开更多
关键词 排序模型融合 直接优化性能指标 排序学习 信息检索
下载PDF
多标记众包学习 被引量:4
4
作者 李绍园 姜远 《软件学报》 EI CSCD 北大核心 2020年第5期1497-1510,共14页
传统的多标记学习任务要求训练数据拥有完整的或者至少部分的真实标记,而真实标记耗费昂贵并且难以获取.不同于由昂贵受限的专家标注真实标记,众包环境下,多标记任务被分配给多个容易获取的非专家标注,学习目标是从有错误的非专家标注... 传统的多标记学习任务要求训练数据拥有完整的或者至少部分的真实标记,而真实标记耗费昂贵并且难以获取.不同于由昂贵受限的专家标注真实标记,众包环境下,多标记任务被分配给多个容易获取的非专家标注,学习目标是从有错误的非专家标注中估计样本的真实标记.这一问题的关键在于如何融合非专家标注.以往的众包学习主要集中在单标记任务上,忽视了多标记任务的标记相关性;而多标记任务上的众包工作集中在局部标记相关性的利用如标记共同出现的概率,标记间条件相关性,其估计很敏感地受到标记数量和质量的影响.考虑到多标记任务上多个标注者的标注结果整体上存在低秩结构关系,提出一种基于低秩张量矫正的方法.首先,将标注结果组织成三维的张量(样本,标记,标注者),用低秩张量补全的方法对收集到的标注做预处理,以同时达到两个目的:1)优化已有标注;2)补全标注者在其未标注的标记上的标注结果.然后,对所有标注融合,测试了3种融合方法,分别从不同的方面考虑标注的置信度.真实数据上的实验结果验证了所提方法的有效性. 展开更多
关键词 多标记学习 众包 低秩 张量近似 融合
下载PDF
Assessing edge-coupled interdependent network disintegration via rank aggregation and elite enumeration
5
作者 李咏徽 刘三阳 白艺光 《Chinese Physics B》 SCIE EI CAS CSCD 2023年第11期650-659,共10页
The disintegration of networks is a widely researched topic with significant applications in fields such as counterterrorism and infectious disease control. While the traditional approaches for achieving network disin... The disintegration of networks is a widely researched topic with significant applications in fields such as counterterrorism and infectious disease control. While the traditional approaches for achieving network disintegration involve identifying critical sets of nodes or edges, limited research has been carried out on edge-based disintegration strategies. We propose a novel algorithm, i.e., a rank aggregation elite enumeration algorithm based on edge-coupled networks(RAEEC),which aims to implement tiling for edge-coupled networks by finding important sets of edges in the network while balancing effectiveness and efficiency. Our algorithm is based on a two-layer edge-coupled network model with one-to-one links, and utilizes three advanced edge importance metrics to rank the edges separately. A comprehensive ranking of edges is obtained using a rank aggregation approach proposed in this study. The top few edges from the ranking set obtained by RAEEC are then used to generate an enumeration set, which is continuously iteratively updated to identify the set of elite attack edges.We conduct extensive experiments on synthetic networks to evaluate the performance of our proposed method, and the results indicate that RAEEC achieves a satisfactory balance between efficiency and effectiveness. Our approach represents a significant contribution to the field of network disintegration, particularly for edge-based strategies. 展开更多
关键词 edged-coupled rank aggregation interdependent networks elite enumeration
下载PDF
网页排序中的随机模型及算法 被引量:2
6
作者 刘玉婷 马志明 《中国科学:数学》 CSCD 北大核心 2011年第12期1095-1103,共9页
随着互联网规模的日益增长,搜索引擎已经成为互联网上有效的信息获取工具.而在众多搜索引擎的背后,是信息检索技术,也即网页排序算法在起作用.网页排序包括重要性排序和相关性排序.通过我们研究发现,尽管这两类排序所依据的准则不同,但... 随着互联网规模的日益增长,搜索引擎已经成为互联网上有效的信息获取工具.而在众多搜索引擎的背后,是信息检索技术,也即网页排序算法在起作用.网页排序包括重要性排序和相关性排序.通过我们研究发现,尽管这两类排序所依据的准则不同,但是都可以通过建立适当的随机过程模型来研究.对于网页重要性排序,我们通过分析用户浏览网页的行为建立了Markov骨架过程的框架.基于该框架我们分析了三种不同的随机过程模型对用户行为模拟的合理程度,并设计了名为BrowseRank的一组新算法,该算法可以根据用户上网行为来计算网页的重要性.在网页相关性排序中,我们主要针对排序结果联合问题建立了一个基于Markov链的监督学习框架.通过将传统方法的监督化,使原来难于解决的问题变的易于学习,将原来的NP-难问题转化为一个半正定规划问题,提高了效率. 展开更多
关键词 信息检索 排序联合问题 MARKOV骨架过程 Browserank算法
原文传递
基于综合排序的高校学生评教思想、方法与实践 被引量:2
7
作者 吴俊 肖宇 耿辉 《高等教育研究学报》 2018年第4期78-83,共6页
作为高等教育内部质量保障体系的重要组成部分,学生评教制度对于提升高等教育教学质量具有重要的积极作用。针对当前高校学生评教实践中存在的问题,提出"分散指标体系下的综合排序"这一新的学生评教思想,即每个学生不再对统... 作为高等教育内部质量保障体系的重要组成部分,学生评教制度对于提升高等教育教学质量具有重要的积极作用。针对当前高校学生评教实践中存在的问题,提出"分散指标体系下的综合排序"这一新的学生评教思想,即每个学生不再对统一指标体系中的具体指标进行逐项打分,而是根据个人心中特有的指标体系对评教周期内给他上过课的教师进行综合排序,然后再通过构造竞争图将所有学生给出的大规模、不等长、只包含部分教师的排名列表加以聚合,最后通过计算加权出度入度比来得到教师评分。实证分析结果表明该方法科学有效、可操作性强。 展开更多
关键词 高等院校 学生评教 综合排序 排名聚合
下载PDF
D^3MOPSO:一种基于用户偏好的元搜索排序聚合演化方法 被引量:2
8
作者 汤小月 余伟 李石君 《计算机研究与发展》 EI CSCD 北大核心 2017年第8期1665-1681,共17页
随着网络数据的爆发式增长和用户需求的多元化发展,现有元搜索排序聚合方法在精度和性能上面临着巨大挑战.以满足用户的多重需求和个性化偏好为目标,提出了一种新的元搜索排序聚合算法.通过重新定义多目标粒子群优化算法(multi-objectiv... 随着网络数据的爆发式增长和用户需求的多元化发展,现有元搜索排序聚合方法在精度和性能上面临着巨大挑战.以满足用户的多重需求和个性化偏好为目标,提出了一种新的元搜索排序聚合算法.通过重新定义多目标粒子群优化算法(multi-objective particle swarm optimization,MOPSO)中粒子的属性,调整速度变化因子,改进种群初始化和演化机制,设计新的存档与更新策略以及引导微粒选择策略,提出了一个基于支配分解的离散多目标优化(D^3MOPSO)算法,使其能根据用户的质量需求偏好在大规模离散解空间中快速准确地找出最优解集.在多个数据集上的实验结果表明:当数据规模较小时,D^3MOPSO算法的精度和性能接近机器学习排序聚合方法;在大规模数据环境下,其精度和性能优于机器学习方法以及同类多目标优化方法. 展开更多
关键词 排序聚合 元搜索 用户偏好 多目标优化 离散粒子群优化
下载PDF
基于排名聚合的古村落网络信息资源评价研究 被引量:2
9
作者 郭崇慧 李敏谦 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第4期10-19,共10页
【目的】探究如何利用排名聚合方法科学评价古村落网络信息资源。【方法】提出评价流程框架和评价方法:选取6个考察维度,构建古村落网络信息资源评价指标体系;结合指标的主观权重和客观权重,采用一种排名聚合方法 BILPS将多种单一评价... 【目的】探究如何利用排名聚合方法科学评价古村落网络信息资源。【方法】提出评价流程框架和评价方法:选取6个考察维度,构建古村落网络信息资源评价指标体系;结合指标的主观权重和客观权重,采用一种排名聚合方法 BILPS将多种单一评价方法进行聚合,对古村落网络信息资源进行综合评价。【结果】对广东省64个古村落的网络信息资源进行评价,分析发现排名前10的古村落多位于广州市。【局限】仅应用于广东省古村落网络信息资源评价,未扩展至中国传统村落网络信息资源评价。【结论】科学地评价古村落网络信息资源能够辅助决策者、管理者和古村落居民在正确认识古村落网络传播现状和影响力状况的前提下做出决策,推动古村落的发展。 展开更多
关键词 古村落 网络信息资源 排名聚合
原文传递
排序融合算法在校园网搜索引擎中的应用 被引量:2
10
作者 李粤 安捷 李星 《大连理工大学学报》 EI CAS CSCD 北大核心 2005年第z1期257-260,共4页
网页排序技术是搜索引擎的核心技术之一. 校园网搜索引擎是指以一个校园网内的Web网页为搜索内容的搜索引擎. 由于校园网相对于互联网和内联网的特殊性,各种启发式条件对校园网网页排序优化的影响及排序融合技术在校园网搜索引擎的作用... 网页排序技术是搜索引擎的核心技术之一. 校园网搜索引擎是指以一个校园网内的Web网页为搜索内容的搜索引擎. 由于校园网相对于互联网和内联网的特殊性,各种启发式条件对校园网网页排序优化的影响及排序融合技术在校园网搜索引擎的作用是研究的重点. 实验结果表明各个启发式条件的影响和实验数据集有关,而不同启发式条件组合经过排序融合后所获得的查全率差别很大(2%~48%). 查全率大于35%的启发式条件组合至少包含4个启发式条件,即校园网搜索引擎的排序需要依据数据集综合考虑多个启发式条件的排序结果. 排序融合技术是校园网搜索引擎具有良好的查全率的必要技术之一. 基于排序融合技术的网页排序模块已经应用于清华大学校园网搜索引擎中. 展开更多
关键词 搜索引擎 马尔可夫链 排序融合技术 启发式条件 查全率
下载PDF
基于用户偏好融合的组推荐算法综述 被引量:1
11
作者 王理 张淑莲 《电脑知识与技术》 2014年第3期1511-1515,共5页
传统的推荐系统是面向单个用户的推荐。作为个性化推荐的一个新的延伸,目前有越来越多的推荐系统正试图面向一组成员进行推荐。将推荐对象从单个用户扩展到一组用户的转变带来了许多新的课题,该文将主要介绍目前已有的几种组推荐算法... 传统的推荐系统是面向单个用户的推荐。作为个性化推荐的一个新的延伸,目前有越来越多的推荐系统正试图面向一组成员进行推荐。将推荐对象从单个用户扩展到一组用户的转变带来了许多新的课题,该文将主要介绍目前已有的几种组推荐算法,并总结一般组推荐系统的偏好融合过程。 展开更多
关键词 组推荐 用户偏好融合 排列融合 组偏好模型 评价标准
下载PDF
排名聚合算法在少量长列表聚合中的性能比较分析
12
作者 陈玟宇 朱章黔 +1 位作者 王晓蒙 贾韬 《物理学报》 SCIE EI CAS CSCD 北大核心 2020年第8期3-15,共13页
排名聚合将多个排名列表聚合成一个综合排名列表,可应用于推荐系统、链路预测、元搜索、提案评选等.当前已有工作从不同角度对不同排名聚合算法进行了综述、比较,但存在算法种类较少、数据统计特性不清晰、评价指标不够合理等局限性.不... 排名聚合将多个排名列表聚合成一个综合排名列表,可应用于推荐系统、链路预测、元搜索、提案评选等.当前已有工作从不同角度对不同排名聚合算法进行了综述、比较,但存在算法种类较少、数据统计特性不清晰、评价指标不够合理等局限性.不同排名聚合算法在提出时均声称优于已有算法,但是用于比较的方法不同,测试的数据不同,应用的场景不同,因此何种算法最能适应某一任务在很多情况下仍不甚清楚.本文基于Mallows模型,提出一套生成统计特性可控的不同类型的排名列表的算法,使用一个可应用于不同类型排名列表的通用评价指标,介绍9种排名聚合算法以及它们在聚合少量长列表时的表现.结果发现启发式方法虽然简单,但是在排名列表相似度较高、列表相对简单的情况下,能够接近甚至超过一些优化类方法的结果;列表中平局数量的增长会降低聚合排名的一致性并增加波动;列表数量的增加对聚合效果的影响呈现非单调性.整体而言,基于距离优化的分支定界方法 (FAST)优于其他各类算法,在不同类型的排名列表中表现非常稳定,能够很好地完成少量长列表的排名聚合. 展开更多
关键词 排名聚合 不等长列表 Mallows模型 有偏等级重叠
下载PDF
查询依赖的有序多超平面排序学习模型 被引量:1
13
作者 孙鹤立 黄健斌 +3 位作者 冯博琴 赵志勤 刘均 郑庆华 《软件学报》 EI CSCD 北大核心 2011年第11期2773-2781,共9页
针对当前基于支持向量机的排序学习方法训练时间长以及不考虑查询之间差异、模型单一的问题,提出一种查询依赖的有序多超平面排序学习模型.根据不同查询,利用其对应训练数据所属等级之间的序关系构建多个超平面.此外,提出了一种加权表... 针对当前基于支持向量机的排序学习方法训练时间长以及不考虑查询之间差异、模型单一的问题,提出一种查询依赖的有序多超平面排序学习模型.根据不同查询,利用其对应训练数据所属等级之间的序关系构建多个超平面.此外,提出了一种加权表决方法对多个超平面的排序列表进行聚合,根据各超平面的排序精度赋予其不同权重,计算最终排序结果.在标准数据集LETOR OHSUMED上对所提出的模型性能进行了综合评测,并与相关排序模型进行了对比分析.实验结果显示,所提出的模型排序性能有较大提升.同时,训练时间明显缩短. 展开更多
关键词 排序学习 查询依赖 多超平面 序关系 聚合 加权表决
下载PDF
面向PCP-MS数据的PPI网络推断算法 被引量:1
14
作者 陈征 田博 何增有 《计算机科学》 CSCD 北大核心 2019年第12期313-321,共9页
随着蛋白质组学的发展,研究者们开始聚焦于人类的全部蛋白质相互作用(Protein-Protein Interaction,PPI)网络的建立,质谱分析技术已成为预测蛋白质相互作用的代表方法。质谱技术是构建蛋白质相互作用网络的主要实验手段之一,基于质谱技... 随着蛋白质组学的发展,研究者们开始聚焦于人类的全部蛋白质相互作用(Protein-Protein Interaction,PPI)网络的建立,质谱分析技术已成为预测蛋白质相互作用的代表方法。质谱技术是构建蛋白质相互作用网络的主要实验手段之一,基于质谱技术产生了大量的蛋白质纯化数据,如AP-MS数据和PCP-MS数据等。这些数据为PPI网络的构建提供了重要的数据支持,但是通过人工的手段来构建PPI网络不仅低效,而且很不现实。因此,面向PCP-MS数据的网络推断算法是生物信息学研究的一个热点问题。文中针对一类主流的质谱(PCP-MS)数据的PPI网络构建算法问题开展研究,从解决目前存在的瓶颈问题出发,达到构建高质量PPI网络的目的。现有的面向PCP-MS数据的PPI网络推断算法的研究还处于初级阶段,相关方法较少。同时,算法结果的质量还存在着一些问题:1)很多错误的相互作用被包含在不同的推断算法结果中,同时一些正确的相互作用在结果中被遗漏;2)不同的推断算法在同一数据集上的表现差异较大;3)对于不同的数据集,同一算法表现性能的波动方差较大。因此,为了从PCP-MS数据中推断出结构可靠、质量较高的PPI网络,文中提出一种基于相关性分析与排序整合的PPI评分方法。该方法基于无监督学习,包括以下两个步骤:1)计算蛋白质之间的相关系数,得到多组相关性结果;2)采用排序整合的方法对多组结果进行整合,得到整合后的PPI分数。实验结果表明,所提方法在不使用参考标准的情况下,可以达到与有监督学习方法接近的结果。 展开更多
关键词 MS数据 PPI网络 蛋白质直接相互作用 相关性分析 排序整合
下载PDF
基于排序融合模型的紫癜性肾炎患者中差异表达变量的筛选研究 被引量:1
15
作者 高兵 刘美娜 +3 位作者 谢彪 王玉鹏 孙琳 张秋菊 《中国卫生统计》 CSCD 北大核心 2018年第5期663-665,共3页
目的对紫癜性肾炎和过敏性紫癜两类患者中差异表达的代谢产物进行筛选。方法利用排序融合的思路,将t检验、Wilcoxon秩和检验、偏最小二乘、及随机森林等四种方法用于组间差异表达分析,对其所获得的四个变量重要性排序进行融合,获得综合... 目的对紫癜性肾炎和过敏性紫癜两类患者中差异表达的代谢产物进行筛选。方法利用排序融合的思路,将t检验、Wilcoxon秩和检验、偏最小二乘、及随机森林等四种方法用于组间差异表达分析,对其所获得的四个变量重要性排序进行融合,获得综合的、单一的变量排序(排序融合模型);利用交叉验证获得最优模型,并进行差异变量的筛选;通过模拟实验评价排序融合模型变量筛选的能力并与least absolute shrinkage and selection operator(LASSO)进行比较。最后,将其用于紫癜性肾炎与过敏性紫癜患者间的代谢物差异分析。结果模拟实验结果显示:(1)当观测数和差异变量数较小时,排序融合模型的AUC的平均值大于LASSO;(2)当观测数和差异变量数较大时排序融合模型的AUC的平均值与LASSO相近; 3)无论参数如何设置排序融合模型所筛选的差异变量数基本均少于LASSO。实例分析结果显示:应用排序融合模型获得紫癜性肾炎和过敏性紫癜患者中存在12个差异表达的代谢产物,其AUC值达到其最大值0. 96。结论相比于LASSO,排序融合模型在筛选变量时更具可靠性和准确性,可为代谢组学数据的差异表达分析提供新的分析思路和方法。 展开更多
关键词 排序融合 变量筛选 代谢组学 LASSO
下载PDF
面向文档信息检索的排序学习算法
16
作者 周祖坤 杨光 冯小坤 《自动化技术与应用》 2018年第2期40-45,共6页
在基于排序学习的信息检索中,不同的查询及其待排序的文档序列之间有较大的差异性,传统的排序学习方法忽视了不同查询之间的差异性。另一方面,由于各个排序学习算法的偏好和侧重的不同,影响了在验证数据集中的排序性能。针对以上问题,... 在基于排序学习的信息检索中,不同的查询及其待排序的文档序列之间有较大的差异性,传统的排序学习方法忽视了不同查询之间的差异性。另一方面,由于各个排序学习算法的偏好和侧重的不同,影响了在验证数据集中的排序性能。针对以上问题,本文提出了基于模型融合的有监督学习的多排序模型学习算法。此算法用每一个人工标注的查询-文档序列训练子模型以获得查询特征,并赋予每一个子模型不同的得分权重。用带系数的反三角函数优化定义的融合损失函数并使其连续且可导,通过多次迭代的梯度上升法训练出合适的子模型权重值和相关系数,综合各文档的得分和子模型的权重值为查询所对应的文档序列排序。最后本文通过在多个数据集下进行对比实验,证明了基于模型融合的有监督学习的多排序模型学习算法比传统排序学习算法有更好的性能。 展开更多
关键词 排序学习 信息检索 查询差异 排序模型融合 损失函数
下载PDF
一种两层加权融合的排序算法
17
作者 胡小生 钟勇 《计算机应用》 CSCD 北大核心 2012年第12期3331-3334,3346,共5页
当前排序学习算法在学习时将样本集中的所有查询及其相关文档等同对待,忽略了查询之间以及其相关文档之间的差异性,影响了排序模型的性能。对查询之间的差异进行分析,同时考虑文档排序位置造成的资料被检视概率不同的差异特性,提出了一... 当前排序学习算法在学习时将样本集中的所有查询及其相关文档等同对待,忽略了查询之间以及其相关文档之间的差异性,影响了排序模型的性能。对查询之间的差异进行分析,同时考虑文档排序位置造成的资料被检视概率不同的差异特性,提出了一种两层加权融合的排序方法。该方法为每一个查询及其相关文档建立一个子排序模型,在此过程中,对文档赋予非对称权重,然后通过建立新的损失函数作为优化目标,利用损失函数调节不同查询产生损失之间的权重,最终实现多查询相关排序模型的加权融合。在标准数据集LETOR OHSUMED上的实验结果表明,所提方法在排序性能上有较大提升。 展开更多
关键词 信息检索 排序学习 非对称加权 融合
下载PDF
基于排序集成的哈萨克语固定短语抽取
18
作者 桑海岩 古丽拉·阿东别克 +1 位作者 孙瑞娜 陈莉 《计算机工程与应用》 CSCD 2014年第21期205-209,223,共6页
短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富... 短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。 展开更多
关键词 自然语言处理 固定短语 排序集成 互信息 似然比 C-value算法
下载PDF
Top-k相似短文本快速抽取算法
19
作者 顾彦慧 赵斌 +1 位作者 周俊生 曲维光 《计算机科学与探索》 CSCD 2014年第8期919-932,共14页
如何快速有效地抽取相似短文本是许多应用系统的重要研究问题。在大数据情况下,效率问题对于实际系统非常重要,而现有的短文本抽取策略不能满足用户对性能的要求。以相似短文本的抽取为研究对象,针对传统研究中的效率问题,对如何从给定... 如何快速有效地抽取相似短文本是许多应用系统的重要研究问题。在大数据情况下,效率问题对于实际系统非常重要,而现有的短文本抽取策略不能满足用户对性能的要求。以相似短文本的抽取为研究对象,针对传统研究中的效率问题,对如何从给定的短文本集合中快速检索出top-k个近似短文本进行了研究,并基于一个有效的基本框架提出了一种快速策略,用于满足用户对效率的要求。实验结果证明了该策略在保证有效性不变的情况下,大幅度提高了抽取效率,并且在效率上优于现有方法。 展开更多
关键词 语义相似 TOP-K 排序融合
下载PDF
基于生物信息学对心肌缺血再灌注损伤关键基因的筛选及实验验证 被引量:1
20
作者 王建茹 李兴渊 +4 位作者 谢世阳 程彦玲 郭红鑫 朱明军 于瑞 《中国病理生理杂志》 CAS CSCD 北大核心 2024年第3期473-483,共11页
目的:运用生物信息学分析方法挖掘参与心肌缺血再灌注损伤(MIRI)的关键基因。方法:首先,从数据库中下载大鼠MIRI相关数据集GSE122020、E-MEXP-2098和E-GEOD-4105。其次,一方面利用微阵列数据线性模型(limma)包筛选各数据集中的差异表达... 目的:运用生物信息学分析方法挖掘参与心肌缺血再灌注损伤(MIRI)的关键基因。方法:首先,从数据库中下载大鼠MIRI相关数据集GSE122020、E-MEXP-2098和E-GEOD-4105。其次,一方面利用微阵列数据线性模型(limma)包筛选各数据集中的差异表达基因(DEGs),再用稳健排序整合(RRA)方法筛选稳健DEGs;另一方面,利用替代变量分析(SVA)包将各数据集合并为1个数据集,再利用limma包筛选合并DEGs;将2种渠道的DEGs取交集获取共同DEGs。接着,构建共同DEGs的蛋白相互作用(PPI)网络,利用最大邻域组件密度(DMNC)算法筛选关键基因,并绘制关键基因的受试者工作特征(ROC)曲线,以评价其诊断效能。然后,构建MIRI大鼠模型,检测关键基因的mRNA和蛋白表达情况;并对关键基因参与MIRI的研究开展文献回顾分析。最后,对关键基因开展基因集富集分析(GSEA),进一步揭示其介导MIRI可能的机制。结果:共鉴定出143个稳健DEGs,48个合并DEGs,两者取交集后,获得48个共同DEGs。在共同DEGs的PPI网络中,共筛选出了5个关键基因,即MYC原癌基因bHLH转录因子(MYC)、前列腺素内过氧化物合酶2(PTGS2)、血红素加氧酶1(HMOX1)、胱天蛋白酶3(CASP3)和尿激酶型纤溶酶原激活物受体(PLAUR)。这些关键基因的ROC曲线下面积均大于0.8。在MIRI大鼠心肌组织中MYC、PTGS2、CASP3和PLAUR的mRNA和蛋白高表达,而HMOX1的mRNA和蛋白表达无显著差异。回顾文献,5个关键基因中仅PLAUR未被报道参与MIRI。PLAUR的GSEA结果显示,PLAUR的功能富集主要集中在NOD样受体信号通路、P53信号通路、Toll样受体信号通路、细胞凋亡和脂肪酸代谢等途径。结论:MYC、PTGS2、CASP3、HMOX1和PLAUR参与了MIRI的病理过程。PLAUR为潜在的关键基因,其可能通过调控NOD样受体信号通路、P53信号通路、Toll样受体信号通路、细胞凋亡和脂肪酸代谢等途径介导MIRI,结果可为进一步探讨MIRI的分子机制和治疗靶� 展开更多
关键词 心肌缺血再灌注损伤 生物信息学分析 稳健排序整合 关键基因 差异表达基因
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部