-
题名基于词汇集聚的文档相关性计算
被引量:3
- 1
-
-
作者
赵玉茗
徐志明
王晓龙
朱鲲鹏
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《电子与信息学报》
EI
CSCD
北大核心
2008年第10期2512-2515,共4页
-
基金
国家"863"计划项目(2006AA012197)
国家自然科学基金重点项目(60435020)资助课题
-
文摘
该文提出了一种基于词汇集聚的文档相关性计算方法。该方法以知网为知识库,依靠词汇集聚,将文档中存在语义关联的词语连接成链,计算各条词汇链权重,以词汇链为元素对文档进行形式化表示,最终利用文档的此种形式化表示进行相关匹配计算。该文在中图法分类的语料上,开展了文档相关性计算的实验,准确率达到了85.4%。实验结果表明,该方法在一定程度上描述了文档的语义信息,将文档间的相关比较从字符或词层面的直接比较提升到近似概念层次的比较,是一种计算文档间相关性的有效方法。
-
关键词
词汇集聚
文档相关性
向量空间模型
-
Keywords
Lexical cohesion
Relevance
Vector space model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名异构并行的DGA域名检测方法
- 2
-
-
作者
温雪岩
焦燕
郭云飞
赵玉茗
-
机构
东北林业大学计算机与控制工程学院
-
出处
《中国电子科学研究院学报》
北大核心
2023年第10期957-967,共11页
-
基金
国家自然科学基金资助项目(61971119)。
-
文摘
现有的DGA域名检测方式存在检测时间开销大、检测精度不高以及基于单词的DGA域名检测效果不佳等问题。经过研究发现,将域名先按照典型特征分类再进行更细致的特征提取,对于模型的准确率有一定的正向作用,且多类并行可以降低检测时间,此外对于较难检测的基于单词的DGA域名可以进行针对性处理。因此,文中提出了一种基于Word ninja分词技术的三路异构并行的DGA域名检测模型。先将域名分为三类,再针对每一类进行检测模型结构的搭建。对于字符级域名,通过人工提取特征来进行域名的有效分类。对于词根词缀级域名,采用FastTest进行子词之间、字符之间以及上下文之间关系的特征提取,再作为词向量嵌入。对于单词级域名,采用Word2Vec理解和处理词的含义和词之间的关系。最后,将文中方法和当前流行方法、多路异构并行模型和单路模型的检测结果进行比较评估,实验结果证明了提前分类的必要性以及多路并行的有效性。
-
关键词
深度学习
恶意域名
机器学习
门控循环单元网络
词向量嵌入
Word
ninja分词技术
-
Keywords
deep learning
malicious domain name
machine learning
gated circulation unit network
word vector embedding
word segmentation technique of wordninja
-
分类号
TN918
[电子电信—通信与信息系统]
TP393
[电子电信—信息与通信工程]
-
-
题名融合图卷积网络的花样滑冰动作识别方法
- 3
-
-
作者
温雪岩
李祯
谷训开
赵玉茗
-
机构
东北林业大学计算机与控制工程学院
-
出处
《重庆理工大学学报(自然科学)》
北大核心
2023年第10期156-165,共10页
-
基金
国家自然科学基金项目(61971119)。
-
文摘
针对花样滑冰运动中动作特征复杂、特征提取不全面和现有的动作识别方法识别准确率不高的问题,提出了共享多分支特征和注意力的多尺度时空图卷积网络的花样滑冰动作识别方法。使用OpenPose算法提取人体运动的骨骼点数据,消除噪声干扰;其次,改进通道注意力结构,改进后的注意力机制使模型提取更全面、关键的特征;构建融合注意力机制的多尺度时空图卷积网络,提取时序特征更完整;最后,提取多分支特征融合后的共享特征输入网络,使模型共享数据的同时挖掘语义特征。结果表明所提模型在花样滑冰30种动作类型的FSD-10数据集的识别准确率为64.5%。与ST-GCN和CTR-GCN方法相比,该算法的准确率均有提升,说明对花样滑冰动作识别效果更好。
-
关键词
图卷积网络
动作识别
注意力机制
共享特征
花样滑冰
多尺度卷积
-
Keywords
graph convolutional network
action recognition
attention mechanism
shared features
figure skating
multi-scale convolution
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名基于单细胞RNA测序数据的细胞类型聚类算法
被引量:2
- 4
-
-
作者
何睿
余娜
李淼
张峻巍
王浩杰
赵玉茗
-
机构
东北林业大学信息与计算机工程学院
-
出处
《智能计算机与应用》
2020年第7期104-108,共5页
-
基金
国家级大学生创新创业训练计划(201810225173)
国家自然科学基金(61971119)
-
文摘
随着单细胞测序技术的发展,许多基于单细胞RNA测序数据的聚类算法被提出,用于单细胞分类,并取得较好的应用效果。但是到目前为止,单细胞聚类算法研究领域缺乏关于聚类模型的综述,缺乏对不同聚类模型的性能评估。本文从聚类模型的角度将常见的11种单细胞聚类算法分成了K邻近聚类、层次聚类、基于图形分类、基于模型分类、基于密度分类的5种类型,对相关算法的特点和研究进展进行总结,并选择了10组scRNA-seq数据集对这些聚类算法进行性能评价。实验结果表明,现有聚类方法中SC3、Seurat和SIMLR的性能较好,在5类模型中,基于密度模型的算法具有最优性能,体现出较好的应用价值。
-
关键词
细胞分类
聚类算法
单细胞测序
-
Keywords
Cell classification
Cluster algorithm
Single cell sequencing
-
分类号
Q811.4
[生物学—生物工程]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-