期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
大数据技术在出版行业中的应用研究 被引量:17
1
作者 陆利坤 《出版科学》 CSSCI 北大核心 2017年第6期89-96,共8页
分门别类地阐述大数据技术在大众出版业、教育出版业、学术和专业出版业、新闻传播业以及新型互联网出版业各个出版环节中的应用情况,分析和总结不同类型出版企业在大数据应用过程中的特色与侧重点,为出版行业利用大数据技术改造升级、... 分门别类地阐述大数据技术在大众出版业、教育出版业、学术和专业出版业、新闻传播业以及新型互联网出版业各个出版环节中的应用情况,分析和总结不同类型出版企业在大数据应用过程中的特色与侧重点,为出版行业利用大数据技术改造升级、重获生机提供思路。 展开更多
关键词 大数据 数字出版 出版流程 按需出版
下载PDF
基于效益函数的网格任务调度算法 被引量:8
2
作者 常桂然 +1 位作者 陈学耀 田翠华 《计算机科学》 CSCD 北大核心 2006年第6期85-88,共4页
在动态、异构、分布广泛的网格环境中,对资源的调度是一个非常复杂而重要且具有挑战性的问题。本文针对网格环境中的动态性特点,特别是用户QoS要求的动态变化性,提出了一种基于效益函数的网格任务调度算法,并采用GridSim模拟器分别对该... 在动态、异构、分布广泛的网格环境中,对资源的调度是一个非常复杂而重要且具有挑战性的问题。本文针对网格环境中的动态性特点,特别是用户QoS要求的动态变化性,提出了一种基于效益函数的网格任务调度算法,并采用GridSim模拟器分别对该调度算法和模拟器自带的代价最优和时间最优的网格任务调度算法进行模拟。实验的结果表明该调度算法更能体现用户对QoS要求的动态变化;在系统完成相同数量的网格任务时,消耗相同时间的情况下,该调度算法在代价上优于基于时间优化的调度算法;而花费相同预算的情况下,在时间上优于基于代价优化的调度算法。 展开更多
关键词 网格计算 任务调度 效益函数 服务质量
下载PDF
融合BERT与标签语义注意力的文本多标签分类方法 被引量:12
3
作者 吕学强 彭郴 +2 位作者 张乐 董志安 《计算机应用》 CSCD 北大核心 2022年第1期57-63,共7页
多标签文本分类(MLTC)是自然语言处理(NLP)领域的重要子课题之一。针对多个标签之间存在复杂关联性的问题,提出了一种融合BERT与标签语义注意力的MLTC方法TLA-BERT。首先,通过对自编码预训练模型进行微调,从而学习输入文本的上下文向量... 多标签文本分类(MLTC)是自然语言处理(NLP)领域的重要子课题之一。针对多个标签之间存在复杂关联性的问题,提出了一种融合BERT与标签语义注意力的MLTC方法TLA-BERT。首先,通过对自编码预训练模型进行微调,从而学习输入文本的上下文向量表示;然后,使用长短期记忆(LSTM)神经网络将标签进行单独编码;最后,利用注意力机制显性突出文本对每个标签的贡献,以预测多标签序列。实验结果表明,与基于序列生成模型(SGM)算法相比,所提出的方法在AAPD与RCV1-v2公开数据集上,F1值分别提高了2.8个百分点与1.5个百分点。 展开更多
关键词 多标签分类 BERT 标签语义信息 双向长短期记忆神经网络 注意力机制
下载PDF
基于分层序列标注的实体关系联合抽取方法 被引量:11
4
作者 田佳来 吕学强 +2 位作者 肖刚 韩君妹 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第1期53-60,共8页
为了提高实体关系联合抽取的效果,提出一种端到端的联合抽取模型(HSL)。HSL模型采取一种新的标记方案,将实体和关系的联合抽取转化成序列标注问题,同时采用分层的序列标注方式来解决三元组重叠问题。实验证明,HSL模型能有效地解决三元... 为了提高实体关系联合抽取的效果,提出一种端到端的联合抽取模型(HSL)。HSL模型采取一种新的标记方案,将实体和关系的联合抽取转化成序列标注问题,同时采用分层的序列标注方式来解决三元组重叠问题。实验证明,HSL模型能有效地解决三元组重叠问题,在军事语料数据集上F1值达到80.84%,在公开的WebNLG数据集上F1值达到86.4%,均超过目前主流的三元组抽取模型,提升了三元组抽取的效果。 展开更多
关键词 实体关系联合抽取 三元组重叠 序列标注 知识图谱 HSL
下载PDF
网格模拟技术分析 被引量:4
5
作者 田翠华 常桂然 +1 位作者 金海月 《计算机应用研究》 CSCD 北大核心 2007年第2期101-105,共5页
从技术描述、体系结构、研究目标、模拟过程四个方面介绍当前国内外几种主流网格模拟技术的研究现状。论述了网格模拟实现的关键技术,包括资源调度模拟、中间件模拟、应用模拟及用户模拟。然后,进一步分析了各模拟技术的特征、优势、不... 从技术描述、体系结构、研究目标、模拟过程四个方面介绍当前国内外几种主流网格模拟技术的研究现状。论述了网格模拟实现的关键技术,包括资源调度模拟、中间件模拟、应用模拟及用户模拟。然后,进一步分析了各模拟技术的特征、优势、不足以及应用领域。最后,给出存在的问题并预测了发展趋势。 展开更多
关键词 网格 模拟技术 资源调度 性能评估
下载PDF
特征融合的中文专利文本分类方法研究 被引量:8
6
作者 肖悦珺 李红莲 +2 位作者 张乐 吕学强 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第4期49-59,共11页
【目的】为解决现有专利分类方法未考虑专利文本中的未登录词而导致召回率低的问题,提出一种特征融合的专利文本分类方法。【方法】基于特征融合的中文专利文本分类方法,利用不断更新的专有名词词表,将经过BERT预训练的句子向量与专有... 【目的】为解决现有专利分类方法未考虑专利文本中的未登录词而导致召回率低的问题,提出一种特征融合的专利文本分类方法。【方法】基于特征融合的中文专利文本分类方法,利用不断更新的专有名词词表,将经过BERT预训练的句子向量与专有名词向量进行融合,并将专有名词的TF-IDF值作为权重对向量进行赋值。【结果】在自建专利文本语料库上的实验结果显示,所提方法达到84.43%的准确率、82.01%的召回率和81.23%的F;值,其中F_(1)值相较其他方法提升约5.7个百分点。【局限】实验数据主要来源于新能源汽车领域,在其他领域中的效果有待验证。【结论】改善了数据分布不均衡以及专利文本存在大量未登录词的问题。此外,通过消融实验,评估了方法中添加专有名词与TF-IDF特征的有效性。 展开更多
关键词 专利 文本分类 特征融合 BERT TF-IDF
原文传递
区块链技术在食品溯源行业的研究 被引量:8
7
作者 刘佳琦 +2 位作者 吕学强 姜阳 李果林 《食品工业》 CAS 2021年第11期273-277,共5页
将食品溯源与区块链技术相结合,能有效弥补传统溯源中心化数据的缺陷。从食品溯源的行业现状入手,分析区块链技术优势,阐述基于区块链的食品溯源是如何运用优势保障数据的真实性、安全性、完整性;分析总结其发展前景及不足。利用区块链... 将食品溯源与区块链技术相结合,能有效弥补传统溯源中心化数据的缺陷。从食品溯源的行业现状入手,分析区块链技术优势,阐述基于区块链的食品溯源是如何运用优势保障数据的真实性、安全性、完整性;分析总结其发展前景及不足。利用区块链分布式存储、时间戳、智能合约、共识机制及数字签名等技术优势有效解决传统食品溯源中信息存储、数据保证和食品监管三大问题。基于区块链的食品溯源解决诸多问题的同时仍然面临缺乏技术实践、系统维护难、跨链协作难等挑战,与物联网、共享经济等新兴行业的融合是近年来研究热点。 展开更多
关键词 食品溯源 区块链 食品安全 智能合约 共识机制
原文传递
基于预训练模型的单帧航拍图像无监督语义分割 被引量:1
8
作者 任月 +1 位作者 滕尚志 吕学强 《北京信息科技大学学报(自然科学版)》 2024年第2期21-28,共8页
针对航拍图像语义分割成本高、通用性差和精度低等问题,提出了一种两阶段无监督语义分割网络(two-stage unsupervised semantic segmentation net, TUSSNet),针对单帧航拍图像训练进而生成最终的语义分割结果。算法分为2个阶段。首先,... 针对航拍图像语义分割成本高、通用性差和精度低等问题,提出了一种两阶段无监督语义分割网络(two-stage unsupervised semantic segmentation net, TUSSNet),针对单帧航拍图像训练进而生成最终的语义分割结果。算法分为2个阶段。首先,使用对比语言-图像预训练(contrastive language-image pretraining, CLIP)模型生成航拍图像的粗粒度语义标签,然后进行网络的预热训练。其次,在第一阶段的基础上,采用分割一切模型(segment anything model, SAM)对航拍图像进行细粒度类别预测,生成精细化类别掩码伪标签;然后迭代优化网络,得到最终语义分割结果。实验结果显示,相较于现有无监督语义分割方法,算法显著提高了航拍图像的分割精度,同时提供了准确的语义信息。 展开更多
关键词 预训练模型 航拍图像 语义分割 无监督算法 聚类效果估计 深度学习
下载PDF
面向武器装备领域的复杂三元组抽取方法
9
作者 刘陌村 +2 位作者 葛昊杰 肖刚 吕学强 《小型微型计算机系统》 CSCD 北大核心 2024年第3期521-528,共8页
为解决武器装备领域中单实体重叠和实体对重叠的复杂三元组的抽取问题,提出了挂载武器装备领域知识结合多轮对抗攻击的复杂三元组抽取方法(RDA),该方法通过武器装备领域微调后的Bert获取更具领域语义的文本向量;利用在嵌入层发起多轮对... 为解决武器装备领域中单实体重叠和实体对重叠的复杂三元组的抽取问题,提出了挂载武器装备领域知识结合多轮对抗攻击的复杂三元组抽取方法(RDA),该方法通过武器装备领域微调后的Bert获取更具领域语义的文本向量;利用在嵌入层发起多轮对抗的方式,实现模型层面的数据增强,减少模型对标注样本规模的依赖;采用单层指针网络获取头实体对头实体的类别进行判定,利用维基百科知识库对武器装备领域的实体类别解释信息的向量,对武器装备类别信息以字为最小粒度进行融合,缓解分层标注的天然缺陷;最后在横纵两个维度基于不同粒度的序列标注实现复杂三元组的抽取.在武器装备领域的数据集上精准率达到88.54%,召回率达到75.88%,F1值达到81.72%,取得了SOTA效果.实验表明提出的RDA方法对武器装备领域的信息利用更加充分,有效地缓解武器装备领域遇到的单实体重叠问题(SEO)和实体对重叠(EPO)问题. 展开更多
关键词 三元组抽取 武器装备领域 复杂命名实体识别 单层指针网络 多轮对抗攻击 RDA
下载PDF
可计量的开放科学数据集影响力评价指标体系构建研究 被引量:2
10
作者 高瑜蔚 +2 位作者 胡良霖 吕学强 周建设 《情报科学》 北大核心 2023年第7期49-60,69,共13页
【目的/意义】开放科学迈入全球共识新阶段,构建可计量的开放科学数据影响力评价指标体系,将为我国科学数据共享成效量化评价提供参考方案,对完善数据战略、释放科学数据价值和增加国际科技话语权具有重要意义。【方法/过程】基于文献... 【目的/意义】开放科学迈入全球共识新阶段,构建可计量的开放科学数据影响力评价指标体系,将为我国科学数据共享成效量化评价提供参考方案,对完善数据战略、释放科学数据价值和增加国际科技话语权具有重要意义。【方法/过程】基于文献调研法和国家科学数据中心工作实践,设置可计量的开放科学数据集影响力评价指标,采用专家打分法筛选指标;运用层次分析法对具有科学性、代表性和全面性的样本和指标进行量化研究,实现指标体系所涵盖的所有指标项可计量和各指标的权重可计量。【结果/结论】本文构建可计量的开放科学数据集影响力评价指标体系,涵盖学术影响力、决策影响力、社会影响力、国际影响力和经济影响力5个一级指标及24个二级指标。结论表明:开放科学数据集支撑的学术成果、社会影响、政府决策和国际合作等是其影响力评价指标体系的重要组成,科学数据的经济价值得到广泛认同。【创新/局限】基于调研和实践,本文依据多领域科学数据权威专家数据构建了可计量的开放科学数据集评价指标体系。受限于篇幅,实证研究有待进一步展开。 展开更多
关键词 开放科学 可计量 科学数据集评价 指标体系 层次分析法
原文传递
面向煤矿机电设备领域的三元组抽取方法
11
作者 问英姿 +1 位作者 佘鑫鹏 吕学强 《计算机应用》 CSCD 北大核心 2024年第7期2026-2033,共8页
针对机电设备领域相关语料匮乏、关系类型特征挖掘不充分以及文本包含重叠三元组的问题,提出一种融合提示学习与先验知识以迭代式对抗训练的三元组抽取方法TBPA(Triplet extraction Based on Prompt and Antagonistic training)。首先,... 针对机电设备领域相关语料匮乏、关系类型特征挖掘不充分以及文本包含重叠三元组的问题,提出一种融合提示学习与先验知识以迭代式对抗训练的三元组抽取方法TBPA(Triplet extraction Based on Prompt and Antagonistic training)。首先,利用BERT(Bidirectional Encoder Representations from Transformers)模型在自构语料库上进行微调,以获取输入文本的特征向量;接着,采用投影梯度下降(PGD)方法在嵌入层进行迭代式对抗训练,提高模型对干扰样本的抵御能力和对真实样本的泛化能力;然后,利用单层头尾指针网络识别出头实体,并结合提示学习模板获取头实体对应的领域先验特征,将字向量与Prompt模板中预测得到的提示向量相结合;最后,在分层标注框架下,使用单层头尾指针网络逐个识别预定义的所有关系类型所对应的尾实体。与基线模型CasRel相比,TBPA在精确率、召回率和F1值上分别提高了3.10、6.12、4.88个百分点。实验结果表明,TBPA在煤矿机电设备领域三元组抽取任务中具有一定的优势。 展开更多
关键词 煤矿机电设备 三元组抽取 提示学习 迭代式对抗训练 自构语料库
下载PDF
稀疏样本下长术语的抽取方法
12
作者 吕学强 杨雨婷 +2 位作者 肖刚 李育贤 《数据分析与知识发现》 EI CSCD 北大核心 2024年第1期135-145,共11页
【目的】为解决武器装备领域样本稀疏和长术语难以识别的问题,提出头尾指针和主动学习相结合的方法。【方法】首先,使用BERT预训练语言模型得到词向量表示,利用头尾指针网络对长术语进行抽取;然后提出新的主动学习采样策略,在未标注样... 【目的】为解决武器装备领域样本稀疏和长术语难以识别的问题,提出头尾指针和主动学习相结合的方法。【方法】首先,使用BERT预训练语言模型得到词向量表示,利用头尾指针网络对长术语进行抽取;然后提出新的主动学习采样策略,在未标注样本上筛选高质量样本不断迭代训练模型,降低模型对数据规模的依赖。【结果】模型针对长术语的抽取效果在F1值上有0.50个百分点的提升,通过引入主动学习后采样,仅大约50%高质量数据即可达到训练100%训练数据相同的F1值。【局限】限于计算能力,本文数据集规模较小;在文本处理阶段新增主动学习采样策略,进行大规模数据计算的时间成本较高。【结论】利用头尾指针和主动学习方法能够有效抽取长术语,同时降低数据标注的成本。 展开更多
关键词 术语抽取 主动学习 头尾指针网络 BERT 武器装备
原文传递
多特征融合的专利功效短语抽取
13
作者 赵颖 +1 位作者 刘佳琦 吕学强 《计算机工程与设计》 北大核心 2024年第5期1413-1419,共7页
为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到B... 为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到BiLSTM或Transformer进行编码,使用CRF解码得到对应输入的标签序列,得到专利功效短语。实验采用新能源汽车领域的专利文本作为训练数据,尝试组合不同的特征进行实验,实验结果表明,所提模型在准确率、召回率、F1值上均取得了明显提升,验证了多特征融合在功效短语抽取任务上的有效性。 展开更多
关键词 多特征融合 专利功效短语 深度学习 词语抽取 双向长短期记忆模型 条件随机场模型 词向量模型
下载PDF
EMSS:一种基于Span匹配的中文实体抽取方法
14
作者 刘陌村 +1 位作者 韩君妹 吕学强 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2087-2093,共7页
基于Span(跨度)的实体抽取模型目前在英文数据集上取得了优异的效果,且已被证明跨度实体抽取比传统的序列标注实体抽取的效果更好.本文提出了一种基于跨度与拼接的中文命名实体抽取模型(EMSS),EMSS使用端到端的span抽取模型,文本经过BER... 基于Span(跨度)的实体抽取模型目前在英文数据集上取得了优异的效果,且已被证明跨度实体抽取比传统的序列标注实体抽取的效果更好.本文提出了一种基于跨度与拼接的中文命名实体抽取模型(EMSS),EMSS使用端到端的span抽取模型,文本经过BERT预训练模型进行字向量的编码,随后进入span抽取层枚举出所有可能的跨度,并加入跨度边界与跨度长度两种特征向量用于对跨度向量进行计算,最后进入跨度预测层进行实体标签的预测.同时提出了一种基于BIO格式的新标签标注方法,该标注方法不受模型与数据集领域限制,可以在不影响下游任务的情况下提高模型识别准确率.在Weibo、Resume、MSRA、OntoNotes4.0数据集上与当前主流的中文实体抽取模型进行对比实验.实验结果表明,提出的EMSS优于现有主流模型,均取得了7%左右的F1值提升.并将该方法应用到煤矿机电设备领域,解决煤矿机电设备领域的实体识别问题,在自制数据集上的实验证明本文的标注方法,不仅在中文实体上有效,而且对汉字、英文、数字结合的混合类型实体也有明显的效果. 展开更多
关键词 实体抽取 跨度 神经网络
下载PDF
融合权重注意力和密集残差连接的图像超分算法
15
作者 郑松青 +2 位作者 韩晶 吕学强 陈玉忠 《北京信息科技大学学报(自然科学版)》 2024年第3期74-83,共10页
在光学相机远距离拍摄图像时,由于光线衰减和环境噪声的影响,图像容易变得模糊且难以清晰识别。为应对这一挑战,提出了一种基于权重注意力和密集残差连接的图像超分算法(image super-resolution algorithm based on weighted attention ... 在光学相机远距离拍摄图像时,由于光线衰减和环境噪声的影响,图像容易变得模糊且难以清晰识别。为应对这一挑战,提出了一种基于权重注意力和密集残差连接的图像超分算法(image super-resolution algorithm based on weighted attention and dense residual connections, WADRNet)。首先,在网络的浅层特征提取阶段,提出一种非对称卷积模块,以替代传统的卷积模块,提高了模型的信息提取能力,尤其是对边缘和纹理等关键特征的提取;其次,采用密集残差结构,在不增加额外计算量的同时实现跨层特征传递和信息的有效利用,增强了模型的上下文特征提取能力,更好地还原图像;最后,在窗口注意力模块融入权重通道注意力模块,有效地利用全局感受野特性。实验结果表明,WADRNet在自制数据集上明显领先于其他模型,尤其在峰值信噪比和结构相似性等方面;同时,该模型在公开数据集上也表现出良好的效果。因此,该方法能够显著提升低分辨图像像素质量,在工程领域具有广泛的应用潜力和价值,尤其适用于需要远距离成像的应用场景。 展开更多
关键词 光学成像 图像重建 密集残差 注意力
下载PDF
一种工件表面压印字符识别网络
16
作者 郭磊 +1 位作者 韩晶 吕学强 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第7期2072-2079,共8页
工件表面的压印字符存在凹凸不平、锈蚀、风化等问题,导致传统的字符识别算法难以取得满意的效果。针对这一问题,将工件表面压印字符的识别视为一类特殊的目标检测问题,并针对其特性设计了一种两阶段识别网络:定位-分类网络。定位网络... 工件表面的压印字符存在凹凸不平、锈蚀、风化等问题,导致传统的字符识别算法难以取得满意的效果。针对这一问题,将工件表面压印字符的识别视为一类特殊的目标检测问题,并针对其特性设计了一种两阶段识别网络:定位-分类网络。定位网络使用无锚框的方法提取字符感兴趣区域,有效解决了字符区域提取困难的问题。分类网络采用特征解耦的卷积模块和结构重参数化技术,能够在不增加额外参数的情况下提升分类的准确率。此外,分类网络采用跨域迁移学习的训练策略,能够有效解决实际应用中的小样本和类别不平衡问题。在自建螺栓数据集和SynthText数据集上的实验结果表明,该算法的整体精度能够达到98%和92%,优于对比算法。 展开更多
关键词 压印字符 字符识别 无锚框 小样本 目标检测
原文传递
聚类标注和多粒度特征融合的基金新闻分类
17
作者 胡菊香 吕学强 +1 位作者 周建设 《小型微型计算机系统》 CSCD 北大核心 2024年第2期257-264,共8页
针对人工标注类别耗时耗力、效率低,以及现有文本分类方法忽略词语、句子之间关系,未对文本分类关键特征赋予更高权重等问题,提出了一种基于聚类加权标注和多粒度特征融合的基金新闻分类方法.基于聚类加权的类别标注算法将K-Means和DBS... 针对人工标注类别耗时耗力、效率低,以及现有文本分类方法忽略词语、句子之间关系,未对文本分类关键特征赋予更高权重等问题,提出了一种基于聚类加权标注和多粒度特征融合的基金新闻分类方法.基于聚类加权的类别标注算法将K-Means和DBSCAN的聚类结果进行加权计算并自动标注基金文本数据,辅以少量人工校对,为后续基金新闻分类提供数据支撑.多粒度特征融合的分类算法首先从词粒度出发构建停用词表、扩展词典;其次从句粒度出发抽取新闻摘要,捕捉更具有语义关联的文本信息;最后将多头注意力机制嵌入BERT模型,对关键特征赋予更高权重,以提高分类的准确性.本文从多个角度进行了充分地实验,该方法具有高效的处理能力和有效性,其分类精确率可达到95.21%,优于现有方法. 展开更多
关键词 多粒度 特征融合 文本分类 深度学习
下载PDF
虚拟环境下基于市场机制的资源分配方法 被引量:4
18
作者 徐向华 +1 位作者 万健 俞东进 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第6期48-51,共4页
为了提高资源的利用率和更好地满足不同负载的QoS,提出一种基于市场机制的虚拟资源自适应分配策略:根据负载的特性,构建了体现其对所获资源的满意程度和符合自身经济利润的效用函数,利用资源代理不断调整价格的方式达到提高和合理化资... 为了提高资源的利用率和更好地满足不同负载的QoS,提出一种基于市场机制的虚拟资源自适应分配策略:根据负载的特性,构建了体现其对所获资源的满意程度和符合自身经济利润的效用函数,利用资源代理不断调整价格的方式达到提高和合理化资源利用率,同时利用遗传算法最大化每个负载的效益.定义市场模型的均衡状态并证明了均衡状态的最优性.仿真实验验证了资源调价算法的有效性和可行性. 展开更多
关键词 资源分配 虚拟技术 遗传算法 服务合并 市场机制
原文传递
MWEC:一种基于多语义词向量的中文新词发现方法 被引量:4
19
作者 张乐 冷基栋 +2 位作者 吕学强 袁梦龙 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第1期113-121,共9页
【目的】提出一种基于多语义词向量的中文新词发现方法(MWEC),解决多领域社交媒体文本的分词不准确问题。【方法】利用社交媒体文本,结合中文知网和汉字笔画数据库训练多语义词向量,以解决语义混淆问题。使用N-gram频繁字符串挖掘方法... 【目的】提出一种基于多语义词向量的中文新词发现方法(MWEC),解决多领域社交媒体文本的分词不准确问题。【方法】利用社交媒体文本,结合中文知网和汉字笔画数据库训练多语义词向量,以解决语义混淆问题。使用N-gram频繁字符串挖掘方法识别相关度高的子词集合,以此获取新词候选集。利用多语义词向量的语义相似度评估候选词进而获得新词。【结果】在金融、体育、旅游和音乐4个领域数据集上进行实验,结果表明本文方法的F1指标较对比方法分别提升了2.0(金融)、3.0(体育)、2.6(旅游)、11.3(音乐)个百分点。【局限】候选词生成策略着重关注子词的热度,低频词很难被识别出来。【结论】通过增强词向量的语义理解能力,利用多语义词向量对新词候选词进行剪枝,能有效提升针对中文社交媒体文本的新词发现能力。 展开更多
关键词 向量 新词 分词 N-GRAM 多语义词向量 语义相似度
原文传递
KBLCC:融合实体关键字特征的医疗领域实体分类方法 被引量:4
20
作者 王星予 吕学强 《小型微型计算机系统》 CSCD 北大核心 2022年第1期27-34,共8页
实体抽取是自然语言处理中的一项基础任务,基于实体抽取的医疗领域实体分类是医疗知识图谱构建的基础,现有的实体抽取方法鲜有基于字符级的特征.文中提出了KBLCC方法,一种融合实体关键字特征的医疗领域实体分类方法.通过对医疗领域文本... 实体抽取是自然语言处理中的一项基础任务,基于实体抽取的医疗领域实体分类是医疗知识图谱构建的基础,现有的实体抽取方法鲜有基于字符级的特征.文中提出了KBLCC方法,一种融合实体关键字特征的医疗领域实体分类方法.通过对医疗领域文本的语言特点进行分析与总结,发现医疗领域实体通常包含一些明显的关键字特征,能够辅助实体分类任务.融合实体关键字特征构建了BERT-BILSTM-CNN-CRF混合模型对医疗领域实体进行抽取,并将医疗实体分为检验指标、疾病、症状这三大类.实验结果表明,使用KBLCC模型进行医疗领域实体分类能够提高实验效果,准确率、召回率和F1值分别达到89.38%、92.46%和90.89%. 展开更多
关键词 实体抽取 实体分类 KBLCC 关键字 混合模型
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部