-
题名多特征融合的专利功效短语抽取
- 1
-
-
作者
游新冬
赵颖
刘佳琦
吕学强
-
机构
北京信息科技大学网络文化与数字传播重点实验室
-
出处
《计算机工程与设计》
北大核心
2024年第5期1413-1419,共7页
-
基金
国家自然科学基金项目(62171043)
北京市自然科学基金项目(4212020)
+2 种基金
国家语委基金项目(ZDI145-10、YB145-3)
国防科技重点实验室基金项目(6412006200404)
北京市教育委员会科学研究计划基金项目(KM202111232001)。
-
文摘
为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到BiLSTM或Transformer进行编码,使用CRF解码得到对应输入的标签序列,得到专利功效短语。实验采用新能源汽车领域的专利文本作为训练数据,尝试组合不同的特征进行实验,实验结果表明,所提模型在准确率、召回率、F1值上均取得了明显提升,验证了多特征融合在功效短语抽取任务上的有效性。
-
关键词
多特征融合
专利功效短语
深度学习
词语抽取
双向长短期记忆模型
条件随机场模型
词向量模型
-
Keywords
multi-feature fusion
patent efficacy phrase
deep learning
word extraction
BiLSTM model
CRF model
Word2vec model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合多特征的专利功效短语识别
被引量:2
- 2
-
-
作者
罗艺雄
吕学强
游新冬
-
机构
北京信息科技大学网络文化与数字传播重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2022年第12期139-148,共10页
-
基金
国家自然科学基金(61671070)
北京信息科技大学促进高校内涵发展科研水平提高项目(2019KYNH226)
+1 种基金
北京信息科技大学“勤信人才”培育计划项目(QXTCP B201908)
北京市教委科研计划资助项目(KM202111232001)。
-
文摘
专利功效短语是专利文本的关键信息,专利功效短语的识别是构建技术功效图的重要一环。针对现有功效短语识别方法精度较低的问题,该文提出融合多特征的专利功效短语识别方法。特征根据粒度大小,分为字符级特征和单词级特征,其中字符级特征包括字符、字符拼音和字符五笔,单词级特征为包含当前字符的单词的集合。字符级特征使用Word2Vec或BERT进行向量化,单词级特征通过注意力机制将集合中单词的向量表示融合为匹配输入序列的单词级特征向量。在嵌入层融合各特征向量并将其输入到BiLSTM或Transformer进行编码,最后使用CRF解码得到对应输入序列的标签序列。该文使用新能源汽车领域的专利作为语料,分析了不同的特征组合和神经网络模型对功效短语识别效果的影响。实验结果表明,最优特征组合为Word2Vec字向量、BERT字向量、五笔特征向量和单词级特征向量。在最优特征组合的基础上,使用BiLSTM+CRF识别专利功效词短语的F_(1)值达到91.15%,识别效果优于现有方法,证明了该方法的有效性。
-
关键词
专利功效短语
多特征融合
神经网络
注意力机制
-
Keywords
patent efficacy phrase
multi-scale features fusion
neural network
attention mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-