期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
11
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种基于EM非监督训练的自组织分词歧义解决方案
被引量:
14
1
作者
王伟
钟义信
+1 位作者
孙建
杨力
《中文信息学报》
CSCD
北大核心
2001年第2期38-44,共7页
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次...
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 )
展开更多
关键词
EM算法
分词歧义
非监督训练
分词语言模型
歧义消除
汉语处理
训练算法
分词算法
下载PDF
职称材料
基于N-gram的双向匹配中文分词方法
被引量:
12
2
作者
凤丽洲
杨贵军
+1 位作者
徐雪
徐玉慧
《数理统计与管理》
CSSCI
北大核心
2020年第4期633-643,共11页
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型...
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择。此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标Pn,有效规避了词条长度对分词准确率评价的影响。最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、Pn和F1值。
展开更多
关键词
N-GRAM模型
分词歧义
评测指标
双向匹配
原文传递
基于无监督学习的专业领域分词歧义消解方法
被引量:
7
3
作者
修驰
宋柔
《计算机应用》
CSCD
北大核心
2013年第3期780-783,共4页
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵...
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。
展开更多
关键词
专业领域分词
分词歧义
字符串频次
互信息
边界熵
下载PDF
职称材料
基于Hash结构词典的逆向回溯中文分词技术研究
被引量:
5
4
作者
梁桢
李禹生
《计算机工程与设计》
CSCD
北大核心
2010年第23期5158-5160,F0003,共4页
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一...
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标。
展开更多
关键词
中文分词
哈希结构
尾字词典
逆向最大匹配算法
分词歧义
逆向回溯算法
下载PDF
职称材料
不同水平留学生汉语切分歧义识别实验研究
被引量:
4
5
作者
杨万兵
蒋利平
《语言教学与研究》
CSSCI
北大核心
2012年第3期10-17,共8页
通过初、中级汉语水平留学生切分歧义识别实验研究,我们发现:(1)切分歧义识别时,汉语水平主效应显著,链长主效应显著;(2)初级学生链长为1和2的识别错误率无显著差异,而中级学生链长为1的识别错误率高于链长为2的;(3)初、中级学生各链长...
通过初、中级汉语水平留学生切分歧义识别实验研究,我们发现:(1)切分歧义识别时,汉语水平主效应显著,链长主效应显著;(2)初级学生链长为1和2的识别错误率无显著差异,而中级学生链长为1的识别错误率高于链长为2的;(3)初、中级学生各链长的修改率和修改正确率都呈"链长2>链长1>链长3"的趋势;(4)切分歧义识别时,中级学生利用语境进行调整的意识和能力均更强,且更多采取自上而下的阅读模式。
展开更多
关键词
切分歧义
链长
词语识别
汉语水平
原文传递
汉语自动分词中切分歧义及处理技术
被引量:
1
6
作者
王中立
《许昌学院学报》
CAS
2006年第2期118-121,共4页
描述了汉语自动分词中切分歧义的发现和歧义字段的消除,给出了基于词典的汉语词自动切分和基于统计的词类与词性歧义消除的模型和实现方法.
关键词
自动分词
切分
切分歧义
下载PDF
职称材料
音字转换中分层解码模型的研究与改进
被引量:
2
7
作者
张顺昌
孙乐
《中文信息学报》
CSCD
北大核心
2009年第6期79-85,共7页
音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识...
音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识辅助拼音流切分来改进已有的分层模型的思想。实验表明,与传统方法相比,该文的方法可以将首字准确率提高3%。
展开更多
关键词
人工智能
自然语言处理
音字转换
HMM模型
中文信息处理
切分歧义
下载PDF
职称材料
基于词性信息的汉语时间语词消歧算法
8
作者
代建英
何中市
《重庆大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第9期53-56,共4页
切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,...
切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,提出了基于时间语词上下文词性信息的统计语言模型和基于极大似然原理的消解这类歧义的算法,其开放测试正确率约为90%.
展开更多
关键词
自然语言处理
切分歧义
时间语词
词性信息
统计语言模型
下载PDF
职称材料
MIS智能接口中汉语分词系统的设计与应用
被引量:
5
9
作者
谈文蓉
杨宪泽
+1 位作者
谈进
刘莉
《计算机科学》
CSCD
北大核心
2006年第7期204-206,共3页
提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法...
提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法的设计。实验表明,该系统具有较高的切分正确率与效率。
展开更多
关键词
MIS
自动分词
切分歧义
交集型歧义
组合型歧义
下载PDF
职称材料
面向新时代的人民日报语料中文分词歧义分析
被引量:
3
10
作者
彭秋茹
王东波
黄水清
《情报科学》
CSSCI
北大核心
2021年第11期103-109,共7页
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后的共4个月新时代的人民日报...
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词歧义的问题,但缺少与旧语料的对比分析。
展开更多
关键词
中文分词
分词歧义
新时代人民日报分词语料
切分变异
中文信息处理
原文传递
经济学等知识文本的深度表示学习
被引量:
2
11
作者
程兵
邢玲
闫强
《计量经济学报》
2022年第1期58-80,共23页
本文首先介绍了表示学习的数学原理,分布式的表示使得语言的表达更加丰富和有效,特别是针对巨量的文本大数据,以著名的预训练BERT模型为例,它的12组高维(768维)实数表示向量表达了文本中的语法和语义信息,也可以通过一个解码器将向量中...
本文首先介绍了表示学习的数学原理,分布式的表示使得语言的表达更加丰富和有效,特别是针对巨量的文本大数据,以著名的预训练BERT模型为例,它的12组高维(768维)实数表示向量表达了文本中的语法和语义信息,也可以通过一个解码器将向量中隐含表达的信息重构出来.本文的主要贡献是两个方面,第一方面是使用统计方法评估BERT模型的表示能力;第二方面是利用BERT模型来处理中文句子分词的歧义模糊困难问题.在第一方面:我们的发现:一是BERT模型的表示能力的确很充足,即使是针对数十万的文本数据,也可以获得较好的向量表示效果,这说明了BERT模型已经预留了充足的表示向量空间来包含各种复杂的语言结构,我们发现BERT模型的不同层深度的表示向量表示了语言知识的不同层次信息,其中第1层表示了单字和单词的信息,而深度越深,表示向量则越接近表示文本的整体语言知识(从中文的词组,再到句子段落,直到文档以及文档之间的主题语言信息);二是发现语义相近的句子在BERT向量空间也是处于相近的空间领域,这说明整个BERT向量表示空间是自适应地将相似的语言组织安排在相近的子空间中.在第二方面,我们巧妙地利用了这个BERT模型的MASK机制,该机制允许模型的输入句子中将部分的词随意隐藏掉,但模型依然能够自适应地预测被隐藏部分的表示向量,通过比较正确分词以及错误分词masked后的句子表示向量,我们能够正确地识别出来哪一种分词方法是正确的,平均准确率达到66.875%.
展开更多
关键词
深度学习
表示学习
分布式表示
BERT模型
PCA主成分
语言相似性
分词歧义识别
原文传递
题名
一种基于EM非监督训练的自组织分词歧义解决方案
被引量:
14
1
作者
王伟
钟义信
孙建
杨力
机构
北京邮电大学智能中心
出处
《中文信息学报》
CSCD
北大核心
2001年第2期38-44,共7页
基金
国家自然科学基金资助! (6 9982 0 1)
文摘
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 )
关键词
EM算法
分词歧义
非监督训练
分词语言模型
歧义消除
汉语处理
训练算法
分词算法
Keywords
EM
algorithm
segmentation
ambiguity
unsupervised
learning
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于N-gram的双向匹配中文分词方法
被引量:
12
2
作者
凤丽洲
杨贵军
徐雪
徐玉慧
机构
天津财经大学统计学院
天津商业大学理学院
中国联合网络通信有限公司青岛分公司
出处
《数理统计与管理》
CSSCI
北大核心
2020年第4期633-643,共11页
基金
国家社会科学基金项目青年项目(18CTJ008)
天津市自然科学基金项目青年项目(18JCQNJC69600)
+3 种基金
国家自然科学基金项目面上项目(11471239)
全国统计科学研究计划重点项目(2017LZ25,2017LZ05)
全国统计科学研究一般项目(2018LY50)
天津市社科规划重点课题(TJTJ19-001)。
文摘
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择。此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标Pn,有效规避了词条长度对分词准确率评价的影响。最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、Pn和F1值。
关键词
N-GRAM模型
分词歧义
评测指标
双向匹配
Keywords
N-gram
segmentation
ambiguity
evaluation
index
bi-direction
matching
分类号
O212 [理学—概率论与数理统计]
原文传递
题名
基于无监督学习的专业领域分词歧义消解方法
被引量:
7
3
作者
修驰
宋柔
机构
北京工业大学计算机学院
北京语言大学信息科学学院
出处
《计算机应用》
CSCD
北大核心
2013年第3期780-783,共4页
基金
国家自然科学基金资助项目(60872121)
文摘
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。
关键词
专业领域分词
分词歧义
字符串频次
互信息
边界熵
Keywords
domain
word
segmentation
segmentation
ambiguity
string
frequency
mutual
information
boundaryentropy
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Hash结构词典的逆向回溯中文分词技术研究
被引量:
5
4
作者
梁桢
李禹生
机构
武汉工业学院计算机与信息工程系
出处
《计算机工程与设计》
CSCD
北大核心
2010年第23期5158-5160,F0003,共4页
基金
湖北省教育厅科研基金项目(D200618003)
文摘
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标。
关键词
中文分词
哈希结构
尾字词典
逆向最大匹配算法
分词歧义
逆向回溯算法
Keywords
Chinese
segmentation
Hash
structure
last
word
dictionary
reverse
maximummatchingmethod
segmentation
ambiguity
reverse
backtracking
method
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
不同水平留学生汉语切分歧义识别实验研究
被引量:
4
5
作者
杨万兵
蒋利平
机构
暨南大学华文学院
出处
《语言教学与研究》
CSSCI
北大核心
2012年第3期10-17,共8页
基金
2010年广东省高等学校本科特色专业建设点建设经费支持
文摘
通过初、中级汉语水平留学生切分歧义识别实验研究,我们发现:(1)切分歧义识别时,汉语水平主效应显著,链长主效应显著;(2)初级学生链长为1和2的识别错误率无显著差异,而中级学生链长为1的识别错误率高于链长为2的;(3)初、中级学生各链长的修改率和修改正确率都呈"链长2>链长1>链长3"的趋势;(4)切分歧义识别时,中级学生利用语境进行调整的意识和能力均更强,且更多采取自上而下的阅读模式。
关键词
切分歧义
链长
词语识别
汉语水平
Keywords
segmentation
ambiguity
the
number
of
possible
word
combination
word
recognition
Chinese
Proficiency
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
汉语自动分词中切分歧义及处理技术
被引量:
1
6
作者
王中立
机构
许昌学院教育技术与信息部
出处
《许昌学院学报》
CAS
2006年第2期118-121,共4页
文摘
描述了汉语自动分词中切分歧义的发现和歧义字段的消除,给出了基于词典的汉语词自动切分和基于统计的词类与词性歧义消除的模型和实现方法.
关键词
自动分词
切分
切分歧义
Keywords
automatic
word
segmentation
segmentation
segmentation
ambiguity
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
音字转换中分层解码模型的研究与改进
被引量:
2
7
作者
张顺昌
孙乐
机构
中国科学院软件研究所
中国科学院研究生院
出处
《中文信息学报》
CSCD
北大核心
2009年第6期79-85,共7页
基金
国家自然科学基金资助项目(60773027
60736044)
+1 种基金
国家863计划重点资助项目(2006AA010108
2008AA01Z145)
文摘
音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识辅助拼音流切分来改进已有的分层模型的思想。实验表明,与传统方法相比,该文的方法可以将首字准确率提高3%。
关键词
人工智能
自然语言处理
音字转换
HMM模型
中文信息处理
切分歧义
Keywords
artifical
intelligence
natural
language
processing
pinyin-to-character
conversion
hidden
markov
model
Chinese
information
processing
segmentation
ambiguity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于词性信息的汉语时间语词消歧算法
8
作者
代建英
何中市
机构
重庆大学计算机学院
出处
《重庆大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第9期53-56,共4页
基金
国家自然科学基金项目(60173060)
文摘
切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,提出了基于时间语词上下文词性信息的统计语言模型和基于极大似然原理的消解这类歧义的算法,其开放测试正确率约为90%.
关键词
自然语言处理
切分歧义
时间语词
词性信息
统计语言模型
Keywords
natural
language
processing
segmentation
ambiguity
time
word
part
of
speech
(POS)
statistical
language
model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
MIS智能接口中汉语分词系统的设计与应用
被引量:
5
9
作者
谈文蓉
杨宪泽
谈进
刘莉
机构
西南民族大学计算机科学与技术学院
西南财经大学经济信息工程学院
出处
《计算机科学》
CSCD
北大核心
2006年第7期204-206,共3页
基金
四川省重点科技攻关项目(05SG022-016)
西南民族大学自然科学研究项目(05NY003)
文摘
提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法的设计。实验表明,该系统具有较高的切分正确率与效率。
关键词
MIS
自动分词
切分歧义
交集型歧义
组合型歧义
Keywords
MIS,
Automatic
word
segmentation
,
Word
segmentation
ambiguity
,
Crossing
ambiguity
,
Combination
ambi-
guity
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向新时代的人民日报语料中文分词歧义分析
被引量:
3
10
作者
彭秋茹
王东波
黄水清
机构
南京农业大学信息管理学院
南京农业大学人文与社会计算研究中心
出处
《情报科学》
CSSCI
北大核心
2021年第11期103-109,共7页
文摘
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词歧义的问题,但缺少与旧语料的对比分析。
关键词
中文分词
分词歧义
新时代人民日报分词语料
切分变异
中文信息处理
Keywords
Chinese
word
segmentation
word
segmentation
ambiguity
NEPD
segmentation
variation
Chinese
information
processing
分类号
G254 [文化科学—图书馆学]
原文传递
题名
经济学等知识文本的深度表示学习
被引量:
2
11
作者
程兵
邢玲
闫强
机构
中国科学院数学与系统科学研究院
中国科学院大学数学科学学院
中国科学院计算技术研究所
出处
《计量经济学报》
2022年第1期58-80,共23页
基金
中国科学院随机复杂结构与数据科学重点实验室(2008DP173182)
“一带一路”疫情预测预警与经济影响分析(ANSO-SBA-2020-12)。
文摘
本文首先介绍了表示学习的数学原理,分布式的表示使得语言的表达更加丰富和有效,特别是针对巨量的文本大数据,以著名的预训练BERT模型为例,它的12组高维(768维)实数表示向量表达了文本中的语法和语义信息,也可以通过一个解码器将向量中隐含表达的信息重构出来.本文的主要贡献是两个方面,第一方面是使用统计方法评估BERT模型的表示能力;第二方面是利用BERT模型来处理中文句子分词的歧义模糊困难问题.在第一方面:我们的发现:一是BERT模型的表示能力的确很充足,即使是针对数十万的文本数据,也可以获得较好的向量表示效果,这说明了BERT模型已经预留了充足的表示向量空间来包含各种复杂的语言结构,我们发现BERT模型的不同层深度的表示向量表示了语言知识的不同层次信息,其中第1层表示了单字和单词的信息,而深度越深,表示向量则越接近表示文本的整体语言知识(从中文的词组,再到句子段落,直到文档以及文档之间的主题语言信息);二是发现语义相近的句子在BERT向量空间也是处于相近的空间领域,这说明整个BERT向量表示空间是自适应地将相似的语言组织安排在相近的子空间中.在第二方面,我们巧妙地利用了这个BERT模型的MASK机制,该机制允许模型的输入句子中将部分的词随意隐藏掉,但模型依然能够自适应地预测被隐藏部分的表示向量,通过比较正确分词以及错误分词masked后的句子表示向量,我们能够正确地识别出来哪一种分词方法是正确的,平均准确率达到66.875%.
关键词
深度学习
表示学习
分布式表示
BERT模型
PCA主成分
语言相似性
分词歧义识别
Keywords
deep
learning
representation
learning
distributed
representation
BERT
model
PCA
principal
component
language
similarity
word
segmentation
ambiguity
recognition
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP391.1 [自动化与计算机技术—控制科学与工程]
原文传递
题名
作者
出处
发文年
被引量
操作
1
一种基于EM非监督训练的自组织分词歧义解决方案
王伟
钟义信
孙建
杨力
《中文信息学报》
CSCD
北大核心
2001
14
下载PDF
职称材料
2
基于N-gram的双向匹配中文分词方法
凤丽洲
杨贵军
徐雪
徐玉慧
《数理统计与管理》
CSSCI
北大核心
2020
12
原文传递
3
基于无监督学习的专业领域分词歧义消解方法
修驰
宋柔
《计算机应用》
CSCD
北大核心
2013
7
下载PDF
职称材料
4
基于Hash结构词典的逆向回溯中文分词技术研究
梁桢
李禹生
《计算机工程与设计》
CSCD
北大核心
2010
5
下载PDF
职称材料
5
不同水平留学生汉语切分歧义识别实验研究
杨万兵
蒋利平
《语言教学与研究》
CSSCI
北大核心
2012
4
原文传递
6
汉语自动分词中切分歧义及处理技术
王中立
《许昌学院学报》
CAS
2006
1
下载PDF
职称材料
7
音字转换中分层解码模型的研究与改进
张顺昌
孙乐
《中文信息学报》
CSCD
北大核心
2009
2
下载PDF
职称材料
8
基于词性信息的汉语时间语词消歧算法
代建英
何中市
《重庆大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005
0
下载PDF
职称材料
9
MIS智能接口中汉语分词系统的设计与应用
谈文蓉
杨宪泽
谈进
刘莉
《计算机科学》
CSCD
北大核心
2006
5
下载PDF
职称材料
10
面向新时代的人民日报语料中文分词歧义分析
彭秋茹
王东波
黄水清
《情报科学》
CSSCI
北大核心
2021
3
原文传递
11
经济学等知识文本的深度表示学习
程兵
邢玲
闫强
《计量经济学报》
2022
2
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部