期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于无监督学习的中文电子病历分词
被引量:
6
1
作者
张立邦
关毅
杨锦峰
《智能计算机与应用》
2014年第2期68-71,共4页
电子病历中包含大量有用的医疗知识,抽取这些知识对于构建临床决策支持系统和个性化医疗健康信息服务具有重要意义。自动分词是分析和挖掘中文电子病历的关键基础。为了克服获取标注语料的困难,提出了一种基于无监督学习的中文电子病历...
电子病历中包含大量有用的医疗知识,抽取这些知识对于构建临床决策支持系统和个性化医疗健康信息服务具有重要意义。自动分词是分析和挖掘中文电子病历的关键基础。为了克服获取标注语料的困难,提出了一种基于无监督学习的中文电子病历分词方法。首先,使用通用领域的词典对电子病历进行初步的切分,为了更好地解决歧义问题,引入概率模型,并通过EM算法从生语料中估计词的出现概率。然后,利用字串的左右分支信息熵构建良度,将未登录词识别转化为最优化问题,并使用动态规划算法进行求解。最后,在3 000来自神经内科的中文电子病历上进行实验,证明了该方法的有效性。
展开更多
关键词
中文电子病历
无
监督
分词
EM算法
分支信息熵
动态规划
下载PDF
职称材料
归一化的邻接变化数方法在中文分词中的应用
被引量:
5
2
作者
何赛克
王小捷
+2 位作者
董远
张韬政
白雪
《中文信息学报》
CSCD
北大核心
2010年第1期15-19,共5页
该文提出了一种无监督和有监督相结合的中文分词方法:将邻接变化数(Accessor Variety,AV)引入基于条件随机场的中文分词系统中。针对邻接变化数在处理较少的训练数据时存在的缺陷,提出了一种归一化的改进方法,以减轻计算AV值时产生的波...
该文提出了一种无监督和有监督相结合的中文分词方法:将邻接变化数(Accessor Variety,AV)引入基于条件随机场的中文分词系统中。针对邻接变化数在处理较少的训练数据时存在的缺陷,提出了一种归一化的改进方法,以减轻计算AV值时产生的波动。基于Bakeoff-4的中文分词实验表明,归一化的邻接变化数方法无论对于封闭测试,还是开放测试,都带来了性能的提升。
展开更多
关键词
计算机应用
中文信息处理
无
监督
分词
条件随机场
归一化的邻接变化数方法
下载PDF
职称材料
一种实用的资源稀缺条件下的分词方法
被引量:
4
3
作者
马宁
李亚超
+1 位作者
何向真
于洪志
《计算机应用研究》
CSCD
北大核心
2016年第1期68-70,97,共4页
在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料...
在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料上进行实验。该分词方法显著提高了最大匹配分词方法的分词效果,同时也优于当前最好的无监督分词结果。实验表明,该方法快速、有效,利用较小的资源获得了较好的分词效果。
展开更多
关键词
分词
无
监督
分词
最大匹配
VE算法
间隔标注
资源
下载PDF
职称材料
基于SentencePiece的中医学分词模型建模研究
被引量:
1
4
作者
刘双巧
周璐
+7 位作者
李彩艳
袁慧敏
张异卓
李昱达
刘锦钢
郑丰杰
孙燕
李宇航
《世界中医药》
CAS
2021年第6期981-985,990,共6页
目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。...
目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83。结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考。
展开更多
关键词
分词
中文
分词
分词
模型
无
监督
学习
无
监督
分词
SentencePiece
下载PDF
职称材料
面向中医古籍文本的领域自适应性无监督分词
被引量:
2
5
作者
张素华
叶青
+1 位作者
程春雷
邹静
《软件导刊》
2022年第1期96-100,共5页
中医古籍文本分词是中医古籍结构化表示及深度挖掘的基础性工作。有监督的中医古籍文本分词简易可行,但存在耗费大量人力物力、专业门槛高、主观性强、扩展性不好等问题。为此改进TextRank算法,提出ConnectRank算法,根据字符连通度实现...
中医古籍文本分词是中医古籍结构化表示及深度挖掘的基础性工作。有监督的中医古籍文本分词简易可行,但存在耗费大量人力物力、专业门槛高、主观性强、扩展性不好等问题。为此改进TextRank算法,提出ConnectRank算法,根据字符连通度实现中医古籍无监督分词。基于《伤寒杂病论》《黄帝内经》《难经》等700篇中医古籍文献语料设计实验。实验结果表明,该模型在中医古籍文本分词中较其他无监督分词模型有更好的分词效果,比传统的无监督分词方法提高了11.2%。
展开更多
关键词
中医古籍文献
ConnectRank算法
无
监督
分词
字符连通度
领域自适应性
下载PDF
职称材料
题名
基于无监督学习的中文电子病历分词
被引量:
6
1
作者
张立邦
关毅
杨锦峰
机构
哈尔滨工业大学计算机科学与技术学院
出处
《智能计算机与应用》
2014年第2期68-71,共4页
文摘
电子病历中包含大量有用的医疗知识,抽取这些知识对于构建临床决策支持系统和个性化医疗健康信息服务具有重要意义。自动分词是分析和挖掘中文电子病历的关键基础。为了克服获取标注语料的困难,提出了一种基于无监督学习的中文电子病历分词方法。首先,使用通用领域的词典对电子病历进行初步的切分,为了更好地解决歧义问题,引入概率模型,并通过EM算法从生语料中估计词的出现概率。然后,利用字串的左右分支信息熵构建良度,将未登录词识别转化为最优化问题,并使用动态规划算法进行求解。最后,在3 000来自神经内科的中文电子病历上进行实验,证明了该方法的有效性。
关键词
中文电子病历
无
监督
分词
EM算法
分支信息熵
动态规划
Keywords
Chinese EMRs
Unsupervised Segmentation
EM Algorithm
Branching Entropy
Dynamic Programming
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
归一化的邻接变化数方法在中文分词中的应用
被引量:
5
2
作者
何赛克
王小捷
董远
张韬政
白雪
机构
北京邮电大学信息与通信工程学院
北京邮电大学计算机科学与技术学院
法国电信北京研发中心
出处
《中文信息学报》
CSCD
北大核心
2010年第1期15-19,共5页
基金
高等学校学科创新引智计划资助项目(B08004)
国家支撑计划资助项目(2007BAHo5B02-04)
文摘
该文提出了一种无监督和有监督相结合的中文分词方法:将邻接变化数(Accessor Variety,AV)引入基于条件随机场的中文分词系统中。针对邻接变化数在处理较少的训练数据时存在的缺陷,提出了一种归一化的改进方法,以减轻计算AV值时产生的波动。基于Bakeoff-4的中文分词实验表明,归一化的邻接变化数方法无论对于封闭测试,还是开放测试,都带来了性能的提升。
关键词
计算机应用
中文信息处理
无
监督
分词
条件随机场
归一化的邻接变化数方法
Keywords
computer application
Chinese information processing
unsupervised segmentation
CRFs
normalized accessor variety
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种实用的资源稀缺条件下的分词方法
被引量:
4
3
作者
马宁
李亚超
何向真
于洪志
机构
西北民族大学甘肃省民族语言智能处理重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2016年第1期68-70,97,共4页
基金
西北民族大学中央高校基本科研业务费专项资金资助项目(zyp2015001
31920140064)
文摘
在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料上进行实验。该分词方法显著提高了最大匹配分词方法的分词效果,同时也优于当前最好的无监督分词结果。实验表明,该方法快速、有效,利用较小的资源获得了较好的分词效果。
关键词
分词
无
监督
分词
最大匹配
VE算法
间隔标注
资源
Keywords
word segmentation
unsupervised word segmentation
maximum matching
voting experts algorithm
gap tagging
resource
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于SentencePiece的中医学分词模型建模研究
被引量:
1
4
作者
刘双巧
周璐
李彩艳
袁慧敏
张异卓
李昱达
刘锦钢
郑丰杰
孙燕
李宇航
机构
北京中医药大学中医学院
出处
《世界中医药》
CAS
2021年第6期981-985,990,共6页
基金
国家重点研发计划项目(2017YFC1700303,2017YFC1700300)。
文摘
目的:探索构建适用于中医学领域的分词模型。方法:采用基于SentencePiece的无监督学习分词方法,提出利用出版教材、名家著作及中医临床病历这3种不同类型的文献构建中医学分词模型;选择中医临床病历、名医医案作为测试集进行模型测试。结果:中医学分词模型在测试集中的Kappa系数为0.79(一致性程度很高),准确率为0.84,宏观精确率为0.84,宏观召回率为0.83,宏观f1得分为0.83。结论:所构建的分词模型对于中医学专业术语有着较好的切分效果,表明该方法可运用于中医学领域的分词模型的构建,可为进一步地研究中医学分词提供方法学参考。
关键词
分词
中文
分词
分词
模型
无
监督
学习
无
监督
分词
SentencePiece
Keywords
Word segmentation
Chinese word segmentation
Word segmentation model
Unsupervised learning
Unsupervised word segmentation
Sentence piece
分类号
R2-03 [医药卫生—中医学]
下载PDF
职称材料
题名
面向中医古籍文本的领域自适应性无监督分词
被引量:
2
5
作者
张素华
叶青
程春雷
邹静
机构
江西中医药大学计算机学院
出处
《软件导刊》
2022年第1期96-100,共5页
基金
国家重点研发计划项目(2019YFC1712301)
江西省教育厅科学技术研究重点项目(GJJ201204)
+2 种基金
江西省教育厅科学技术研究项目(GJJ170727)
江西中医药大学博士启动基金项目(2018WBZR021)
江西省一流学科建设科研启动基金专项项目(JXSYLXK-ZHYI059)。
文摘
中医古籍文本分词是中医古籍结构化表示及深度挖掘的基础性工作。有监督的中医古籍文本分词简易可行,但存在耗费大量人力物力、专业门槛高、主观性强、扩展性不好等问题。为此改进TextRank算法,提出ConnectRank算法,根据字符连通度实现中医古籍无监督分词。基于《伤寒杂病论》《黄帝内经》《难经》等700篇中医古籍文献语料设计实验。实验结果表明,该模型在中医古籍文本分词中较其他无监督分词模型有更好的分词效果,比传统的无监督分词方法提高了11.2%。
关键词
中医古籍文献
ConnectRank算法
无
监督
分词
字符连通度
领域自适应性
Keywords
traditional Chinese medicine ancient literature
ConnectRank algorithm
unsupervised word segmentation
character con⁃nectivity
domain adaptability
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于无监督学习的中文电子病历分词
张立邦
关毅
杨锦峰
《智能计算机与应用》
2014
6
下载PDF
职称材料
2
归一化的邻接变化数方法在中文分词中的应用
何赛克
王小捷
董远
张韬政
白雪
《中文信息学报》
CSCD
北大核心
2010
5
下载PDF
职称材料
3
一种实用的资源稀缺条件下的分词方法
马宁
李亚超
何向真
于洪志
《计算机应用研究》
CSCD
北大核心
2016
4
下载PDF
职称材料
4
基于SentencePiece的中医学分词模型建模研究
刘双巧
周璐
李彩艳
袁慧敏
张异卓
李昱达
刘锦钢
郑丰杰
孙燕
李宇航
《世界中医药》
CAS
2021
1
下载PDF
职称材料
5
面向中医古籍文本的领域自适应性无监督分词
张素华
叶青
程春雷
邹静
《软件导刊》
2022
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部