-
题名基于子词链的中文新闻广播故事自动分割
被引量:2
- 1
-
-
作者
杨玉莲
谢磊
-
机构
西北工业大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2009年第2期583-586,594,共5页
-
基金
国家教育部高等学校博士点学科专项基金资助项目(20070699015)
陕西省自然科学基础研究计划资助项目(2007F15)
+1 种基金
西北工业大学基础研究基金资助项目
西北工业大学"翱翔之星"计划资助项目(07XE0150)
-
文摘
提出了一种基于子词链的中文新闻广播故事自动分割方法。利用中文同音异形字众多、词典开放、分词多样和组词灵活等特点,在新闻广播的语音识别抄本上采用中文子词单元(汉字和音节)创建子词链,进行中文新闻广播故事的自动分割,有效地解决了在传统词链方法中由于语音识别错误(特别是词典未收录词汇)导致的相关联词之间无法匹配的问题。同时,利用各级词汇表示单元之间的互补性,如词的表义确定性和子词对语音识别错误的鲁棒性,对各级词汇进行融合,利用不同级别词汇表示单元的优势进一步提高中文新闻广播故事分割的性能。在TDT2中文标准新闻广播语料库上进行的实验表明,基于一元汉字子词链分割方法的F-mea-sure比传统词链方法提高了6.06%。基于一元和二元汉字子词链边界强度的融合可以使F-mea-sure进一步提高2.55%。基于投票法的融合可以使F-measure比传统词链方法提高9.04%。
-
关键词
子词
词链
主题分割
故事分割
信息检索
语音文件检索
-
Keywords
subword
lexical chaining
topic segmentation
story segmentation
information retrieval
spoken document retrieval(sdr)
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名一种融合音位属性的语音文档索引方法
- 2
-
-
作者
陆明明
张连海
屈丹
牛铜
-
机构
解放军信息工程大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
2012年第19期159-162,共4页
-
基金
国家自然科学基金资助项目(61175017)
-
文摘
为提高索引覆盖率并获得更多的候选路径,提出一种在词格上融合音位属性的语音文档索引方法。通过基于音位属性检测的语音识别系统建立词格,利用其信息互补性,与传统的词格进行起止节点合并。针对合并后Lattice规模增大的问题,采用基于位置的分段对齐方法对其结构进行压缩。实验结果表明,该方法在提高索引覆盖率和降低最小错误率方面均优于传统的语音文档索引方法,能够有效提高语音检索性能。
-
关键词
语音文档检索
语音文档索引
自动语音识别
音位属性检测
词格
信息融合
-
Keywords
spoken document retrieval(sdr)
spoken document indexing
Automatic Speech Recognition(ASR)
phonological feature detection
lattice
information integration
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-