摘要
提出了一种基于子词链的中文新闻广播故事自动分割方法。利用中文同音异形字众多、词典开放、分词多样和组词灵活等特点,在新闻广播的语音识别抄本上采用中文子词单元(汉字和音节)创建子词链,进行中文新闻广播故事的自动分割,有效地解决了在传统词链方法中由于语音识别错误(特别是词典未收录词汇)导致的相关联词之间无法匹配的问题。同时,利用各级词汇表示单元之间的互补性,如词的表义确定性和子词对语音识别错误的鲁棒性,对各级词汇进行融合,利用不同级别词汇表示单元的优势进一步提高中文新闻广播故事分割的性能。在TDT2中文标准新闻广播语料库上进行的实验表明,基于一元汉字子词链分割方法的F-mea-sure比传统词链方法提高了6.06%。基于一元和二元汉字子词链边界强度的融合可以使F-mea-sure进一步提高2.55%。基于投票法的融合可以使F-measure比传统词链方法提高9.04%。
This paper applied Chinese subword representations(character and syllable n-grams) into chaining-based automa-tic story segmentation of Chinese broadcast news.It showed the robustness of Chinese subwords against speech recognition errors,especially OOV(out of vocabulary)words,in lexical term matching in erroneous speech recognition transcripts.Proposed a subword chaining approach that links repetitions of Chinese character/syllable n-gram units.Also proposed to integrate diffe-rent lexical scales in chainin...
出处
《计算机应用研究》
CSCD
北大核心
2009年第2期583-586,594,共5页
Application Research of Computers
基金
国家教育部高等学校博士点学科专项基金资助项目(20070699015)
陕西省自然科学基础研究计划资助项目(2007F15)
西北工业大学基础研究基金资助项目
西北工业大学"翱翔之星"计划资助项目(07XE0150)
关键词
子词
词链
主题分割
故事分割
信息检索
语音文件检索
subword
lexical chaining
topic segmentation
story segmentation
information retrieval
spoken document retrieval(SDR)