-
题名基于级联重排序的汉语音字转换
被引量:1
- 1
-
-
作者
李鑫鑫
王轩
姚霖
关键
-
机构
哈尔滨工业大学深圳研究生院计算机应用研究中心
深圳互联网多媒体应用技术工程实验室
移动互联网应用安全产业公共服务平台
-
出处
《自动化学报》
EI
CSCD
北大核心
2014年第4期624-634,共11页
-
基金
国家科技部重大科技专项(2011ZX03002-004-01)
深圳市基础研究重点项目(JC201104210032A
JC201005260112A)资助~~
-
文摘
N元语言模型是解决汉字音字转换问题最常用的方法.但在解析过程中,每一个新词的确定只依赖于前面的邻近词,缺乏长距离词之间的句法和语法约束.我们引入词性标注和依存句法等子模型等来加强这种约束关系,并采用两个重排序方法来利用这些子模型提供的信息:1)线性重排序方法,采用最小错误学习方法来得到各个子模型的权重,然后产生候选词序列的概率;2)采用平均感知器方法对候选词序列进行重排序,能够利用词性、依存关系等复杂特征.实验结果显示,两种方法都能有效地提高词N元语言模型的性能.而将这两种方法进行级联,即首先采用线性重排序方法,然后把产生的概率作为感知器重排序方法的初始概率时性能取得最优.
-
关键词
汉语音字转换
重排序
最小错误学习
感知器方法
-
Keywords
Chinese pinyin-to-character conversion, reranking approach, minimum error learning, averaged perceptron
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-