中文地名构词能力强、特征多样,难以从文本中准确定位到地名的位置和边界。为实现复杂中文地名的准确自动识别,深入分析了复杂中文地名的特征,将地名识别问题转换为序列标注问题,训练条件随机场(conditional random field,CRF)模型对地...中文地名构词能力强、特征多样,难以从文本中准确定位到地名的位置和边界。为实现复杂中文地名的准确自动识别,深入分析了复杂中文地名的特征,将地名识别问题转换为序列标注问题,训练条件随机场(conditional random field,CRF)模型对地名进行识别,并结合规则对CRF结果进行了修正和补召。为进一步提高对复杂地名的识别精度,设计了一种基于信息熵和点互信息的复杂地名识别算法,该算法利用地名数据库生成关联性词典,并基于该词典对文本相邻用字之间的关联性进行计算,从而确定复杂地名与上下文的边界,最终实现复杂地名的识别。实验结果显示,所提方法能够将现有的规则集合高效地用于地名识别,与CRF模型配合,提高了识别精度。在测试集上所提出的地名识别算法的准确度都高于包括深度学习算法在内的目前主流的识别算法。展开更多
文摘中文地名构词能力强、特征多样,难以从文本中准确定位到地名的位置和边界。为实现复杂中文地名的准确自动识别,深入分析了复杂中文地名的特征,将地名识别问题转换为序列标注问题,训练条件随机场(conditional random field,CRF)模型对地名进行识别,并结合规则对CRF结果进行了修正和补召。为进一步提高对复杂地名的识别精度,设计了一种基于信息熵和点互信息的复杂地名识别算法,该算法利用地名数据库生成关联性词典,并基于该词典对文本相邻用字之间的关联性进行计算,从而确定复杂地名与上下文的边界,最终实现复杂地名的识别。实验结果显示,所提方法能够将现有的规则集合高效地用于地名识别,与CRF模型配合,提高了识别精度。在测试集上所提出的地名识别算法的准确度都高于包括深度学习算法在内的目前主流的识别算法。