-
题名文本信息处理研究述评
被引量:11
- 1
-
-
作者
袁鼎荣
钟宁
张师超
-
机构
北京工业大学国际WIC研究院
广西师范大学计算机科学与信息工程学院
-
出处
《计算机科学》
CSCD
北大核心
2011年第2期9-13,共5页
-
基金
国家自然科学基金重大研究计划培育项目(90718020)
澳大利亚ARC项目(DP0667060)
广西自然科学基金资助
-
文摘
文本信息处理就是通过计算机对文本从表及里、由此及彼的分析处理,不仅仅抽取包含其中的信息,更需要分析推理蕴涵其中的意义。全面地分析探讨了文本信息处理研究现状,概述了文本信息处理的发展历史,将文本信息处理研究归纳为分词研究、文本信息抽取、文本分类、文本信息检索、文本自动摘要等方面,并分别对各领域的研究现状做了概述,指出了各研究领域中存在的问题。讨论了文本信息处理的关键技术问题及其挑战,指出了文本信息处理的远景目标就是文本信息的语义分析、归纳推理和文语转换。
-
关键词
分词研究
文本分类
信息抽取
信息检索
文本自动摘要
-
Keywords
Word segmentation research
Text classification
Information extracting
Information retrieval
Automatically abstracting
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名无监督与有监督相结合的粤语分词方法
- 2
-
-
作者
苏振江
张仰森
胡昌秀
黄改娟
-
机构
北京信息科技大学智能信息处理研究所
北京交通大学国家经济安全预警工程北京实验室
-
出处
《计算机工程与设计》
北大核心
2023年第8期2482-2488,共7页
-
基金
国家自然科学基金项目(61772081)
科技创新服务能力建设—科研基地建设—北京实验室—国家经济安全预警工程北京实验室基金项目(PXM2018_014224_000010)。
-
文摘
为能在缺乏粤语分词语料的情况下进行粤语研究,提出一种基于无监督与有监督结合的粤语分词方法。利用多源语料完成粤语词库的构建;利用二元字典与粤语词库对初步结果进行初筛分词和二次分词;利用DAG对粤语通用句式切分错误进行分析并修正;将修正后的粤语分词语料利用深度学习模型固化分词效果,得到基于Bert-BiLSTM-CRF三层架构的分词模型。实验结果表明,该方法能有效克服预分词语料的缺失问题,在无需大量分词语料的情况下,F值达到74.3%。
-
关键词
粤语
分词研究
词库
互信息
端到端模型
有监督模型
无监督模型
-
Keywords
Cantonese
word segmentation
word database
mutual information
end-to-end model
supervised model
unsupervised model
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-