期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
文本信息处理研究述评 被引量:11
1
作者 袁鼎荣 钟宁 张师超 《计算机科学》 CSCD 北大核心 2011年第2期9-13,共5页
文本信息处理就是通过计算机对文本从表及里、由此及彼的分析处理,不仅仅抽取包含其中的信息,更需要分析推理蕴涵其中的意义。全面地分析探讨了文本信息处理研究现状,概述了文本信息处理的发展历史,将文本信息处理研究归纳为分词研究、... 文本信息处理就是通过计算机对文本从表及里、由此及彼的分析处理,不仅仅抽取包含其中的信息,更需要分析推理蕴涵其中的意义。全面地分析探讨了文本信息处理研究现状,概述了文本信息处理的发展历史,将文本信息处理研究归纳为分词研究、文本信息抽取、文本分类、文本信息检索、文本自动摘要等方面,并分别对各领域的研究现状做了概述,指出了各研究领域中存在的问题。讨论了文本信息处理的关键技术问题及其挑战,指出了文本信息处理的远景目标就是文本信息的语义分析、归纳推理和文语转换。 展开更多
关键词 分词研究 文本分类 信息抽取 信息检索 文本自动摘要
下载PDF
无监督与有监督相结合的粤语分词方法
2
作者 苏振江 张仰森 +1 位作者 胡昌秀 黄改娟 《计算机工程与设计》 北大核心 2023年第8期2482-2488,共7页
为能在缺乏粤语分词语料的情况下进行粤语研究,提出一种基于无监督与有监督结合的粤语分词方法。利用多源语料完成粤语词库的构建;利用二元字典与粤语词库对初步结果进行初筛分词和二次分词;利用DAG对粤语通用句式切分错误进行分析并修... 为能在缺乏粤语分词语料的情况下进行粤语研究,提出一种基于无监督与有监督结合的粤语分词方法。利用多源语料完成粤语词库的构建;利用二元字典与粤语词库对初步结果进行初筛分词和二次分词;利用DAG对粤语通用句式切分错误进行分析并修正;将修正后的粤语分词语料利用深度学习模型固化分词效果,得到基于Bert-BiLSTM-CRF三层架构的分词模型。实验结果表明,该方法能有效克服预分词语料的缺失问题,在无需大量分词语料的情况下,F值达到74.3%。 展开更多
关键词 粤语 分词研究 词库 互信息 端到端模型 有监督模型 无监督模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部