期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于Web的字词频统计程序的设计与应用 被引量:3
1
作者 周丽琴 杨季文 吕强 《苏州大学学报(自然科学版)》 CAS 2002年第1期38-44,共7页
介绍了基于Web的字词频统计程序的设计及应用 首先阐述了开发该软件的实用性与重要性 ;然后介绍了该软件的设计思想 ;讨论了软件实现的主要设计流程 ;最后结合对一些特定文本统计的结果 。
关键词 WEB 统计程序 设计 语料库 频度统计 汉字字频 搜索 下载 过滤
下载PDF
一种面向中文分词的搜索算法
2
作者 张天皓 《计算机应用与软件》 北大核心 2018年第10期9-12,116,共5页
传统后缀树算法对于中文场景的适用性较差并且有着空间占用大的缺点。面向中文分词改造后缀树索引的构建,以适用于中文的短语检索和域搜索。改进域搜索的索引结构以加快检索速度,将文档ID从索引中剥离出来以减少空间占用,选取最合适的... 传统后缀树算法对于中文场景的适用性较差并且有着空间占用大的缺点。面向中文分词改造后缀树索引的构建,以适用于中文的短语检索和域搜索。改进域搜索的索引结构以加快检索速度,将文档ID从索引中剥离出来以减少空间占用,选取最合适的压缩算法对索引进行压缩。实验结果表明,该索引的检索速度至少较Lucene快约37%,空间占用相较原算法可以减少约82%。 展开更多
关键词 全文检索 垂直搜索 短语查询 后缀树 中文分词
下载PDF
基于短语统计翻译的汉维机器翻译系统 被引量:5
3
作者 杨攀 李淼 张建 《计算机应用》 CSCD 北大核心 2009年第7期2022-2025,共4页
描述了一种基于短语统计翻译的汉维机器翻译系统。首先使用汉维语料进行训练,得到语言模型和翻译模型;再利用训练好的模型对源语句进行解码,以得到最佳的翻译语句。解码的核心算法是柱搜索(beam search)算法。其中维文语料使用的是拉丁... 描述了一种基于短语统计翻译的汉维机器翻译系统。首先使用汉维语料进行训练,得到语言模型和翻译模型;再利用训练好的模型对源语句进行解码,以得到最佳的翻译语句。解码的核心算法是柱搜索(beam search)算法。其中维文语料使用的是拉丁维文。实验结果表明,基于短语的统计机器翻译方法可以快速有效地构建一个汉维机器翻译平台。 展开更多
关键词 短语统计翻译 语言模型 翻译模型 柱搜索算法
下载PDF
搜索引擎日志中“N+V+N”、“V+N+N”型短语识别 被引量:1
4
作者 郑丽 吕学强 《计算机工程与应用》 CSCD 2013年第6期143-147,155,共6页
短语识别是进行短语分析的前期准备工作。针对搜索引擎日志中"N+V+N"、"V+N+N"型短语特点,采用最大熵方法,按词信息、词性信息、音节数及前位标记信息提取特征构建训练集,得到最大熵方法进行短语识别的机器学习模... 短语识别是进行短语分析的前期准备工作。针对搜索引擎日志中"N+V+N"、"V+N+N"型短语特点,采用最大熵方法,按词信息、词性信息、音节数及前位标记信息提取特征构建训练集,得到最大熵方法进行短语识别的机器学习模型。实验结果显示,利用最大熵方法对两种短语进行开放性测试,两种短语的识别F值分别达到85.78%和76.47%,取得了较好的自动识别效果,在半开放性测试中,其识别结果更佳。 展开更多
关键词 短语识别 搜索引擎日志“ N+V+N”“ V+N+N” 最大熵方法
下载PDF
基于立方剪枝的短语机器解码算法改进
5
作者 朱海 李淼 +1 位作者 乌达巴拉 张建 《微电子学与计算机》 CSCD 北大核心 2011年第2期153-156,共4页
柱搜索算法是短语统计机器翻译广泛使用的解码算法.文中在立方剪枝算法的基础上提出了另一种对柱搜索算法的改进算法-基于立方剪枝的逆向递归算法.柱搜索算法对栈中所有的假进行扩展,立方剪枝算法有选择地扩展栈中的前k个最好假设,而基... 柱搜索算法是短语统计机器翻译广泛使用的解码算法.文中在立方剪枝算法的基础上提出了另一种对柱搜索算法的改进算法-基于立方剪枝的逆向递归算法.柱搜索算法对栈中所有的假进行扩展,立方剪枝算法有选择地扩展栈中的前k个最好假设,而基于立方剪枝的逆向递归算法只扩展栈中评分高的假设.实验结果表明获得相同的翻译质量,立方剪枝算法比柱搜索算法快10倍,立方剪枝的改进算法在大规模语料中比立方剪枝算法更节省时间. 展开更多
关键词 基于短语统计机器翻译系统 柱搜索算法 立方剪枝 逆向递归
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部