期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
面向作文自动评分的优美句识别 被引量:15
1
作者 付瑞吉 王栋 +2 位作者 王士进 胡国平 刘挺 《中文信息学报》 CSCD 北大核心 2018年第6期88-97,共10页
语言优美是学生写作能力中重要的一部分。该文提出一个面向作文自动评分的作文优美句识别任务,主要识别中学生中文作文中的优美句。相比传统文本分类任务,优美句识别更加难以用特征工程的方式解决。因此,该文提出一种基于卷积神经网络(C... 语言优美是学生写作能力中重要的一部分。该文提出一个面向作文自动评分的作文优美句识别任务,主要识别中学生中文作文中的优美句。相比传统文本分类任务,优美句识别更加难以用特征工程的方式解决。因此,该文提出一种基于卷积神经网络(CNN)和双向长短时记忆(BiLSTM)网络的混合神经网络结构进行优美句识别,并和CNN、BiLSTM网络进行了对比。实验证明,混合神经网络的准确率最高,达到89.23%,F1值与BiLSTM相当,达到75.39%。此外,该文将优美句子特征用于作文自动评分任务,可使计算机评分和人工评分的大分差比例下降21.41%。 展开更多
关键词 优美句识别 深度神经网络 作文自动评分
下载PDF
基于时域建模的自动语音识别 被引量:6
2
作者 王海坤 伍大勇 +3 位作者 刘江 王士进 胡国平 胡郁 《计算机工程与应用》 CSCD 北大核心 2017年第20期243-248,共6页
端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型,递归神经网络和全连接前馈深度神经网络作为声学模型的方式... 端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型,递归神经网络和全连接前馈深度神经网络作为声学模型的方式,在效果和效率两个方面具有一定的局限性。从特征提取模块的效果以及声学模型的训练效率角度,提出多时间频率分辨率卷积网络与带记忆模块的前馈神经网络相结合的端到端语音识别模型。实验结果表明,所提方法语音识别在真实录制数据集上较传统方法字错误率下降10%,训练时间减少80%。 展开更多
关键词 卷积神经网络 递归神经网络 声学模型 端到端模型
下载PDF
一种面向初高中英语单选题的类人答题系统 被引量:1
3
作者 陈志刚 刘青文 +2 位作者 林伟 汪洋 陈小平 《中国科学技术大学学报》 CAS CSCD 北大核心 2016年第3期231-237,共7页
初高中英语考试中单选题的机器类人答题问题(sentence completion problem),其目标是从一个词或短语集合中选择最佳答案填入目标句子的适当位置使其成为一个合理通顺的句子.尽管针对该问题学术界已经提出了许多解决方案,但是都停留在语... 初高中英语考试中单选题的机器类人答题问题(sentence completion problem),其目标是从一个词或短语集合中选择最佳答案填入目标句子的适当位置使其成为一个合理通顺的句子.尽管针对该问题学术界已经提出了许多解决方案,但是都停留在语言模型和隐语义分析的算法框架下.为此以语言模型和隐语义分析两种方法为基线,分别从固定搭配抽取、动词时态分析两个方面抽取试题的词法、语法和语义特征,以初高中英语题库中的部分试题为训练集,构建了一个基于学习排序模型的类人答题系统.该系统的在初中和高中的单选题测试集上分别达到78%和76%的准确率,与基于语言模型和隐语义分析的基线模型相比均提高了4个百分点. 展开更多
关键词 类人答题 句子完形 语言模型 信息抽取 时态分析
下载PDF
语音识别技术的研究进展与展望 被引量:75
4
作者 王海坤 潘嘉 刘聪 《电信科学》 2018年第2期1-11,共11页
自动语音识别(ASR)技术的目的是让机器能够"听懂"人类的语音,将人类语音信息转化为可读的文字信息,是实现人机交互的关键技术,也是长期以来的研究热点。最近几年,随着深度神经网络的应用,加上海量大数据的使用和云计算的普及... 自动语音识别(ASR)技术的目的是让机器能够"听懂"人类的语音,将人类语音信息转化为可读的文字信息,是实现人机交互的关键技术,也是长期以来的研究热点。最近几年,随着深度神经网络的应用,加上海量大数据的使用和云计算的普及,语音识别取得了突飞猛进的进展,在多个行业突破了实用化的门槛,越来越多的语音技术产品进入了人们的日常生活,包括苹果的Siri、亚马逊的Alexa、讯飞语音输入法、叮咚智能音箱等都是其中的典型代表。对语音识别技术的发展情况、最近几年的关键突破性技术进行了介绍,并对语音识别技术的发展趋势做了展望。 展开更多
关键词 自动语音识别 深度神经网络 声学模型 语言模型
下载PDF
LBSN上基于兴趣圈中社会关系挖掘的推荐算法 被引量:14
5
作者 李鑫 刘贵全 +2 位作者 李琳 吴宗大 丁君美 《计算机研究与发展》 EI CSCD 北大核心 2017年第2期394-404,共11页
随着带有GPS定位功能的智能手机越来越普遍,人们喜欢分享他们的地理位置或者通过评论某个地方的商品从而留下用户的足迹,这引发了以共同的兴趣点(POIs)为中心,基于地理位置信息的社交网络研究(location based social network,LBSN).社... 随着带有GPS定位功能的智能手机越来越普遍,人们喜欢分享他们的地理位置或者通过评论某个地方的商品从而留下用户的足迹,这引发了以共同的兴趣点(POIs)为中心,基于地理位置信息的社交网络研究(location based social network,LBSN).社交网络中的一类典型应用是推荐系统,而推荐系统中最常见的问题是冷启动,即在用户很少点评商家或分享评论时如何为他推荐感兴趣的商家.为解决冷启动问题,提出了一种在社交网络中基于兴趣圈的社会关系挖掘推荐算法.兴趣圈是由所有访问某一类别商品的用户群及他们之间的社会关系构成的社交联系,不同的用户访问同一类别商品表明他们对此类别具有相似兴趣.该方法在传统矩阵分解模型的基础上考虑不同的兴趣圈上的社会关系,使用的社会关系包括朋友关系(显性关系)和相关专家(隐性关系),并用它们作为规则化项来优化矩阵分解模型.实验数据集来自第5届Yelp挑战赛和自己爬取的Foursquare数据集,提出的方法与已有模型进行了充分的实验对比分析,结果表明,我们的模型特别是在解决冷启动问题方面优于多种现有的方法. 展开更多
关键词 兴趣点 推荐 兴趣圈 社会关系 冷启动
下载PDF
深度学习平台体系架构及其关键技术 被引量:4
6
作者 束柬 陈剑波 《计算机应用研究》 CSCD 北大核心 2023年第11期3353-3357,共5页
针对AI模型生产和训练,传统基于脚本的物理单机或集群方式存在训练推理割裂、资源利用不充分、计算环境难迁移、训练流程冗长等问题,提出了一种面向深度学习模型训练的平台体系架构,架构分为数据平台层、计算平台层、训练套件层以及管... 针对AI模型生产和训练,传统基于脚本的物理单机或集群方式存在训练推理割裂、资源利用不充分、计算环境难迁移、训练流程冗长等问题,提出了一种面向深度学习模型训练的平台体系架构,架构分为数据平台层、计算平台层、训练套件层以及管理平台层四层,并逐层进行分析。在关键技术上,首先提出了训练推理一体化框架,采用抽象的计算流图屏蔽网络结构差异,并进行图优化;其次,提出了GPU状态感知的自适应资源匹配机制,采用环形消除算法解决通信成本线性增长问题;同时,提出基于启发式算法的标签匹配调度算法,以提高资源利用率;并且,通过租户管理和容灾机制的建立保障了系统平台的安全可靠性。最终搭建仿真平台验证其可用性、安全可靠性和拓展性。通过深度学习平台的应用,可以帮助企业更简易快捷地训练定制化模型和使用个性化服务,加速AI生产落地,推动AI技术和整个生态的繁荣发展。 展开更多
关键词 人工智能 模型训练 深度学习 体系架构 容器化
下载PDF
计算机智能辅助评分系统定标集选取和优化方法研究 被引量:6
7
作者 何屹松 孙媛媛 +1 位作者 张凯 付瑞吉 《中国考试》 CSSCI 2020年第1期30-36,共7页
在计算机智能评分研究中,选取定标样本对建立评分模型至关重要。通过对不同定标集人机评分的对比研究,提出“专家随机抽取+智能挑选样卷+聚类分段补充”的定标集选取方法。这种方法提升了评分模型对于各分数段的建模能力,符合高考等考... 在计算机智能评分研究中,选取定标样本对建立评分模型至关重要。通过对不同定标集人机评分的对比研究,提出“专家随机抽取+智能挑选样卷+聚类分段补充”的定标集选取方法。这种方法提升了评分模型对于各分数段的建模能力,符合高考等考试环境下考生成绩呈正态分布的特点,拓展了对专家评分和阅卷教师评分的综合学习能力,使得计算机智能辅助评分系统能够通过深度学习的方法,更加全面地理解和掌握评分标准。 展开更多
关键词 高考 计算机辅助评分系统 作文评分 定标样本
下载PDF
基于提示微调的汉语词汇简化研究
8
作者 肖子豪 程苗苗 +3 位作者 巩捷甫 韩旭 王士进 宋巍 《中文信息学报》 CSCD 北大核心 2024年第8期34-43,共10页
词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性。该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simplification)。PTCLS采用基于BAR... 词汇简化是在不改变原句结构和语义的情况下,用更简单的词替换句子中的难词,提高文本面向特定群体读者的可读性。该文提出基于提示微调的汉语词汇简化方法PTCLS(Prompt-tuning Based Chinese Lexical Simplification)。PTCLS采用基于BART的底层架构,能够自然地生成不同字数的替代词,模型训练只需微调少量参数。在公开的汉语词汇简化数据集上的实验表明,该文提出的方法可以大幅超越目前最好的基线系统BERT-LS。深入分析揭示,微调方法只利用少量标注数据即可取得比全参数微调、手工提示和无监督方法更好的表现,尤其针对汉语同义词词典外的难词取得了更显著的性能提升。 展开更多
关键词 词汇简化 提示学习 提示微调 文本简化 小样本学习
下载PDF
“语言智能”多人谈 被引量:1
9
作者 宋柔 李斌 +5 位作者 王宝鑫 杨子清 伍大勇 李辰 荀恩东 苏祺 《语言战略研究》 北大核心 2023年第4期53-56,共4页
语言学能为大规模语言模型的完善做些什么.宋柔(北京语言大学信息科学学院) 虽然大规模语言模型(以下简称“大模型”)的出色表现震动了社会,但是也暴露出了一些根本性的不足,比如:生成的文本会有事实性错误和逻辑谬误;缺少正误判断能力... 语言学能为大规模语言模型的完善做些什么.宋柔(北京语言大学信息科学学院) 虽然大规模语言模型(以下简称“大模型”)的出色表现震动了社会,但是也暴露出了一些根本性的不足,比如:生成的文本会有事实性错误和逻辑谬误;缺少正误判断能力;规模过于庞大,消耗太多的算力;不具备人脑的深度抽象能力和由之而来的创新能力。随着大模型的数据量和参数量不断扩充,这些缺陷会有所改善,但大模型的系统架构决定了不可能完全消除这些不足。 展开更多
关键词 语言智能 语言模型 系统架构 事实性 抽象能力 逻辑谬误 参数量 创新能力
下载PDF
基于韵律特征辅助的端到端语音识别方法
10
作者 刘聪 万根顺 +1 位作者 高建清 付中华 《计算机应用》 CSCD 北大核心 2023年第2期380-384,共5页
针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径,导致在部分场景下的解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合在语言模型... 针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径,导致在部分场景下的解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合在语言模型中的概率。在基于注意力机制的编码-解码语音识别框架的基础上,首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征;然后将韵律特征与解码端结合,从而显著提升了发音相同或相近、语义歧义情况下的语音识别准确率。实验结果表明,该方法在1000 h及10000 h级别的语音识别任务上分别较端到端语音识别基线方法在准确率上相对提升了5.2%和5.0%,进一步改善了语音识别结果的可懂度。 展开更多
关键词 语音识别 端到端 语义歧义 注意力机制 韵律特征
下载PDF
基于时域波形的半监督端到端虚假语音检测方法
11
作者 方昕 黄泽鑫 +6 位作者 张聿晗 高天 潘嘉 付中华 高建清 刘俊华 邹亮 《计算机应用》 CSCD 北大核心 2023年第1期227-231,共5页
现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(D... 现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(DP-Res2Net),提出一种基于时域波形的半监督端到端虚假语音检测方法。首先,为了解决训练数据集和测试数据集两者数据分布差异较大的问题,采用半监督学习进行领域迁移;然后,对于特征工程,直接将时域采样点输入DP-Res2Net中,增加局部的多尺度信息,并充分利用音频片段之间的依赖性;最后,输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量,用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能,实验结果表明它的等错误率(EER)为19.97%,与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的,且具有更高的泛化能力。 展开更多
关键词 虚假语音检测 语音合成 音色转换 说话人识别 时域 半监督学习
下载PDF
基于要点匹配的文科主观题通用评分
12
作者 王士进 巩捷甫 +3 位作者 汪意发 宋巍 陈志刚 魏思 《中文信息学报》 CSCD 北大核心 2023年第6期165-178,共14页
主观题自动评分是智慧教育创新中的重要环节,逐步成为人工智能与教育行业领域交叉的热门方向之一。该文面向文科要点主观题,提出基于多任务学习的要点匹配评价模型:评估学生作答与标准答案各个要点之间的匹配等级,并抽取其中与要点相对... 主观题自动评分是智慧教育创新中的重要环节,逐步成为人工智能与教育行业领域交叉的热门方向之一。该文面向文科要点主观题,提出基于多任务学习的要点匹配评价模型:评估学生作答与标准答案各个要点之间的匹配等级,并抽取其中与要点相对应的具体片段,通过这两个任务的结果同时刻画学生对每个要点的掌握程度,并作为自动评分的关键特征;将要点匹配评价结果与文本相似度特征相结合,实现主观题作答自动评分,在无定标数据的通用评分场景下大幅提升了效果。对比实验证明了相比传统特征,基于要点匹配评价结果的特征在评分模型中更加重要。 展开更多
关键词 文科主观题 作答要点匹配评价 多任务训练 通用评分
下载PDF
针对音变问题改进的维汉神经网络机器翻译鲁棒性方法研究
13
作者 阿里木·赛买提 沙丽瓦尔·阿里木 +3 位作者 卡哈尔·卡迪尔 刘轩铭 凌震华 刘俊华 《新疆师范大学学报(自然科学版)》 2023年第4期1-8,共8页
由于维吾尔语具有音变差异,在记录时容易混淆,这对机器翻译的容错能力提出了挑战。从词粒度研究的角度出发,针对维吾尔语中具有明显语音特性的音变词的翻译问题,采用字符级神经网络机器翻译(Character level Neural Network Machine Tra... 由于维吾尔语具有音变差异,在记录时容易混淆,这对机器翻译的容错能力提出了挑战。从词粒度研究的角度出发,针对维吾尔语中具有明显语音特性的音变词的翻译问题,采用字符级神经网络机器翻译(Character level Neural Network Machine Translation,CharNMT)结构,并结合覆盖率机制进行优化,这一方法不仅提高了音变词的翻译质量,还展现出较好的容错能力。在基础模型取得了1.25 Blue分的提升,并在训练和解码速度方面也具有优势。 展开更多
关键词 维吾尔语音变词 神经网络机器翻译技术 容错能力 字符级神经网络机器翻译
下载PDF
基于迁移学习的越南语语音合成 被引量:1
14
作者 杨琳 杨鉴 +1 位作者 蔡浩然 刘聪 《计算机科学》 CSCD 北大核心 2023年第8期118-124,共7页
越南语是越南社会主义共和国的官方语言,属南亚语系越芒语族越语支。近年来基于深度学习的语音合成已经能够合成出高质量的语音,然而这类方法通常依赖于大规模的高质量语音训练数据。解决某些低资源非通用语语音训练数据不足问题的一种... 越南语是越南社会主义共和国的官方语言,属南亚语系越芒语族越语支。近年来基于深度学习的语音合成已经能够合成出高质量的语音,然而这类方法通常依赖于大规模的高质量语音训练数据。解决某些低资源非通用语语音训练数据不足问题的一种有效途径为:采用迁移学习方法并借用其他高资源通用语语音数据。在低资源条件下,以提高越南语语音合成质量为目标,选用端到端语音合成模型Tacotorn2作为基线模型,采用迁移学习方法研究不同源语言和不同文本字符嵌入方式、迁移学习方式对语音合成效果的影响;然后从主观和客观两方面对文中阐述的各种模型所合成的语音进行测评。实验结果表明,基于英语音素嵌入+越南语音素嵌入方式的迁移学习系统在合成自然可懂的越南语语音上取得了较好的结果,合成语音的MOS评分可达4.11分,远高于基线系统的2.53分。 展开更多
关键词 越南语 语音合成 迁移学习 文本嵌入 端到端
下载PDF
学生议论文中的比喻论证作用分析
15
作者 武阗阗 宋子尧 +4 位作者 韩旭 程苗苗 巩捷甫 王士进 宋巍 《中文信息学报》 CSCD 北大核心 2023年第10期158-166,共9页
在议论文中,比喻不仅是一种修辞技巧,也是一种重要的论证方式。该文提出结合比喻识别和论辩挖掘技术自动分析议论文中的比喻及其论证作用。该文构建了一个数据集,标注了约1200篇学生议论文中的比喻句、论辩角色及论辩质量等级,分析了比... 在议论文中,比喻不仅是一种修辞技巧,也是一种重要的论证方式。该文提出结合比喻识别和论辩挖掘技术自动分析议论文中的比喻及其论证作用。该文构建了一个数据集,标注了约1200篇学生议论文中的比喻句、论辩角色及论辩质量等级,分析了比喻与论点、论据、阐释和其他论辩角色的作用方式以及比喻运用与篇章质量的关系。该文发现作为常见的修辞手段,比喻句的数量与论辩质量的相关性较弱,但比喻句作为论点时与论辩质量的相关性要强于作为其他论辩角色。此外,该文进一步标注了比喻论点类型以描述比喻的论证作用,包括事实、价值和策略,发现比喻论点的作用主要是传递价值与提出策略。通过比较两类比喻论点类型识别方法,发现基于精调预训练语言模型的方法优于基于提示学习的方法。最后,该文构建了一个集成比喻识别、论辩角色识别与论点类型分类的流水线系统,实验结果显示,该任务具有一定的实用性和挑战性。该研究对于作文自动评分与风格化的论点生成具有很好的应用前景和潜力。 展开更多
关键词 比喻论证 论辩挖掘 大语言模型
下载PDF
利用深层语言分析改进中文作文自动评分方法 被引量:3
16
作者 魏思 巩捷甫 +2 位作者 王士进 宋巍 宋子尧 《中文信息学报》 CSCD 北大核心 2022年第4期111-123,共13页
利用自然语言处理技术对作文进行自动评阅是有重要意义和挑战的研究课题,引起了人工智能领域与教育领域学者的共同关注。该文聚焦于语文作文自动评分任务,提出通过深层语言分析,包括应用高性能别字、语法纠错器分析语言运用能力,采用自... 利用自然语言处理技术对作文进行自动评阅是有重要意义和挑战的研究课题,引起了人工智能领域与教育领域学者的共同关注。该文聚焦于语文作文自动评分任务,提出通过深层语言分析,包括应用高性能别字、语法纠错器分析语言运用能力,采用自动修辞分析、优秀表达识别等手段反映语言表达能力,以及通过细粒度篇章质量分析评估篇章整体质量,来构建有效特征。该文同时提出了结合语言分析特征与深度神经网络编码的自适应混合评分模型。在真实语文作文数据上的实验表明,融入深层语言分析特征可有效提高作文评分效果;年级与主题自适应的模型训练策略,可提高模型的迁移能力和预测效果。消融实验进一步分析和解释了不同类型特征对评分效果的贡献。 展开更多
关键词 语文作文自动评分 深层语言分析 自适应混合评分模型
下载PDF
人机共生发展的法律思考
17
作者 张宏羽(整理) 赵玮 +4 位作者 蒋红珍 蒋科 黄道丽 唐云佳 伍大勇 《检察风云》 2023年第21期62-64,共3页
2023外滩大会检察分论坛以“数字时代的司法治理:技术、法律与社会的交汇”为主题。在本次论坛的“圆桌与谈”环节,与会嘉宾就“人类与人工智能如何实现共生发展”等问题展开交流讨论,探寻数字时代的治理之道。趋势赵玮:人工智能已经被... 2023外滩大会检察分论坛以“数字时代的司法治理:技术、法律与社会的交汇”为主题。在本次论坛的“圆桌与谈”环节,与会嘉宾就“人类与人工智能如何实现共生发展”等问题展开交流讨论,探寻数字时代的治理之道。趋势赵玮:人工智能已经被广泛应用并逐渐融入生产生活的方方面面,我们无不感受到人工智能带给社会的无穷变化和无限可能。那么,人工智能目前的应用情况如何,又呈现出怎样的发展趋势? 展开更多
关键词 司法治理 人工智能 法律与社会 交流讨论 共生发展 数字时代 治理之道 法律思考
原文传递
基于交替训练及预训练的低资源泰语语音合成
18
作者 蔡浩然 杨鉴 +1 位作者 杨琳 刘聪 《计算机科学》 CSCD 北大核心 2023年第S01期416-420,共5页
泰语作为一种有数千万人口使用的语言,应用较为广泛,20世纪90年代末就有学者开展了泰语语音合成的研究。近年来,基于深度神经网络并利用大规模高质量“文本-音频”数据训练的端到端语音合成系统,已经能够合成出高质量的语音。目前,汉语... 泰语作为一种有数千万人口使用的语言,应用较为广泛,20世纪90年代末就有学者开展了泰语语音合成的研究。近年来,基于深度神经网络并利用大规模高质量“文本-音频”数据训练的端到端语音合成系统,已经能够合成出高质量的语音。目前,汉语、英语等通用语已拥有海量的语音合成数据库,然而泰语作为一种非通用语可获取的“文本-音频”数据库规模往往较小。在低资源条件下,以提高泰语语音合成质量为目标,选用端到端语音合成模型Tacotron2作为基线模型,研究交替训练方法以及预训练方法,研究不同文本嵌入方式对泰语语音合成效果的影响;然后从注意力对齐图和MOS评分两方面对文中设计的6种模型所合成的语音进行测评。实验结果表明,采用“元辅音嵌入+预训练+交替训练”方法的系统的语音合成质量最好,合成语音的MOS评分可达3.95分,明显优于基线系统的1.71分。 展开更多
关键词 语音合成 泰语 低资源 交替训练 预训练
下载PDF
基于海量信息过滤的微博热词抽取方法 被引量:4
19
作者 汪洋 帅建梅 陈志刚 《计算机系统应用》 2012年第11期131-136,共6页
针对海量微博信息,提出一种多步骤的热词抽取方法.首先,选择用户行为特性、微博信息的文本特征构建用户行为模型,并在此基础上提出一种基于规则的话题树生成过滤算法,筛除了微博中大量无关信息,进而对生成的话题树修剪优化;然后,根据话... 针对海量微博信息,提出一种多步骤的热词抽取方法.首先,选择用户行为特性、微博信息的文本特征构建用户行为模型,并在此基础上提出一种基于规则的话题树生成过滤算法,筛除了微博中大量无关信息,进而对生成的话题树修剪优化;然后,根据话题树的节点内容,使用词频及其波动特性设计热词抽取算法,获取微博的热词信息.实验数据表明,该方法能大大减小输入的数据规模,同时较好的保留重要信息,有效实现热词抽取. 展开更多
关键词 中文微博 用户行为模型 海量信息过滤 热词抽取 幂律分布
下载PDF
一种面向移动终端的自然口语任务理解方法 被引量:1
20
作者 郭群 李剑锋 +1 位作者 陈小平 胡国平 《计算机系统应用》 2013年第8期124-129,共6页
随着移动互联时代的到来和语音识别技术的日益成熟,通过语音的交互方式来使用移动终端成为一种趋势.如何理解用户自然状态下的口语输入,传统的做法是手写上下文无关的文法规则,但是文法规则的书写需耗费大量的人力和物力,很难去维护和更... 随着移动互联时代的到来和语音识别技术的日益成熟,通过语音的交互方式来使用移动终端成为一种趋势.如何理解用户自然状态下的口语输入,传统的做法是手写上下文无关的文法规则,但是文法规则的书写需耗费大量的人力和物力,很难去维护和更新.提出一种采用支持向量机和条件随机场串行结合的方法,把口语任务理解分解为任务发现和信息抽取两个过程,并最终将任务表达成语义向量的形式.最终对"讯飞语点"语音助手用户返回的八个不同的任务种类的数据进行了测试,在一比一的噪声中识别任务语义表达的准确率为90.29%,召回率为88.87%. 展开更多
关键词 口语理解 任务发现 信息抽取 支持向量机 条件随机场
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部