期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
一种基于词频统计的组织机构名识别方法 被引量:15
1
作者 万亭 杨燕 +2 位作者 尹红风 贾真 刘利 《计算机应用研究》 CSCD 北大核心 2013年第7期2014-2016,共3页
命名实体识别是自然语言处理必不可少的重要部分,其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时,利用百度百科词条名在词条文本中的频数统计进行机构构成... 命名实体识别是自然语言处理必不可少的重要部分,其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时,利用百度百科词条名在词条文本中的频数统计进行机构构成词的词频统计。在此基础上,构建了数学模型,实现了组织机构名识别算法。该识别算法集成到了中文分词中,取得了较好的识别结果,可以满足一定的实际应用需求。 展开更多
关键词 统计 词频 机构名构成词 组织机构名识别
下载PDF
基于加权词向量和卷积神经网络的新闻文本分类 被引量:7
2
作者 万亭 贾真 《计算机系统应用》 2020年第5期275-279,共5页
在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TFIDF计算方法,兼顾了新闻标题和正文.实验... 在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TFIDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高. 展开更多
关键词 文本分类 TF-IDF技术 Skip-gram模型 词向量 卷积神经网络
下载PDF
基于多特征融合的网页正文信息抽取 被引量:4
3
作者 刘利 戴齐 +2 位作者 尹红风 贾真 万亭 《计算机应用与软件》 CSCD 北大核心 2014年第7期47-49,77,共4页
当今主流网页分为单正文体网页和多正文体网页。这些网页的正文信息都具有多个正文特征。想要准确定位正文信息所在位置,可以从其所具有的多个特征和网页设计者的设计习惯着手。鉴于此,融合这些特征提出一种基于多特征融合的网页正文信... 当今主流网页分为单正文体网页和多正文体网页。这些网页的正文信息都具有多个正文特征。想要准确定位正文信息所在位置,可以从其所具有的多个特征和网页设计者的设计习惯着手。鉴于此,融合这些特征提出一种基于多特征融合的网页正文信息抽取方法。实验结果表明,该方法对单正文体网页和多正文体网页的正文抽取具有较高的准确率和通用性,很好地适应了风格多样的网页。 展开更多
关键词 单正文体 多正文体 多特征 信息抽取
下载PDF
高校网络舆情监控系统的设计与实现 被引量:1
4
作者 万亭 冯慧蕊 《福建电脑》 2018年第9期49-50,共2页
互联网改变了人们传播舆论的方式,极易导致突发网络舆情事件,本文针对高校网络舆情的特点,设计并实现了基于网络论坛的高校网络舆情监控系统。下载高校论坛网页,抽取正文,统计分析后将数据可视化显示出来。高校管理者通过监控系统可以... 互联网改变了人们传播舆论的方式,极易导致突发网络舆情事件,本文针对高校网络舆情的特点,设计并实现了基于网络论坛的高校网络舆情监控系统。下载高校论坛网页,抽取正文,统计分析后将数据可视化显示出来。高校管理者通过监控系统可以实时了解学生的思想动态,辅助学校管理决策。 展开更多
关键词 舆情监控 爬虫 正文提取 分词 统计
下载PDF
一种基于改进ELMO模型的组织机构名识别方法
5
作者 万亭 郭建英 张继永 《计算机技术与发展》 2020年第11期25-29,共5页
组织机构名识别是命名实体识别的核心任务之一,也是最困难的任务。近年来,预训练模型在中文自然语言处理领域得到广泛应用,预训练的词嵌入模型在中文命名实体识别上取得了非常好的效果,但是在组织机构名识别上还有很大的提升空间。针对... 组织机构名识别是命名实体识别的核心任务之一,也是最困难的任务。近年来,预训练模型在中文自然语言处理领域得到广泛应用,预训练的词嵌入模型在中文命名实体识别上取得了非常好的效果,但是在组织机构名识别上还有很大的提升空间。针对这一问题,改进ELMO(embedding from language models)预训练模型,结合双向LSTM神经网络模型和条件随机场模型,去识别组织机构名。对于ELMO的改进,主要通过筛选高频机构词,然后将高频机构词加入中文字典,通过ELMO模型训练生成机构词向量和普通字向量。字向量不用考虑未登录词的问题,机构词向量引入了先验知识,结合起来可以使得生成的字词向量能够更好地表征组织机构名。实验结果表明,预训练模型的数据集相对较小时,该方法比字向量嵌入的方法有更好的效果,F1值提高了1.3%。 展开更多
关键词 ELMO模型 LSTM模型 机构词 条件随机场 组织机构名识别
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部