期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于词序列频率有向网的中文组合词提取算法 被引量:6
1
作者 陈建超 郑启伦 +1 位作者 李庆阳 严桂夺 《计算机应用研究》 CSCD 北大核心 2009年第10期3746-3749,共4页
随着人类知识体系的不断拓展和深化,很多组合词(多个词或语素组成的词)被创造出来用于表达新的概念。由于无法及时把组合词收录进词库,分词系统无法识别它们。为此,从文本中提取组合词成为智能计算领域的一个热门的研究方向。借鉴人类... 随着人类知识体系的不断拓展和深化,很多组合词(多个词或语素组成的词)被创造出来用于表达新的概念。由于无法及时把组合词收录进词库,分词系统无法识别它们。为此,从文本中提取组合词成为智能计算领域的一个热门的研究方向。借鉴人类的认知心理模式,提出一种基于词序列频率有向网的组合词抽取算法,以识别自由文本中的组合词。算法首先建立描述文本中的词序列出现频率的有向网,然后通过独特的矩阵运算,逐步把组合词提取出来。算法的优点是无须借助专业的语言知识,在实验分析中,算法显示了较好的效果。 展开更多
关键词 有向图 组合词 词序列 认知心理模式
下载PDF
基于互联网的词汇语义知识库构建框架研究 被引量:1
2
作者 刘兴林 陈建超 马千里 《计算机与现代化》 2010年第10期8-11,共4页
互联网已成为全球最大的知识资源库,然而要从互联网上获取有用的知识却非常困难。本文提出一种基于互联网的词汇语义知识库构建框架,分为三个大模块:网页文本自动获取、知识获取和知识应用。该框架能实现在线获取海量网页文本,提取中文... 互联网已成为全球最大的知识资源库,然而要从互联网上获取有用的知识却非常困难。本文提出一种基于互联网的词汇语义知识库构建框架,分为三个大模块:网页文本自动获取、知识获取和知识应用。该框架能实现在线获取海量网页文本,提取中文组合词并对其进行词标注,获取同义词集和词间语义关系,进而实现语义计算。词汇语义知识库的构建将为大量的知识应用提供基础。 展开更多
关键词 互联网 组合词 语义关系 语义知识库
下载PDF
论联合型复合词的语素序列 被引量:1
3
作者 张新红 刘锋 《伊犁师范学院学报(社会科学版)》 2008年第1期105-108,共4页
与其他类型复合词相比,联合型复合词的语素序列受语法关系直接制约的程度要低一些,而其他制约因素却要多一些,复杂一些。从结构形式、语义关系和词义类型等角度可以观察到此类复合词语素序列制约因素的多元性及其作用的灵活性。这类复... 与其他类型复合词相比,联合型复合词的语素序列受语法关系直接制约的程度要低一些,而其他制约因素却要多一些,复杂一些。从结构形式、语义关系和词义类型等角度可以观察到此类复合词语素序列制约因素的多元性及其作用的灵活性。这类复合词的语素序列是历史积淀的结果,在共时的状态下,它的制约性会通过各种渠道表现出来;这样,既可以用来解释已有的序列面貌,又可以通过语素意义在词化过程中的演变轨迹所提供的线索,去更深刻地认识、理解、掌握和运用联合型复合词。 展开更多
关键词 联合型复合词 语素序列 语素义 词义
下载PDF
汉语与越南语颜色词结构特点比较
4
作者 裴氏翠芳 杨扬 《云南师范大学学报(对外汉语教学与研究版)》 2009年第3期46-49,共4页
汉语和越南语的颜色词结构丰富多样,二者之间有共同之处,也有差别。就两种语言的颜色词结构特点进行比较,找出两者的异同,对学习汉语的越南人及学习越南语的中国人将有一定的帮助。
关键词 汉语颜色词 越南语颜色词 颜色单词 合成颜色词
下载PDF
基于组合词和同义词集的关键词提取算法 被引量:18
5
作者 蒋昌金 彭宏 +2 位作者 陈建超 马千里 严桂夺 《计算机应用研究》 CSCD 北大核心 2010年第8期2853-2856,共4页
为了提高关键词的提取准确率,在对现有关键词抽取方法进行研究的基础之上,针对影响关键词提取准确率的分词技术、同义词现象等难点,提出了一种基于组合词和同义词集的关键词提取算法。该算法首先利用组合词识别算法极大地改进分词效果,... 为了提高关键词的提取准确率,在对现有关键词抽取方法进行研究的基础之上,针对影响关键词提取准确率的分词技术、同义词现象等难点,提出了一种基于组合词和同义词集的关键词提取算法。该算法首先利用组合词识别算法极大地改进分词效果,能识别网页上绝大多数的新词、未登录词,为提高关键词自动抽取准确率奠定了坚实的基础;同时利用构造的同义词集,合并同义词的词频,避免了同义词在输出结果中同现;利用综合评分公式,充分考虑候选关键词的位置、长度、词性等特性。实验数据表明,该方法有较高的提取准确率。 展开更多
关键词 组合词 同义词集 中文网页 关键词提取
下载PDF
基于主题词权重和句子特征的自动文摘 被引量:17
6
作者 蒋昌金 彭宏 +1 位作者 陈建超 马千里 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第7期50-55,共6页
为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的... 为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%. 展开更多
关键词 主题词 自动文摘 组合词 权重计算 句子特征
下载PDF
合璧词和汉语词汇的双音节化倾向 被引量:3
7
作者 游汝杰 《东方语言学》 2006年第1期140-151,共12页
'合璧词'是笔者提出的一个概念和术语,指一个双音节合成词的两个同义语素分别来自不同的语言或方言。本文讨论来自不同方言的语素组成一个同义复合的合成词。这样的合成词在古今方言和书面语中都有。例如'遥远'是由古... '合璧词'是笔者提出的一个概念和术语,指一个双音节合成词的两个同义语素分别来自不同的语言或方言。本文讨论来自不同方言的语素组成一个同义复合的合成词。这样的合成词在古今方言和书面语中都有。例如'遥远'是由古代的梁楚方言'遥'和雅言'远'合璧而成。汉扬雄《方言》卷六载:'遥、广,远也。梁楚曰遥。'又如'咳嗽'在温州、厦门、福州称为'嗽',广州称'咳',现代汉语书面语或北方官话的'咳嗽'是个合璧词。方言或书面语中的'合璧词'是方言接触在词汇上的反映。'合壁'是汉语词汇从单音节向双音节发展的原因之一。 展开更多
关键词 方言接触 合成词 双音节 合璧词
原文传递
融合多元特征的中文网页关键词提取方法研究 被引量:2
8
作者 张孝飞 《图书馆》 CSSCI 北大核心 2020年第1期88-93,共6页
文章通过分析传统关键词提取方法的特点及不足,提出了融合多元特征的中文网页关键词提取方法。该方法既综合了中文网页文档词语的词频、词性、词长以及词位置等特征,又考虑了文档中出现的同义词、组合词现象的关键词评分,有效提高了传... 文章通过分析传统关键词提取方法的特点及不足,提出了融合多元特征的中文网页关键词提取方法。该方法既综合了中文网页文档词语的词频、词性、词长以及词位置等特征,又考虑了文档中出现的同义词、组合词现象的关键词评分,有效提高了传统关键词提取算法的精度。实验结果表明该算法优于传统方法,在网络情报监测中具有较大应用价值。 展开更多
关键词 提取 多元特征 同义词 组合词
下载PDF
一种中文微博新闻话题检测的方法 被引量:84
9
作者 郑斐然 苗夺谦 +1 位作者 张志飞 高灿 《计算机科学》 CSCD 北大核心 2012年第1期138-141,共4页
微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复... 微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题。 展开更多
关键词 微博 新闻 话题检测 聚类
下载PDF
基于组合分词方法和LDA模型的区块链金融产业关键技术识别研究 被引量:12
10
作者 吕鲲 陈箫羽 靖继鹏 《图书情报工作》 CSSCI 北大核心 2022年第19期110-121,共12页
[目的/意义]在区块链金融飞速发展的背景下,识别区块链金融产业的关键技术,有助于相关部门制定更加精准的风险防范措施和技术监管政策,以期增强区块链应用的合法性和可控性,保障金融稳定。[方法/过程]通过收集区块链金融的专利数据,利... [目的/意义]在区块链金融飞速发展的背景下,识别区块链金融产业的关键技术,有助于相关部门制定更加精准的风险防范措施和技术监管政策,以期增强区块链应用的合法性和可控性,保障金融稳定。[方法/过程]通过收集区块链金融的专利数据,利用组合分词方法和LDA模型识别关键技术主题,拟定关键技术,再根据产业关键技术特征衡量指标判定区块链金融的关键技术,并探究识别结果对于促进区块链金融产业发展的作用。[结果/结论]研究发现区块链金融产业的三大关键技术为点对点分布式技术、共识机制、哈希算法与加密技术,并从上述识别结果出发对区块链金融的技术提升和监管提出建议。 展开更多
关键词 区块链金融 关键技术 技术识别 组合分词 LDA模型
原文传递
基于多分类器加权投票法的越南语组合歧义消歧 被引量:6
11
作者 李佳 郭剑毅 +3 位作者 刘艳超 余正涛 线岩团 阮氏青娥 《计算机科学》 CSCD 北大核心 2018年第1期167-172,共6页
组合歧义消解是分词中的关键问题之一,直接影响到分词的准确率。为了解决越南语组合歧义对分词的影响问题,结合越南语组合型词的特点,提出了一种基于集成学习的越南语组合歧义消解方法。该方法首先通过人工选取越南语组合歧义词,构建出... 组合歧义消解是分词中的关键问题之一,直接影响到分词的准确率。为了解决越南语组合歧义对分词的影响问题,结合越南语组合型词的特点,提出了一种基于集成学习的越南语组合歧义消解方法。该方法首先通过人工选取越南语组合歧义词,构建出越南语组合歧义字段库,对越南语语料与越南语组合词词典进行匹配,抽取出越南语组合歧义字段;其次,采用三类分类器引入越南语词频特征和上下文信息,构建三类分类器消解模型,得到三类分类器消解结果;最后,计算出各分类器权值,通过阈值对越南语组合歧义进行最终分类。实验表明,所提方法的正确率达到了83.32%,与消歧结果最好的单个分类器相比准确率提高了5.81%。 展开更多
关键词 组合词词典 组合歧义消解 越南语 集成学习 加权投票法
下载PDF
现代汉语语法通则与当代小说中的词语个性分析——以《小说选刊》2008年第3期为例
12
作者 高天霞 《唐山师范学院学报》 2009年第3期20-23,共4页
受生活方式、思维方式个性化的影响,人们的语言表达也越来越个性化了。语言使用者打破"语法通则"而创造出的"词语个性"现象在书面语中也屡见不鲜。以2008年第3期《小说选刊》为例,对当代小说的个性化语言现象进行... 受生活方式、思维方式个性化的影响,人们的语言表达也越来越个性化了。语言使用者打破"语法通则"而创造出的"词语个性"现象在书面语中也屡见不鲜。以2008年第3期《小说选刊》为例,对当代小说的个性化语言现象进行了分析,发现词类活用、"副+名"、特殊缺省、特殊语序以及特殊离合是当代小说语言比较突出的词语个性现象。 展开更多
关键词 语法通则 词语个性 词性 语序 离合词
下载PDF
基于HNC理论的动态词合成
13
作者 吴崇斌 张全 《微计算机应用》 2010年第2期7-11,共5页
采用HNC理论的最新研究成果,从技术上实现动态词的合成。研究的成果集中在动态词合成程序,该程序能将文本分词后产生的单字根据规则库实现动态词的合成,从而提高句类分析的效率。
关键词 HNC理论 动态词 规则处理
下载PDF
模糊错误逻辑事物毁灭转化联结词研究 被引量:15
14
作者 郭开仲 熊海鸥 《模糊系统与数学》 CSCD 北大核心 2006年第2期34-39,共6页
给出模糊错误逻辑事物毁灭转化联结词所涉及的概念、运算及其模糊错误逻辑事物毁灭转化联结词与外延联结词否定,∧合取,∨析取,∨bxr不相容析取,→实质蕴涵等和对模糊错误逻辑事物毁灭转化联结词与内涵联结词∧n内涵合取词,∨n内涵析取,... 给出模糊错误逻辑事物毁灭转化联结词所涉及的概念、运算及其模糊错误逻辑事物毁灭转化联结词与外延联结词否定,∧合取,∨析取,∨bxr不相容析取,→实质蕴涵等和对模糊错误逻辑事物毁灭转化联结词与内涵联结词∧n内涵合取词,∨n内涵析取,—n内涵差取,/nf l内涵分离,/nf h内涵分化,∥nhb内涵互补,∥-nhd l内涵对立等的关系作了一点研究。 展开更多
关键词 模糊错误 毁灭转化 外延联结词
下载PDF
藏文内码扩展体系 被引量:9
15
作者 于洪志 《中文信息学报》 CSCD 北大核心 1999年第1期50-58,共9页
针对藏文编码字符集的基本集和辅助集建立在不同平面、编码体系不同所存在的问题,本文提出建立藏文内码扩展体系,给出了藏文合成、生成、分解的规则和方法:通过内码转换表合成藏文藏文内字,实现基本集与辅助集的信息交换;通过构件... 针对藏文编码字符集的基本集和辅助集建立在不同平面、编码体系不同所存在的问题,本文提出建立藏文内码扩展体系,给出了藏文合成、生成、分解的规则和方法:通过内码转换表合成藏文藏文内字,实现基本集与辅助集的信息交换;通过构件集,生成规范、标准的藏文外字,满足藏文编码字符集开放性的需要。并且,向上,在字汇一级,兼容UCS;向下,与GB2312的事实上的内码标准兼容,是一个全藏文编码体系。作者建议在UCS基本平面的拼音文字区建立内码扩充体系。 展开更多
关键词 藏文 内码扩展体系 编码字符集 组合用字符
下载PDF
融合词位字向量的军事领域命名实体识别 被引量:9
16
作者 车金立 唐力伟 +1 位作者 邓士杰 苏续军 《火炮发射与控制学报》 北大核心 2019年第3期50-55,65,共7页
针对军事领域的命名实体识别问题,提出了一种融合词位字向量的命名实体识别方法。该方法将由大规模语料无监督训练得到的字向量与蕴含字在军事词语中词位信息的词位向量进行拼接,使用拼接后的词位字向量用于提出的BI-GRU-CRF命名实体识... 针对军事领域的命名实体识别问题,提出了一种融合词位字向量的命名实体识别方法。该方法将由大规模语料无监督训练得到的字向量与蕴含字在军事词语中词位信息的词位向量进行拼接,使用拼接后的词位字向量用于提出的BI-GRU-CRF命名实体识别模型的训练。在爬取的网络军事语料上对人名、军用地名、军事机构名、军职军衔、军事装备名、军用物资名、军事设施名7类实体进行识别,结果表明,该方法可有效提高军事领域命名实体识别的准确率。 展开更多
关键词 军事 命名实体识别 词位字向量 BI-GRU-CRF 深度神经网络 序列标注
下载PDF
地图制印一体化的图文组版
17
作者 王锋 虞泰泉 张勇 《江苏测绘》 1999年第3期43-45,共3页
本文介绍了图文组版在地图制印上的发展和实施工艺。
关键词 制图 制印一体化 图文合一 地图 图文组版
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部