期刊文献+
共找到81篇文章
< 1 2 5 >
每页显示 20 50 100
一种基于图划分的无监督汉语指代消解算法 被引量:19
1
作者 周俊生 黄书剑 +1 位作者 陈家骏 《中文信息学报》 CSCD 北大核心 2007年第2期77-82,共6页
指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入... 指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,使得指代消解过程并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,并且避免了阈值选择问题。通过在ACE中文语料上的人称代词消解和名词短语消解实验结果表明,该算法是一种有效可行的无监督指代消解算法。 展开更多
关键词 人工智能 自然语言处理 聚类 指代消解 模块函数
下载PDF
《现代汉语词典》释义性词语的统计与分级 被引量:15
2
作者 安华林 《语言文字应用》 CSSCI 北大核心 2004年第1期105-111,共7页
国外的释义性词语研究始于“基础词汇”词表的研制 ,最终促成使用最低限量词汇释义的词典编纂方法 ,而汉语词典的释义性词语计量研究迄今尚无任何进展。本专题基于现代汉语元语言系统研究的理论方法 ,率先对《现代汉语词典》的释义性词... 国外的释义性词语研究始于“基础词汇”词表的研制 ,最终促成使用最低限量词汇释义的词典编纂方法 ,而汉语词典的释义性词语计量研究迄今尚无任何进展。本专题基于现代汉语元语言系统研究的理论方法 ,率先对《现代汉语词典》的释义性词语进行全面性计量研究 ,依据统计结果划分频度相对等级 ,列出《XH释义性语料高频词表》。本研究重在为汉语词典编纂优选释义性词语提供基础 ,也可补现代汉语常用词统计的语料选取缺陷。 展开更多
关键词 汉语词典 释义性词语 统计 分级 高频词表
下载PDF
基于框架的词语搭配自动抽取方法 被引量:18
3
作者 陈小荷 吉根林 《计算机工程》 CAS CSCD 北大核心 2004年第23期22-24,195,共4页
提出了一种基于框架的词语搭配抽取方法,可以同时获取词语搭配以及搭配结构信息。引入相对词序比(RRWR)的方法对候选搭配词语进行筛选,应用语言学中词语搭配组合规律对候选搭配的词性进行限定,利用互信息等统计学模型在大规模语料中进... 提出了一种基于框架的词语搭配抽取方法,可以同时获取词语搭配以及搭配结构信息。引入相对词序比(RRWR)的方法对候选搭配词语进行筛选,应用语言学中词语搭配组合规律对候选搭配的词性进行限定,利用互信息等统计学模型在大规模语料中进行词语搭配的自动抽取,抽取的搭配平均准确率为84.73%,较Xtract系统高4.7%,较国内同类工作结果高50.79%。并且在获得搭配的同时得到了词语搭配的结构信息。 展开更多
关键词 自动抽取 结构信息 大规模 统计学模型 互信息 抽取方法 框架 词语搭配 同类 获取
下载PDF
中文古籍数字化的开发层次和发展趋势 被引量:20
4
作者 马创新 陈小荷 《图书馆》 CSSCI 北大核心 2014年第2期104-106,共3页
文章根据数字化加工深度对中文古籍数字化进行了层次划分,分析了表层数字化与深层数字化之间的区别,指出了古籍数字化的发展趋势。
关键词 古籍数字化 层次 发展趋势
下载PDF
基于神经网络的片段级中文命名实体识别 被引量:20
5
作者 王蕾 谢云 +2 位作者 周俊生 顾彦慧 《中文信息学报》 CSCD 北大核心 2018年第3期84-90,100,共8页
命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局... 命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局部字符标记区分实体边界。为了减弱系统对人工特征设计的依赖,避免字符序列化标注方法的不足,该文对基于神经网络的片段级中文命名实体识别方法进行探索研究。通过采用深度学习片段神经网络结构,实现特征的自动学习,并通过获取片段信息对片段整体分配标记,同时完成实体边界识别和分类。基于神经网络的片段级中文命名实体识别方法在MSRA数据集上对人名、地名和机构名识别的总体F1值达到了90.44%。 展开更多
关键词 深度学习 神经网络 片段级中文命名实体识别
下载PDF
基于用户击键特征识别的用户认证系统 被引量:8
6
作者 宋如顺 《计算机工程与应用》 CSCD 北大核心 2002年第16期69-70,92,共3页
文章利用个人敲键习惯作为用户身份认证的手段,建立起基于BP神经网络进行学习和识别的系统。通过大量实验确定出网络模型参数,取得了良好的效果。
关键词 用户击键特征识别 用户认证系统 计算机网络 模式识别 BP神经网络 用户身份识别 网络安全
下载PDF
基于条件随机场的古汉语词义消歧研究 被引量:13
7
作者 于丽丽 丁德鑫 +2 位作者 陈小荷 李惠 《微电子学与计算机》 CSCD 北大核心 2009年第10期45-48,共4页
首先分析了古汉语词义义项的分布情况与特点,考察了词义消歧的难点.然后在现有的词义消歧理论和方法的基础上,基于机器自动学习的统计模型条件随机场,选择上下文的词及其词性的复合特征,并加入其他适当语言学特征,设计6个不同的模板,对&... 首先分析了古汉语词义义项的分布情况与特点,考察了词义消歧的难点.然后在现有的词义消歧理论和方法的基础上,基于机器自动学习的统计模型条件随机场,选择上下文的词及其词性的复合特征,并加入其他适当语言学特征,设计6个不同的模板,对"将"、"如"、"我"、"信"、"闻"、"之"等古汉语高频词进行了词义消歧实验.实验最高平均F值达到了83.04%,高于最大熵、朴素贝叶斯模型,结果表明,选择合适的特征,条件随机场模型在古汉语词义消歧方面有效可行. 展开更多
关键词 中文信息处理 古汉语 词义消歧 条件随机场
下载PDF
基于语境信息的组合型分词歧义消解方法 被引量:10
8
作者 吉根林 +1 位作者 穗志方 周俊生 《计算机工程》 CAS CSCD 北大核心 2006年第17期74-76,共3页
提出了相对词频的概念,据此建立了语境计算模型,利用歧义字段前后语境信息对组合型分词歧义进行消解。对高频出现的5个组合型分词歧义进行实验,平均准确率达到95%以上,证明该方法对于消解组合型分词歧义具有良好效果。
关键词 中文自动分词 组合型歧义 相对词频 语境计算模型
下载PDF
英汉《小王子》抽象语义图结构的对比分析 被引量:9
9
作者 李斌 闻媛 +2 位作者 卜丽君 薛念文 《中文信息学报》 CSCD 北大核心 2017年第1期50-57,74,共9页
AMR(抽象语义表示)是国际上一种新的句子语义表示方法,有着接近于中间语言的表示能力,其研发者已经建立了英文《小王子》等AMR语料库。AMR与以往的句法语义表示方法的最大不同在于两个方面,首先采用图结构来表示句子的语义;其次允许添... AMR(抽象语义表示)是国际上一种新的句子语义表示方法,有着接近于中间语言的表示能力,其研发者已经建立了英文《小王子》等AMR语料库。AMR与以往的句法语义表示方法的最大不同在于两个方面,首先采用图结构来表示句子的语义;其次允许添加原句之外的概念节点来表示隐含的语义。该文针对汉语特点,在制定中文AMR标注规范的基础上,标注完成了中文版《小王子》的AMR语料库,标注一致性的Smatch值为0.83。统计结果显示,英汉双语含图结构句子具有很高的相关性,且含有图的句子比例高达40%左右,额外添加的概念节点则存在较大差异。最后讨论了AMR在汉语句子语义表示以及跨语言对比方面的优势。 展开更多
关键词 抽象语义表示 语义图 英汉对比 自然语言处理
下载PDF
基于CRF模型的组合型歧义消解研究 被引量:8
10
作者 丁德鑫 +1 位作者 徐涛 董宇 《南京师范大学学报(工程技术版)》 CAS 2008年第4期73-76,94,共5页
组合型歧义切分是汉语自动分词的难点之一.为此,利用CRF(条件随机场)模型,以歧义字段的上下文的词和词性建立特征模板,进行歧义消解研究.以1998年半年《人民日报》为语料,对常用的10个组合歧义字段进行消歧,平均消歧正确率达到96.35%,... 组合型歧义切分是汉语自动分词的难点之一.为此,利用CRF(条件随机场)模型,以歧义字段的上下文的词和词性建立特征模板,进行歧义消解研究.以1998年半年《人民日报》为语料,对常用的10个组合歧义字段进行消歧,平均消歧正确率达到96.35%,取得了良好的效果.实验表明,利用该模型能有效提高消歧正确率. 展开更多
关键词 中文自动分词 组合歧义 CRF
下载PDF
第一届古代汉语分词和词性标注国际评测 被引量:4
11
作者 李斌 袁义国 +4 位作者 芦靖雅 冯敏萱 许超 王东波 《中文信息学报》 CSCD 北大核心 2023年第3期46-53,64,共9页
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,... 中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。 展开更多
关键词 古汉语 评测 自动分词 词性标注 古文信息处理
下载PDF
“像”的明喻计算 被引量:8
12
作者 李斌 于丽丽 +1 位作者 石民 《中文信息学报》 CSCD 北大核心 2008年第6期27-32,共6页
汉语隐喻计算是一项难度很大的工作,明喻由于带有明显的标志(比喻词)成为计算机自动识别的基础类型。该文着力于典型的比喻词"像"的比喻义及相关比喻成分的自动识别。首先,人工标注了1 586句语料,分析了明喻句的基本特点。然... 汉语隐喻计算是一项难度很大的工作,明喻由于带有明显的标志(比喻词)成为计算机自动识别的基础类型。该文着力于典型的比喻词"像"的比喻义及相关比喻成分的自动识别。首先,人工标注了1 586句语料,分析了明喻句的基本特点。然后,使用最大熵模型对"像"的比喻义和非比喻义进行分类,开放测试F值达到了89%。最后,用条件随机场模型识别出比喻的本体、喻体和相似点,F值分别达到了73%、86%和83%。 展开更多
关键词 计算机应用 中文信息处理 隐喻计算 明喻 明喻识别
下载PDF
基于大间隔方法的汉语组块分析 被引量:7
13
作者 周俊生 戴新宇 +1 位作者 陈家骏 《软件学报》 EI CSCD 北大核心 2009年第4期870-877,共8页
汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化SVMs(support vector machines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出... 汉语组块分析是中文信息处理领域中一项重要的子任务.在一种新的结构化SVMs(support vector machines)模型的基础上,提出一种基于大间隔方法的汉语组块分析方法.首先,针对汉语组块分析问题设计了序列化标注模型;然后根据大间隔思想给出判别式的序列化标注函数的优化目标,并应用割平面算法实现对特征参数的近似优化训练.针对组块识别问题设计了一种改进的F1损失函数,使得F1损失值能够依据每个句子的实际长度进行相应的调整,从而能够引入更有效的约束不等式.通过在滨州中文树库CTB4数据集上的实验数据显示,基于改进的F1损失函数所产生的识别结果优于Hamming损失函数,各种类型组块识别的总的F1值为91.61%,优于CRFs(conditional random fields)和SVMs方法. 展开更多
关键词 汉语组块分析 大间隔 判别式学习 损失函数
下载PDF
基于联合模型的中文嵌套命名实体识别 被引量:8
14
作者 尹迪 周俊生 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第3期29-35,共7页
中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的b... 中文嵌套命名实体识别是自然语言处理中一个比较困难的问题.针对传统的序列化标注方法的不足,本文提出了一种新的基于联合模型的中文嵌套命名实体识别方法,该方法将嵌套命名实体识别看作是一种联合切分和标注任务.联合模型用一种改进的beam search算法作为系统的解码算法,并采用一种在线学习算法平均感知器算法作为训练算法,获得了较快的收敛速度和较好的识别效果.实验结果表明基于联合模型的方法对嵌套命名实体识别取得了更好的效果. 展开更多
关键词 嵌套命名实体识别 序列化标注模型 联合模型 感知器算法
下载PDF
基于重用检测的微博垃圾用户过滤算法 被引量:8
15
作者 赵斌 吉根林 +1 位作者 顾彦慧 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期456-464,共9页
针对微博中的反垃圾处理问题,本文提出了基于重用检测模型的垃圾用户检测算法,该方法综合考虑了消息序列中文本相关性和时间相关性,对垃圾用户的发布行为进行建模.按照文本粒度不同,基于重用检测模型的检测算法分为语句级检测(SRD)和词... 针对微博中的反垃圾处理问题,本文提出了基于重用检测模型的垃圾用户检测算法,该方法综合考虑了消息序列中文本相关性和时间相关性,对垃圾用户的发布行为进行建模.按照文本粒度不同,基于重用检测模型的检测算法分为语句级检测(SRD)和词项级检测(TRD).SRD算法侧重于用户行为方式,而TRD算法侧重于垃圾消息的主题.基于真实数据集的实验表明,SRD算法在整体性能上优于TRD算法,但TRD算法具有更高的运行效率,并且检测针对性强,可发现指定类型的垃圾用户.最后,本文运用重用检测算法在垃圾用户群体检测方面做了初步尝试,实验表明基于转发关系的重用检测算法可以发现真实有效的垃圾群体用户. 展开更多
关键词 垃圾消息 微博 重用检测
下载PDF
《论语》与其注疏文献对齐语料库的构建 被引量:8
16
作者 马创新 陈小荷 +1 位作者 陆鹏飞 《现代教育技术》 CSSCI 2012年第7期109-113,共5页
文章讲述构建《论语》与其注疏文献对齐语料库的必要性、设计思路和基本方法,并说明采用这种新途径研究《论语》的初步成果,以及该项研究在《论语》的教学和训诂学研究中所起到的巨大作用。
关键词 《论语》 注疏文献 语料库 教学
下载PDF
基于神经网络的教师教学评估系统 被引量:6
17
作者 陈德良 周春林 《南京师范大学学报(工程技术版)》 CAS 2004年第1期73-75,共3页
利用神经网络对教师教学评估中所使用的权值进行非线性学习与调整 ,通过实验证明了该方法的有效性 .
关键词 神经网络 教师 教学评估系统 权值 非线性学习 课堂教学
下载PDF
基于平行坐标的关联规则可视化新技术 被引量:5
18
作者 吉根林 韦素云 《计算机工程》 EI CAS CSCD 北大核心 2005年第24期87-89,共3页
详细讨论了用于关联规则可视化的几种常用技术,分析了各自的优缺点。提出了关联规则可视化的一种新方法ARVir,该方法巧妙地利用平行坐标技术的思想,对原有的可视化技术进行改进,能够解决当前关联规则可视化技术中普遍存在的界面紊乱、... 详细讨论了用于关联规则可视化的几种常用技术,分析了各自的优缺点。提出了关联规则可视化的一种新方法ARVir,该方法巧妙地利用平行坐标技术的思想,对原有的可视化技术进行改进,能够解决当前关联规则可视化技术中普遍存在的界面紊乱、产生歧义等多种问题。利用Java3D技术实现了基于ARVir的关联规则可视化系统原型,实验表明该系统不仅能够有效地显示大量关联规则,而且用户可以给定约束条件对挖掘结果进行过滤。 展开更多
关键词 关联规则 可视化 数据挖掘
下载PDF
注疏文献中的注释语句自动分析 被引量:7
19
作者 马创新 陈小荷 《计算机科学》 CSCD 北大核心 2012年第10期220-223,共4页
注疏文献中蕴含着丰富的知识,并且它们的行文方式具有半结构化特征。研究了经典古籍与其注疏文献句子对齐的方法,以及注疏文献中注释语句的自动分析方法。该项研究成果能为古籍语料库精加工提供便捷的途径,也能为语言研究者提供更为智... 注疏文献中蕴含着丰富的知识,并且它们的行文方式具有半结构化特征。研究了经典古籍与其注疏文献句子对齐的方法,以及注疏文献中注释语句的自动分析方法。该项研究成果能为古籍语料库精加工提供便捷的途径,也能为语言研究者提供更为智能的检索模式。 展开更多
关键词 古籍数字化 注疏文献 句子对齐 注释
下载PDF
经典古籍注疏文献的知识网络研究与设计 被引量:7
20
作者 马创新 陈小荷 《图书情报工作》 CSSCI 北大核心 2013年第9期124-128,共5页
注疏文献中蕴含着丰富的知识,为了能够利用计算机分析经典古籍和注疏文献中的信息,实现知识的自动重组和聚类,分析注疏文献中存在的问题,提出使用结构化的知识表示方法组织经典古籍和注疏文献中的知识。并结合经典古籍注疏文献知识网络... 注疏文献中蕴含着丰富的知识,为了能够利用计算机分析经典古籍和注疏文献中的信息,实现知识的自动重组和聚类,分析注疏文献中存在的问题,提出使用结构化的知识表示方法组织经典古籍和注疏文献中的知识。并结合经典古籍注疏文献知识网络的基础框架结构,探讨经典古籍注疏文献知识网络中的知识组织方式和应用价值。 展开更多
关键词 古籍数字化 知识网络 知识表示 知识组织
原文传递
上一页 1 2 5 下一页 到第
使用帮助 返回顶部