-
题名串频统计和词形匹配相结合的汉语自动分词系统
被引量:65
- 1
-
-
作者
刘挺
吴岩
王开铸
-
机构
哈尔滨工业大学计算机系
-
出处
《中文信息学报》
CSCD
北大核心
1998年第1期17-25,共9页
-
文摘
本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词。
-
关键词
中文信息处理
自动分词
汉语
串频统计
词形匹配
-
Keywords
hinese Information Processing, Automatic word segmentation, Software system
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向信息检索的自适应中文分词系统
被引量:48
- 2
-
-
作者
曹勇刚
曹羽中
金茂忠
刘超
-
机构
北京航空航天大学计算机学院
-
出处
《软件学报》
EI
CSCD
北大核心
2006年第3期356-363,共8页
-
基金
国家高技术研究发展计划(863)~~
-
文摘
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.
-
关键词
分词系统
分词算法
信息检索
新词识别
歧义消解
-
Keywords
word segmentation system
word segmentation algorithm
information retrieval
new word recognition
disambiguation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语分词技术综述
被引量:26
- 3
-
-
作者
龚汉明
周长胜
-
机构
北京机械工业学院计算机及自动化系
-
出处
《北京机械工业学院学报》
2004年第3期52-55,61,共5页
-
文摘
分词是中文信息处理的基础,在汉语文本分类、文献标引、智能检索、自然语言理解与处理等应用中,首先都要对中文文本进行分词处理。从分词的基本理论出发,对近年来的汉语分词的研究方法与成果进行了综合论述,分析了现有分词方法的特点,提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的构想。
-
关键词
汉语分词
中文文本
分词方法
汉语自动分词系统
汉语文本
自然语言理解
技术综述
文献标引
智能检索
成果
-
Keywords
word segmentation
text classification
artificial neural network
expert system
-
分类号
TH18
[机械工程—机械制造及自动化]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于概率模型的分词系统
被引量:16
- 4
-
-
作者
李家福
张亚非
-
机构
解放军理工大学通信工程学院
解放军理工大学理学院
-
出处
《系统仿真学报》
CAS
CSCD
2002年第5期544-546,550,共4页
-
基金
国家自然科学基金项目(编号: 69975024)
国家自然科学基金重点项目(编号: 69931040)
-
文摘
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation- Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。
-
关键词
概率模型
分词系统
EM算法
语料库
系统仿真
汉语自动分词
中文信息处理
-
Keywords
word segmentation
EM algorithm
corpus
HMM, system simulation
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于K近邻分类算法的涉恐信息过滤模型研究
被引量:13
- 5
-
-
作者
唐华
杨解君
王俊
黄炜
-
机构
南京工业大学安全科学与工程学院
湖北工业大学信息技术中心
-
出处
《情报杂志》
CSSCI
北大核心
2018年第3期64-70,共7页
-
基金
湖北省教育厅人文社会科学研究青年项目"风险管理视角下的信息安全"(编号:15Q065)
国家自然科学基金项目"微博环境下实时主动感知网络舆情事件的多核方法研究"(编号:71303075)研究成果之一
-
文摘
[目的/意义]针对现有的涉恐信息过滤在语义过滤和主题无关性方面还存在一定的不足,建立了基于K近邻分类算法的涉恐信息过滤模型。[方法/过程]通过采用K近邻分类算法、TF-IDF分词系统和语义相似度计算建立了一种新的涉恐信息过滤模型,并从爬取主题的一次过滤到关键词匹配的二次过滤,最终进行语义分析的三次过滤,构建了一套完整的涉恐信息过滤体系。[结果/结论]本模型能够快速高效地获取涉恐信息,克服了语义和主题无关性等因素的干扰,较于传统的涉恐信息过滤在查全率和查准率上面有了很大的提升。
-
关键词
涉恐信息
信息过滤
K近邻算法
分词系统
语义相似度
-
Keywords
Information relating to terrorism Information filtering
K-nearest neighbor algorithm
word segmentation
system
Semantic similarity
-
分类号
G350
[文化科学—情报学]
-
-
题名中文分词技术综述
被引量:10
- 6
-
-
作者
冯俐
-
机构
川北医学院现代教育技术中心
-
出处
《现代计算机》
2018年第23期17-20,共4页
-
基金
南充市哲学社会科学研究规划项目(No.NC2016C073)
-
文摘
通过对CNKI检索得到的关于中文分词的文献进行统计和分析,发现逐年度研究发文情况,研究的项目支持情况,发文机构分布和研究主题等统计结果,综述关于中文分词的算法、歧义词、未登录词和分词系统的相关研究内容,总结统计文献表现出的研究发展趋势。
-
关键词
中文分词
歧义词
未登录词
分词系统
-
Keywords
Chinese word segmentation
Ambiguous words,Unknown words
word segmentation system
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于大数据分析挖掘的地质文献推荐方法研究
被引量:10
- 7
-
-
作者
张戈一
胡博然
常力恒
朱月琴
吕鹏飞
-
机构
中国矿业大学(北京)
国土资源部地质信息技术重点实验室
中国地质调查局发展研究中心
中国地质大学(北京)
中国地质图书馆
中国科学院大学
-
出处
《中国矿业》
北大核心
2017年第9期92-97,共6页
-
基金
国土资源部公益性行业科研专项项目资助(编号:201511079)
-
文摘
地质图书馆书籍多,数据资料庞大,然而却存在数据资料增长过快和难以发现读者兴趣点的问题。实现高效的图书馆借阅数据挖掘分析与推荐,是提高效率的重要手段。为此本文提出了基于大数据地质文献分析挖掘平台,包括聚类分析,中文分词,推荐系统,关联分析功能,再通过Hadoop集群多节点进行推荐,从而提高了工作的效率。
-
关键词
大数据技术
分词技术
推荐系统
并行计算
-
Keywords
big date technology
word segmentation technology
recommended system
parallel computing
-
分类号
P208
[天文地球—地图制图学与地理信息工程]
-
-
题名基于正向最大匹配算法的电力两票安全识别
被引量:9
- 8
-
-
作者
徐楠楠
王东风
韩璞
-
机构
华北电力大学河北省发电过程仿真与优化控制重点实验室
-
出处
《计算机仿真》
CSCD
北大核心
2014年第1期145-148,355,共5页
-
文摘
为了让计算机具有处理甚至理解自然语言的能力,人们发明了很多自然语言语义分析理论。但是应用在电力系统工作票和操作票的领域中还很少。在中文分词的理论基础上利用正向最大匹配算法,针对电厂两票安全措施的语句进行自动识别,并分析了两票安全措施语句的语意。结果表明基于两票填写内容=动作词+设备名称词+状态词这种表示结构下,计算机能够很好的识别和理解电厂两票安全措施。这样计算机系统就能够对电力两票知识进一步的计算和推理,从而为深度人工智能开票提供了广泛的应用前景。
-
关键词
自然语言理解
中文分词
正向最大匹配
电力两票系统
-
Keywords
Natural language understanding
Chinese word segmentation
forward maximum matching algorithm
two-ticket system
-
分类号
TK16
[动力工程及工程热物理—热能工程]
-
-
题名自动分词算法在智能答疑系统中的应用研究
被引量:4
- 9
-
-
作者
郑耿忠
-
机构
韩山师范学院数学与信息技术学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2007年第9期2224-2226,2235,共4页
-
文摘
汉语自动分词是远程教育智能答疑系统的基础,如何根据远程教育智能答疑系统的特点进行相关分词算法的设计是提高答疑系统智能性,促进智能答疑系统发展的关键所在。针对现有答疑系统智能性不好的问题,在介绍几种常见分词算法的基础上,提出了一种改进型的自动分词算法,对该算法及其在智能答疑系统中的应用进行了分析,有利于提高智能答疑系统答疑的准确性和智能性,具有一定的实用价值。
-
关键词
中文自动分词
智能答疑系统
全切分
交集型歧义
远程教育
-
Keywords
Chinese word segmentation
intelligent answering system
complete syncopate
overlapped ambiguity
remote education
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于中文题名的计算机辅助标引
被引量:2
- 10
-
-
作者
陈雷霆
张宁
-
机构
电子科技大学计算机学院
-
出处
《计算机应用》
CSCD
1999年第6期9-11,共3页
-
文摘
本文阐述了基于中文文献题名的计算机辅助标引系统的组成结构,并讨论了其中的一些关键技术问题。文章从系统结构设计方面,对该系统的建表模块、目录模块、分词标引模块、校对模块、选号打印模块和系统管理模块进行了讨论,并着重讨论了分词标引技术。
-
关键词
计算机辅助标引
分词技术
数据库
中文题名
-
Keywords
Computer aided indexing, word segmentation, Database, system structure
-
分类号
G254-39
[文化科学—图书馆学]
-
-
题名基于关键词标注的教学论坛内容组织方法研究
被引量:5
- 11
-
-
作者
马秀麟
金海燕
-
机构
北京师范大学教育技术学院
-
出处
《现代教育技术》
CSSCI
2009年第12期87-90,共4页
-
文摘
随着网络交互平台在教学活动中的普及,论坛、Blog等成为教学活动中实现知识分享的重要手段。然而,论坛和Blog中帖子的无序性、同类帖子之间缺乏联系等问题日益凸显,成为知识进一步共享的桎梏。因此,以分词和文本聚类的相关理论为指导,研究论坛帖子内容的内在联系,探索在教学平台上对帖子进行分词并通过关键词实现标注,进而把论坛中的所有帖子归纳到知识体系中,对于提高教学平台的服务质量,实现大范围的知识分享和建构具有重要意义。
-
关键词
中文分词
知识体系
关键词标注
-
Keywords
Chinese word segmentation
Knowledge system
Keyword Marking
-
分类号
G420
[文化科学—课程与教学论]
-
-
题名垂直搜索引擎系统的设计与实现
被引量:5
- 12
-
-
作者
张敏
杜华
-
机构
河北北方学院信息科学与工程学院
-
出处
《情报科学》
CSSCI
北大核心
2011年第3期421-424,439,共5页
-
基金
张家口市2009年科技攻关项目(0921047B)
-
文摘
面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越来越多的关注。在给出一个垂直搜索引擎总体结构的基础上,详细分析了所涉及的关键技术:网页抓取、中文分词、文本分类等。并将分词和分类算法加入到Nutch中,实现了系统原型。实验证明,该系统主题相关度达到94%以上。
-
关键词
垂直搜索引擎
中文分词
文本分类
主题相关度
NUTCH
-
Keywords
vertical search engine
chinese word segmentation
text classification
degree of the system subject
hutch
-
分类号
G350
[文化科学—情报学]
-
-
题名使用贝叶斯分类的高考学业规划智能问答系统
被引量:4
- 13
-
-
作者
孙弋
李直
-
机构
西安科技大学通信与信息工程学院
-
出处
《计算机系统应用》
2021年第4期93-98,共6页
-
文摘
考生在填报高考志愿时,针对复杂繁多的各类高校信息数据,传统的搜索引擎无法根据考生需要的实际信息和搜索结果进行匹配,考生还需要额外消耗一定精力去筛选数据,这无疑增加了考生的时间成本.为此本文提出了基于高考领域知识图谱,使用中文分词模型和朴素贝叶斯分类算法,设计并开发了针对高考学业规划的智能问答系统.与传统的搜索引擎不同的是,基于人工智能的问答系统能够对考生所关注的问题和搜索结果进行精确匹配,减少考生重复搜索和筛选数据的次数.测试结果表明,本系统可以对高考学业规划中所涉及的大多数问题进行相对准确的针对性回答.
-
关键词
高考志愿
知识图谱
中文分词
贝叶斯分类
问答系统
-
Keywords
preferred college or university list for college entrance exam
knowledge graph
Chinese word segmentation
naive Bayesian classification
question answering system
-
分类号
G632.474
[文化科学—教育学]
TP391.1
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—计算机科学与技术]
-
-
题名自然语言向SQL代码的转化方法
被引量:4
- 14
-
-
作者
杨鹤标
陈力
-
机构
江苏大学计算机科学与通信工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第23期72-74,共3页
-
基金
国家"863"计划基金资助项目(2007AA04Z1B2)
-
文摘
为解决智能学习系统查询语言的转化问题,提出一种自然语言向SQL代码转化的方法。利用所建立的字典扫描单词和理解语义,采用改进后的单词提取技术扫描自然语言串,以生成语义依赖树,并将其语义关系划分为若干独立的集合块,通过对该集合块遍历生成与自然语言等价的SQL代码。实验结果表明,该转化方法简单有效。
-
关键词
自然语言处理
中文分词
语义依赖树
中文查询数据库
智能学习系统
-
Keywords
natural language processing
Chinese word segmentation
semantics dependency tree
Chinese query database
intelligence learning system
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于语句相似度计算的智能答疑系统机理研究
被引量:3
- 15
-
-
作者
李春生
卢鹏飞
张可佳
-
机构
东北石油大学计算机与信息技术学院
-
出处
《计算机技术与发展》
2018年第4期91-94,共4页
-
基金
黑龙江省自然科学基金面上项目(F2015020)
黑龙江省教育科研规划重点课题(GJB1215013)
-
文摘
在使用互联网进行在线学习的过程中,为了解决现有答疑方式答疑实时性差、准确度低、效率低的问题,提出了一种基于语句相似度计算的智能答疑方案。首先分析现有的答疑方式及其不足;其次详细阐述了智能答疑系统的工作流程、总体结构和相关数据库结构,针对原有答疑方式检索效率低的问题加入了常用问题库,并引入基于字符串匹配的分词方法完成对学习者提出的问题的拆分;最后结合基于词信息的语句相似度计算方法对语句相似度进行计算并将结果呈现给学习者,以达到提高答疑系统的准确度、效率以及实时性的目的,满足学习者的需求。实验结果表明,基于语句相似度计算的智能答疑方案相对于原有答疑方案具有较高的准确度与效率。
-
关键词
分词
相似度计算
智能
答疑系统
-
Keywords
word segmentation
similarity calculation
intelligent
question answering system
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-
-
题名网络考试系统自动评阅卷的一种处理方案
被引量:3
- 16
-
-
作者
范新龙
董奇
-
机构
西安铁路职业技术学院
-
出处
《现代计算机》
2017年第15期36-38,43,共4页
-
基金
陕西省教育厅2014年科学研究专项项目(No.14JK2095)
-
文摘
在开发网络考试系统时,经常遇到的问题是对答卷进行自动评阅卷的问题,当标准答案正确时,对于大部分单选、多选及判断类型的题,通常可以比较容易进行处理,但对于标准答案不一致及简答、填空等类型的题进行自动评卷则存在较多的问题。重点讨论这类情况的处理方法并给出具体的实现方法,同时对主观题类的自动评判提出处理的基本思路和方法,可以作为同类研究的参考。
-
关键词
自动阅卷
分词
考试系统
-
Keywords
Automatic Marking
word segmentation
Examination system
-
分类号
G434
[文化科学—教育学]
-
-
题名一种基于近邻匹配的中文分词算法Jlppeccz
- 17
-
-
作者
耿新青
陶凤梅
黄宏光
-
机构
鞍山师范学院数学系
-
出处
《鞍山师范学院学报》
2010年第4期46-48,共3页
-
基金
国家自然科学基金资助项目(60275020)
-
文摘
提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切分成1~4字的词,通过对词库的搜索,对已分的词进行重组,把小词合并成大词,再将处理过的词存储到一个临时的词库里,以备后续的句子查找,并可实现对词库添加词的功能.与经典MM算法和词频统计方法相比,本文算法有较大的改进.
-
关键词
中文分词
近邻匹配
分词系统
-
Keywords
Chinese word segmentation
Neighboring match
word segmentation system
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于分词算法的用户个性化推荐系统设计
- 18
-
-
作者
隋在娟
-
机构
三星电子(中国)研发中心
-
出处
《数字通信世界》
2020年第12期115-116,共2页
-
文摘
针对用户浏览的文本内容进行学习,经过中文分词,数据清洗,关键特征提取阶段对文本内容进行深度理解和挖掘,然后在后台数据库中搜索匹配出最贴合该用户兴趣的文本供用户浏览,实现用户个性化内容推荐。
-
关键词
分词算法
个性化推荐
推荐系统
用户分类
-
Keywords
word segmentation
Personalized recommendation
Recommendation system
User classifi cation
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名利用系统整合提高中文分词精度的方法研究
- 19
-
-
作者
刘智文
-
机构
厦门大学信息科学与技术学院
-
出处
《现代计算机》
2009年第10期7-10,共4页
-
基金
国家自然科学基金(No.60573189)
863项目(No.2006AA01Z139)
+2 种基金
863项目(No.2006AA010108-3)
福建省重点科技项目(No.2006H0038)
福建省基金项目(No.2006J0043)
-
文摘
实现一个基于条件随机场模型的中文分词工具,同时还提出利用多系统组合来提升中文分词成绩的构想,并用实验数据分析几个系统整合后所具有的分词潜力。实现几个系统的整合并将分词最好的成绩提高0.56个百分点。
-
关键词
条件随机场
中文分词
多系统整合
-
Keywords
Conditional Random Fields
Chinese word segmentation
Multi-system Integration
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名国内中文自动分词技术研究综述
被引量:104
- 20
-
-
作者
奉国和
郑伟
-
机构
华南师范大学经济管理学院
河北北方学院理学院
-
出处
《图书情报工作》
CSSCI
北大核心
2011年第2期41-45,共5页
-
基金
国家社会科学基金项目"自动文本分类技术研究"(项目编号:08CTQ003)研究成果之一
-
文摘
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点。全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点。
-
关键词
中文分词
分词算法
歧义消除
未登录词
分词系统
-
Keywords
chinese word segmentation word segmentation algorithm disambiguation method unknown word recognition word segmentation system
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-