期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于Python语言的中文分词技术的研究 被引量:58
1
作者 祝永志 荆静 《通信技术》 2019年第7期1612-1619,共8页
Python作为一种解释性高级编程语言,已经深入大数据、人工智能等热门领域。Python在数据科学领域具有广泛的应用,比如Python爬虫、数据挖掘等等。将连续的字序列划分为具有一定规范的词序列的过程称为分词。在英文中,空格是单词间的分界... Python作为一种解释性高级编程语言,已经深入大数据、人工智能等热门领域。Python在数据科学领域具有广泛的应用,比如Python爬虫、数据挖掘等等。将连续的字序列划分为具有一定规范的词序列的过程称为分词。在英文中,空格是单词间的分界符,然而中文比较复杂。一般来说对字、句子和段落的划分比较简单,但中文中词的划分没有明显的标志,所以对中文文本进行分词的难度较大。运用Python爬虫对网页数据进行抓取作为实验文本数据,使用python强大的分词库jieba对中文文本进行分词处理。对分词结果分别采用TF-IDF算法和TextRank算法进行提取关键词,实验结果明显优于基于词频的分词算法。最后采用词云的方式对关键词进行展现,使得分词结果一目了然。 展开更多
关键词 PYTHON 文本分词 jieba 词云 数据可视化
下载PDF
基于Python的中文结巴分词技术实现 被引量:44
2
作者 曾小芹 《信息与电脑》 2019年第18期38-39,42,共3页
中文分词是自然语言处理的重要预处理操作。随着非结构化文本的大量产生,中文分词技术的研究尤为重要。结巴分词适用于中文分词,具有完整的技术路线,且Python语言提供了结巴分词接口。使用Python实现中文结巴分词算法简单,准确率较高,... 中文分词是自然语言处理的重要预处理操作。随着非结构化文本的大量产生,中文分词技术的研究尤为重要。结巴分词适用于中文分词,具有完整的技术路线,且Python语言提供了结巴分词接口。使用Python实现中文结巴分词算法简单,准确率较高,能够为自然语言处理提供重要保障。 展开更多
关键词 PYTHON 结巴分词 自然语言处理
下载PDF
基于支持向量机的中文极短文本分类模型 被引量:30
3
作者 王杨 许闪闪 +4 位作者 李昌 艾世成 张卫东 甄磊 孟丹 《计算机应用研究》 CSCD 北大核心 2020年第2期347-350,共4页
为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量... 为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过1-0检验,验证了模型的有效性。实验以芜湖市社管平台中的9906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。 展开更多
关键词 支持向量机 jieba分词 极短文本分类 TF-IDF
下载PDF
中文分词技术研究 被引量:12
4
作者 韦人予 《信息与电脑》 2020年第10期26-29,共4页
中文分词是自然语言处理的基础任务。随着文本数据量的增长,对中文分词进行研究具有十分重要的意义。jieba分词是较为常用的中文分词技术,分词的准确率较高,面向jieba分词技术研究加快分词速度的方法,该方法采用Cython实现分词技术的核... 中文分词是自然语言处理的基础任务。随着文本数据量的增长,对中文分词进行研究具有十分重要的意义。jieba分词是较为常用的中文分词技术,分词的准确率较高,面向jieba分词技术研究加快分词速度的方法,该方法采用Cython实现分词技术的核心算法,对中文文本进行分词处理。在ICC中文数据集上进行实验,实验结果表明,该分词加速方法能够提高63.9%的分词速度。 展开更多
关键词 中文分词 自然语言处理 jieba分词
下载PDF
基于jieba中文分词的在线医疗网站医生画像研究 被引量:11
5
作者 李岩 郭凤英 +2 位作者 翟兴 陈晓倩 佟金铎 《医学信息学杂志》 CAS 2020年第7期14-18,共5页
以在线医疗网站患者对医生的评价数据为基础,基于jieba分词技术从医生基本信息、医生所在医院、患者评价信息3个维度构建用户画像,借助PowerBI实现用户画像可视化,分析患者对医生的关注侧重点,为智能医生推荐奠定基础。
关键词 在线医疗网站 用户画像 jieba分词 情感分析
下载PDF
基于Python的中文分词技术探究 被引量:7
6
作者 史国举 《无线互联科技》 2021年第23期110-111,共2页
中文分词属于自然语言处理技术子集,对中文分词技术的研究由来已久,文章基于Python结巴分词,从概述、分类、方法、挑战、应用及现状等对中文分词技术进行探究,旨在抛砖引玉,以供借鉴。
关键词 分词 中文分词 jieba 自然语言处理
下载PDF
基于Jieba分词的医疗设备信息查询一站式服务系统设计 被引量:4
7
作者 王清波 陈青青 王琳斌 《中国医学装备》 2020年第1期131-134,共4页
目的:设计基于Jieba分词的医疗设备信息查询一站式服务微信平台,以方便临床一线人员查询与梳理医疗设备信息相关资料、标准及各种资讯。方法:建立基于Jieba分词的微信平台系统架构,采用Python的Wxpy模块进行系统设计。使用Jieba分词进... 目的:设计基于Jieba分词的医疗设备信息查询一站式服务微信平台,以方便临床一线人员查询与梳理医疗设备信息相关资料、标准及各种资讯。方法:建立基于Jieba分词的微信平台系统架构,采用Python的Wxpy模块进行系统设计。使用Jieba分词进行消息处理,设计基于微信的聊天机器人,利用Python语句进行资料反馈和数据库查询。结果:基于微信的聊天机器人可提供设备管理相关资料的精准查询,能够在临床自然语言要求下,进行同质化答复管理。医疗设备资产库备有1万余条数据集,设定文件大小最大<10 M,查询设备资产的返回时间<2 s。结论:医疗设备信息查询一站式服务微信平台系统的设计,能够针对临床文字需求进行同质化答复,既可方便临床一线人员查询设备信息相关资料,还可有效提高医疗设备的管理效率。 展开更多
关键词 医疗设备信息查询系统 微信 自然语言处理 jieba分词 数据库 一站式服务
下载PDF
基于Jieba分词的青城旅游景点本体构建研究与应用 被引量:2
8
作者 曹丹阳 赵俊生 +1 位作者 李尽辉 张林 《内蒙古工业大学学报(自然科学版)》 2021年第3期218-225,共8页
针对游客在旅游网站上查询旅游景点不准确的问题,以青城为例研究了基于Jieba的旅游景点本体构建工作。首先,采用七步法结合“V”形开发过程构建本体;其次,基于每个景点实例进行相关文本数据收集,采用Jieba分词和基于词性的词频统计方式... 针对游客在旅游网站上查询旅游景点不准确的问题,以青城为例研究了基于Jieba的旅游景点本体构建工作。首先,采用七步法结合“V”形开发过程构建本体;其次,基于每个景点实例进行相关文本数据收集,采用Jieba分词和基于词性的词频统计方式选择属性特征词,根据属性特征词对实例属性进行赋值;最后,根据相关评价指标对构建好的旅游景点本体进行评价。实验结果表明,与传统关键词匹配法相比,基于Jieba的青城旅游景点本体的查询方法提高了查询性能,使查准率、查全率和综合指标F_(1)值的均值分别提升了9%、7.6%和8.5%. 展开更多
关键词 本体构建 jieba分词 词频统计 自然语言处理 查询性能
下载PDF
基于贝叶斯决策的极短文本分类模型 被引量:2
9
作者 张德成 王杨 +2 位作者 赵传信 甄磊 李昌 《重庆科技学院学报(自然科学版)》 CAS 2018年第4期82-85,共4页
为了有效提取极短文本中的关键特征信息,提出一种基于贝叶斯决策的极短文本分类模型。首先对原数据进行数据清洗并利用Jieba分词对清洗过的数据进行处理;然后利用Kettle工具提取分类所需关键词,并将处理后的数据存入数据库;最后利用贝... 为了有效提取极短文本中的关键特征信息,提出一种基于贝叶斯决策的极短文本分类模型。首先对原数据进行数据清洗并利用Jieba分词对清洗过的数据进行处理;然后利用Kettle工具提取分类所需关键词,并将处理后的数据存入数据库;最后利用贝叶斯决策对极短文本进行分类。通过(1-0)检验,验证模型的有效性。以一批极短文本数据作为样本进行实验,结果显示出该方法能够有效提高匹配效率,误分度与精确度指标的匹配结果更加均衡。 展开更多
关键词 jieba分词 Kettle工具 极短文本分类 贝叶斯分类
下载PDF
应用Jieba和Wordcloud库的词云设计与优化 被引量:20
10
作者 徐博龙 《福建电脑》 2019年第6期25-28,共4页
分词是Python中的一项重要应用,实现分词功能的工具有很多种,如jieba、SnowNLP、THULAC、NLPIR等。词云是在分词的基础上设计并实现的,它提供阅读整个信息的重点,揭示关键概念,并可使用不同的展示形式,以有趣、高效、新颖的方式呈现给... 分词是Python中的一项重要应用,实现分词功能的工具有很多种,如jieba、SnowNLP、THULAC、NLPIR等。词云是在分词的基础上设计并实现的,它提供阅读整个信息的重点,揭示关键概念,并可使用不同的展示形式,以有趣、高效、新颖的方式呈现给阅读者。在此,以中文分词为例,详细介绍使用jieba库和wordcloud库实现词云的设计与优化。 展开更多
关键词 PYTHON 中文分词 词云 jieba Wordcloud
下载PDF
基于结巴分词的领域自适应分词方法研究 被引量:4
11
作者 邢玲 程兵 《计算机仿真》 北大核心 2023年第4期310-316,503,共8页
利用Jieba分词(结巴分词)对中文文本进行分词时,对于领域词组分词效果不是很理想,需要通过加载自定义词典解决这个问题。提出一种领域自适应分词方法,将结巴分词后相邻词语组合为词组,利用标准化点互信息(NPMI)及词频统计两种方法分别... 利用Jieba分词(结巴分词)对中文文本进行分词时,对于领域词组分词效果不是很理想,需要通过加载自定义词典解决这个问题。提出一种领域自适应分词方法,将结巴分词后相邻词语组合为词组,利用标准化点互信息(NPMI)及词频统计两种方法分别计算词组凝聚度,利用左右信息熵计算词组自由度,通过设定凝聚度与自由度阈值识别领域词组,利用文中提出的词性约束规则进一步筛选词组,将得到的词组作为自定义词典加入到结巴分词中,再次对文本进行分词。通过在自己构建的金融和法律领域语料库进行实验,证明了所提算法可以有效发现领域词组,利用该算法进行领域分词时,准确率和召回率高于只利用结巴分词的准确率和召回率。最后提出了一种基于区分不同领域的领域自适应分词算法评价方法。实验结果表明,上述算法能够有效区分不同领域,即可以有效实现领域分词。 展开更多
关键词 结巴分词 领域自适应 标准化点互信息 词频统计 左右信息熵 词性约束
下载PDF
基于历史事故案例的瓦斯爆炸情景要素提取及情景构建方法研究
12
作者 国汉君 赵伟 +4 位作者 宋亚楠 郭小芳 赵志虎 周爱桃 王凯 《矿业安全与环保》 CAS 北大核心 2024年第3期43-49,共7页
为深入探究煤矿瓦斯爆炸事故发展规律,提出一种基于中文分词技术对瓦斯爆炸事故情景要素进行分析和提取的方法。通过煤矿安全网等途径搜集统计了1978—2020年间的733起瓦斯爆炸事故报告,在此基础上进行数据预处理,剔除不完整的事故报告... 为深入探究煤矿瓦斯爆炸事故发展规律,提出一种基于中文分词技术对瓦斯爆炸事故情景要素进行分析和提取的方法。通过煤矿安全网等途径搜集统计了1978—2020年间的733起瓦斯爆炸事故报告,在此基础上进行数据预处理,剔除不完整的事故报告,最终选取255起瓦斯爆炸事故报告进行要素分析与提取;将事故等级、事故经过、事故原因等内容进行整理储存,形成待挖掘文本语料库;基于Jieba分词算法提取瓦斯爆炸事故情景关键词,并采用TF-IDF算法进行权重计算,将情景划分为事故体、致灾体、承灾体、抗灾体4个维度和24个要素,为后续瓦斯爆炸事故的情景表示和事故未来的可能性组合提供了参考依据。 展开更多
关键词 安全工程 瓦斯爆炸 情景分析 中文分词 jieba分词技术
下载PDF
基于CNN图像识别与语义可靠性的路径搜索方法 被引量:8
13
作者 李宇霞 孙永奇 +1 位作者 闫茹 朱卫国 《计算机工程》 CAS CSCD 北大核心 2021年第1期255-263,274,共10页
光学字符识别技术可有效提高票据应用中票据信息录入的工作效率。针对票据的复杂背景与不规范手写字符降低票据识别准确率的问题,结合卷积神经网络图像识别与语义可靠性,提出一种可靠性优先的路径搜索方法,以降低模糊字符对搜索路径的... 光学字符识别技术可有效提高票据应用中票据信息录入的工作效率。针对票据的复杂背景与不规范手写字符降低票据识别准确率的问题,结合卷积神经网络图像识别与语义可靠性,提出一种可靠性优先的路径搜索方法,以降低模糊字符对搜索路径的干扰。利用基于公司名结构特点的前后缀推断策略,有效解决公司名前后缀识别错误问题。采用结巴中文分词与字符位置信息检查识别结果中的错误,并将长短期记忆语言模型与在传统字形相似度基础上引入的汉字部件相似度相结合进行纠错。实验结果表明,通过将纠错策略与该方法相结合可有效提高公司名识别准确率至93.08%。 展开更多
关键词 文本识别 语言模型 卷积神经网络 长短期记忆网络 字形相似度 结巴中文分词
下载PDF
基于Word2Vec及TextRank算法的长文档摘要自动生成研究 被引量:1
14
作者 朱玉婷 刘乐 +2 位作者 辛晓乐 陈珑慧 康亮河 《现代信息科技》 2023年第4期36-38,42,共4页
近年来,如何从大量信息中提取关键信息已成为一个急需解决的问题。针对中文专利长文档,提出一种结合Word2Vec和TextRank的专利生成算法。首先利用Python Jieba技术对中文专利文档进行分词,利用停用词典去除无意义的词;其次利用Word2Vec... 近年来,如何从大量信息中提取关键信息已成为一个急需解决的问题。针对中文专利长文档,提出一种结合Word2Vec和TextRank的专利生成算法。首先利用Python Jieba技术对中文专利文档进行分词,利用停用词典去除无意义的词;其次利用Word2Vec算法进行特征提取,并利用WordCloud对提取的关键词进行可视化展示;最后利用TextRank算法计算语句间的相似度,生成摘要候选句,根据候选句的权重生成该专利文档的摘要信息。实验表明,采用Word2Vec和TextRank生成的专利摘要质量高,概括性也强。 展开更多
关键词 jieba分词 关键词提取 Word2Vec算法 TextRank算法
下载PDF
基于jieba中文分词的电力客户精准分类方法
15
作者 高攀 李飞 +2 位作者 彭远豪 张璨辉 彭海君 《湖南电力》 2023年第5期151-154,共4页
针对电力营销中基础数据中的客户细分,提出一种基于jieba中文分词实现大客户精准分类的方法。首先构建包含客户基本类别的自定义字典,利用jieba分词对文本数据完成分词;其次,基于分词结果中的高频词和关键词,分析统计部分分类规律、构... 针对电力营销中基础数据中的客户细分,提出一种基于jieba中文分词实现大客户精准分类的方法。首先构建包含客户基本类别的自定义字典,利用jieba分词对文本数据完成分词;其次,基于分词结果中的高频词和关键词,分析统计部分分类规律、构建分类特征库,将分类特征库作为神经网络预训练模型的输入,训练客户分类的神经网络模型,最终输出电力客户的精准分类结果。该方法解决电力系统数据库中用户类别不清晰或分类方法过于复杂的问题,为电力公司制定客户差异化服务提供基础。 展开更多
关键词 客户分类 中文分词 jieba 神经网络
下载PDF
水利水电行业专用中文分词方法研究 被引量:1
16
作者 唐颖复 江新兰 +2 位作者 张伟兵 王志璋 缪纶 《水利信息化》 2021年第1期20-25,79,共7页
为改善对当前水利水电行业中大量以自然语言文本形式存在的相关资料挖掘不充分和利用率偏低的现状,在分析水利水电行业文本资料数据特点的基础上,构建水利水电行业的基本词典库,并对Jieba分词器进行算法改进,生成一种水利水电行业专用... 为改善对当前水利水电行业中大量以自然语言文本形式存在的相关资料挖掘不充分和利用率偏低的现状,在分析水利水电行业文本资料数据特点的基础上,构建水利水电行业的基本词典库,并对Jieba分词器进行算法改进,生成一种水利水电行业专用中文新分词方法,并利用新分词方法对1988-2007年的全国水利工作会议报告进行分析。分析结果表明:提出的新分词方法可以准确地进行语句切分,有利于相关行业研究人员从大量现存文本资料中挖掘出更多潜在的高价值信息。 展开更多
关键词 中文分词 jieba分词 算法改进 水利水电行业 专用 正向匹配法 水利工作会议
下载PDF
双向GRU和自注意力机制下微博情感倾向性分析 被引量:3
17
作者 杨凡 薛佳奇 《智能计算机与应用》 2020年第4期193-198,共6页
针对微博文本内容的即时性、随意性、碎片性,本文提出将网络流行语词库、微博表情词词库、网络流行词词库加入到结巴分词词库中,以确保Word2vec模型对文本准确词向量化;针对上下文语义关联的微博文本特征以及双向长短期记忆网络(Bidirec... 针对微博文本内容的即时性、随意性、碎片性,本文提出将网络流行语词库、微博表情词词库、网络流行词词库加入到结巴分词词库中,以确保Word2vec模型对文本准确词向量化;针对上下文语义关联的微博文本特征以及双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)难收敛、训练时间长的问题,采用BiGRU(Bidirectional,Gated Recurrent Unit)神经网络学习微博文本的深层特征;针对当下流行的注意力机制(AttentionMechanism),调整情感词权重,但同时忽略微博内部序列关系的问题。该文使用自注意力机制(Self-Attention)综合微博文本内部关键特征对情感词进行定位,调整情感词的概率权重;然后用softmax函数进行分类。实验证明,本文方法比现有方法的准确率提高了5.34%。 展开更多
关键词 词库 结巴分词 BiGRU Self-Attention
下载PDF
基于百度网页的中文自动问答应用研究 被引量:2
18
作者 石凤贵 《现代计算机》 2020年第8期104-108,共5页
互联网给人类生活和学习带来了便利,在浩瀚的知识海洋里如何快速、准确获取所需知识?我们需要去寻求一种高效的解决办法.充分利用搜索引擎和自然语言处理技术的各自优点,采用jieba中文分词和Word2Vec词向量构建基于百度网页的中文问答系... 互联网给人类生活和学习带来了便利,在浩瀚的知识海洋里如何快速、准确获取所需知识?我们需要去寻求一种高效的解决办法.充分利用搜索引擎和自然语言处理技术的各自优点,采用jieba中文分词和Word2Vec词向量构建基于百度网页的中文问答系统,系统的实现引入深度学习思想. 展开更多
关键词 自然语言处理 自动问答 网络爬虫 jieba中文分词 Word2Vec词向量
下载PDF
面向XGBoost的课程评价文本智能分类模型 被引量:1
19
作者 晋百川 杨鸿波 胡大胆 《软件导刊》 2021年第9期14-17,共4页
对数据量大的评价文本内容进行分类分析较困难,为解决这一难题,提出面向XGBoost的评价文本智能分类模型,在样本不均衡问题下采用随机欠采样方法进行处理,对文本内容使用jieba分词和停用词进行词向量表示,使用PCA(主成分分析)进行特征降... 对数据量大的评价文本内容进行分类分析较困难,为解决这一难题,提出面向XGBoost的评价文本智能分类模型,在样本不均衡问题下采用随机欠采样方法进行处理,对文本内容使用jieba分词和停用词进行词向量表示,使用PCA(主成分分析)进行特征降维,使用交叉验证方法寻找XGBoost最优参数。为验证模型的有效性,分别在1647条数据以及9994条数据上进行实验。实验结果表明,XGBoost模型在评价文本分类时精准率、召回率、F1值分别达到了87.62%、87.73%、87.67%。面向XGBoost的评价文本智能分类模型不仅能快速对数量大的评价文本内容进行分类,而且能有效降低人工分类误差。 展开更多
关键词 文本分类 jieba分词 XGBoost模型 随机欠采样 交叉验证
下载PDF
水库安全管理文档质量评估系统设计与实现 被引量:1
20
作者 葛从兵 严吉皞 陈剑 《软件导刊》 2022年第5期130-134,共5页
为加强水库安全管理监督工作,提高水库安全管理文档评估效率,研究中文分词技术以及关键词学习方法与文档质量评估方法,提出一种基于词频的水库安全管理文档质量评估方法。选择结巴分词工具,采用Django框架开发水库安全管理文档质量评估... 为加强水库安全管理监督工作,提高水库安全管理文档评估效率,研究中文分词技术以及关键词学习方法与文档质量评估方法,提出一种基于词频的水库安全管理文档质量评估方法。选择结巴分词工具,采用Django框架开发水库安全管理文档质量评估系统。实验结果表明,该系统对水库安全管理文档的质量评估结果准确,与实际情况基本一致。该系统能够通过学习全部文档获得评估标准,计算文档质量指数并给出文档质量水平,可广泛应用于水库安全管理文档质量评估工作中,具有一定的实用价值。 展开更多
关键词 水库安全管理 文档质量评估 词频 结巴分词 DJANGO
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部