期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于支持向量机的中文极短文本分类模型 被引量:30
1
作者 王杨 许闪闪 +4 位作者 李昌 艾世成 张卫东 甄磊 孟丹 《计算机应用研究》 CSCD 北大核心 2020年第2期347-350,共4页
为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量... 为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过1-0检验,验证了模型的有效性。实验以芜湖市社管平台中的9906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。 展开更多
关键词 支持向量机 jieba分词 极短文本分类 TF-IDF
下载PDF
基于jieba分词搜索与SSM框架的电子商城购物系统 被引量:17
2
作者 邢彪 根绒切机多吉 《信息与电脑》 2018年第7期104-105,108,共3页
随大数据、云计算等计算机技术的发展,拥有实时检索功能的购物商城系统也越来越重要。笔者利用jieba分词对商城用户的搜索输入进行分词以便于检索商品,同时,利用最新的电子商城框架SSM搭建了购物商城系统,较好满足了大众实时检索和购买... 随大数据、云计算等计算机技术的发展,拥有实时检索功能的购物商城系统也越来越重要。笔者利用jieba分词对商城用户的搜索输入进行分词以便于检索商品,同时,利用最新的电子商城框架SSM搭建了购物商城系统,较好满足了大众实时检索和购买商品的需求。 展开更多
关键词 电子商城 jieba分词 SPRING SPRING MVC MyBatis框架
下载PDF
基于机器学习的文本情感倾向性分析 被引量:13
3
作者 陈平平 耿笑冉 +1 位作者 邹敏 谭定英 《计算机与现代化》 2020年第3期77-81,92,共6页
为实现对网络上电影评论的情感倾向性分析,通过对电影影评数据进行爬取,获取热门的电影评论,利用文本预处理和机器学习算法,完成对数据的训练以及测试,最终构建最优情感分类模型。实验结果表明,在所有词与双词结合并进行jieba的TF-IDF... 为实现对网络上电影评论的情感倾向性分析,通过对电影影评数据进行爬取,获取热门的电影评论,利用文本预处理和机器学习算法,完成对数据的训练以及测试,最终构建最优情感分类模型。实验结果表明,在所有词与双词结合并进行jieba的TF-IDF及卡方统计的特征提取下,得到的效果较好,BP神经网络以及多项式贝叶斯算法比较适用于这类文本的分析,尤其以BP神经网络的效果最佳,准确率达到86.2%。 展开更多
关键词 情感倾向分析 jieba分词 机器学习 BP神经网络算法 卡方统计
下载PDF
中文分词技术研究 被引量:12
4
作者 韦人予 《信息与电脑》 2020年第10期26-29,共4页
中文分词是自然语言处理的基础任务。随着文本数据量的增长,对中文分词进行研究具有十分重要的意义。jieba分词是较为常用的中文分词技术,分词的准确率较高,面向jieba分词技术研究加快分词速度的方法,该方法采用Cython实现分词技术的核... 中文分词是自然语言处理的基础任务。随着文本数据量的增长,对中文分词进行研究具有十分重要的意义。jieba分词是较为常用的中文分词技术,分词的准确率较高,面向jieba分词技术研究加快分词速度的方法,该方法采用Cython实现分词技术的核心算法,对中文文本进行分词处理。在ICC中文数据集上进行实验,实验结果表明,该分词加速方法能够提高63.9%的分词速度。 展开更多
关键词 中文分词 自然语言处理 jieba分词
下载PDF
基于jieba中文分词的在线医疗网站医生画像研究 被引量:11
5
作者 李岩 郭凤英 +2 位作者 翟兴 陈晓倩 佟金铎 《医学信息学杂志》 CAS 2020年第7期14-18,共5页
以在线医疗网站患者对医生的评价数据为基础,基于jieba分词技术从医生基本信息、医生所在医院、患者评价信息3个维度构建用户画像,借助PowerBI实现用户画像可视化,分析患者对医生的关注侧重点,为智能医生推荐奠定基础。
关键词 在线医疗网站 用户画像 jieba分词 情感分析
下载PDF
基于聚焦型网络爬虫的影评获取技术 被引量:6
6
作者 高宇 杨小兵 《中国计量大学学报》 2018年第3期299-303,共5页
随着"互联网+"概念的普及,网络上的资源随之成倍增长.面对庞大的数据资源,传统的搜索引擎Baidu、Google等已经不能满足人们对于特定信息的获取需求.作为搜索引擎抓取数据的重要组成部分,网络爬虫的作用非常重要.本文主要介绍... 随着"互联网+"概念的普及,网络上的资源随之成倍增长.面对庞大的数据资源,传统的搜索引擎Baidu、Google等已经不能满足人们对于特定信息的获取需求.作为搜索引擎抓取数据的重要组成部分,网络爬虫的作用非常重要.本文主要介绍了网络爬虫的概念、组成模块以及工作流程,在通用爬虫的基础上提出一种聚焦型网络爬虫系统,以python和相应的第三方库为主要工具,通过定义采集函数和给定豆瓣网最新上映电影的网址,快速搜索该网址某电影的影评信息,对页面内链接和外链接进行有效爬取.然后,再对获取到的数据进行分词处理,根据关键词的出现频率生成词云.实验结果表明,该聚焦型爬虫系统能够将所有影评信息以JSON格式存储到本地,并通过词云直观的展示出来. 展开更多
关键词 搜索引擎 网络爬虫 jieba分词 正则表达式 词云
下载PDF
基于电影网站短评数据的网络舆情文本挖掘与情感分析 被引量:1
7
作者 贺海玉 《现代信息科技》 2023年第21期126-130,135,共6页
对电影短评数据进行情感分析的目的是为了获取观众对某部电影的情感倾向,同时还可帮助电影制作者通过了解观众的情感倾向,从而改善电影的制作。文章采用的方法是通过Python代码爬取电影网站上的评论数据,对爬取的数据进行多项数据预处... 对电影短评数据进行情感分析的目的是为了获取观众对某部电影的情感倾向,同时还可帮助电影制作者通过了解观众的情感倾向,从而改善电影的制作。文章采用的方法是通过Python代码爬取电影网站上的评论数据,对爬取的数据进行多项数据预处理技术得到较为规范的评论数据,再利用TF-IDF算法计算出短评数据的关键词及权重并给关键字词云图,然后使用SnowNLP库计算出短评数据的情感分值,并运用LDA模型对电影网站短评数据主题分类,最终给出电影网站短评数据情感分析的可视化评价结果。 展开更多
关键词 情感分析 jieba分词 TF-IDF算法 SnowNLP分析 LDA主题模型
下载PDF
基于TextCNN融合模型的离散情感分析 被引量:1
8
作者 程钢 陈秀明 于翔 《科学技术创新》 2023年第21期124-127,共4页
在自然语言分析中,情感分析通常是在分析一段文字所表现的情感状况。情感分析的使用场景非常宽泛,比如旅行平台、电影评论平台等所进行的评价,分为积极评论与消极评价;又或者为了研究客户对某一商品的总体使用感觉,对商品的整体使用评... 在自然语言分析中,情感分析通常是在分析一段文字所表现的情感状况。情感分析的使用场景非常宽泛,比如旅行平台、电影评论平台等所进行的评价,分为积极评论与消极评价;又或者为了研究客户对某一商品的总体使用感觉,对商品的整体使用评价并做出情感判断等。本文数据使用的是阿里云天池的电商评论的数据,分为积极消极两种情感,并将它改成6种情感,本文使用Jieba分词,决策树,lda主题模型,对文本进行挖掘,深入挖掘评论背后隐藏的问题。使用TextCNN,TextRCNN,TextRCNN-Attention模型对情感进行分类,并对模型进行对比。 展开更多
关键词 自然语言处理 情感分析 jieba分词 决策树 LDA主题模型 TextCNN TextRCNN TextRCNN-Attention
下载PDF
基于Word2Vec及TextRank算法的长文档摘要自动生成研究 被引量:1
9
作者 朱玉婷 刘乐 +2 位作者 辛晓乐 陈珑慧 康亮河 《现代信息科技》 2023年第4期36-38,42,共4页
近年来,如何从大量信息中提取关键信息已成为一个急需解决的问题。针对中文专利长文档,提出一种结合Word2Vec和TextRank的专利生成算法。首先利用Python Jieba技术对中文专利文档进行分词,利用停用词典去除无意义的词;其次利用Word2Vec... 近年来,如何从大量信息中提取关键信息已成为一个急需解决的问题。针对中文专利长文档,提出一种结合Word2Vec和TextRank的专利生成算法。首先利用Python Jieba技术对中文专利文档进行分词,利用停用词典去除无意义的词;其次利用Word2Vec算法进行特征提取,并利用WordCloud对提取的关键词进行可视化展示;最后利用TextRank算法计算语句间的相似度,生成摘要候选句,根据候选句的权重生成该专利文档的摘要信息。实验表明,采用Word2Vec和TextRank生成的专利摘要质量高,概括性也强。 展开更多
关键词 jieba分词 关键词提取 Word2Vec算法 TextRank算法
下载PDF
基于Word2Vec模型与RAG框架的医疗检索增强生成算法
10
作者 刘彦宏 崔永瑞 《人工智能与机器人研究》 2024年第3期479-486,共8页
当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲... 当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲,对于一些专业领域问题的回答并不是很准确,这就需要检索增强生成(RAG)技术的支持。尤其是在智慧医疗领域方面,由于相关数据的缺乏,不能发挥出大语言模型优秀的对话和解决问题的能力。本算法通过使用Jieba分词,Word2Vec模型对文本数据进行词嵌入,计算句子间的向量相似度并做重排序,帮助大语言模型快速筛选出最可靠可信的模型外部的医疗知识数据,再根据编写相关的提示词(Prompt),可以使大语言模型针对医生或患者的问题提供令人满意的答案。Nowadays, general artificial intelligence is developing rapidly, and major language models are emerging one after another. The widespread application of large language models has greatly improved people’s work level and efficiency, but large language models are not perfect and are also accompanied by many shortcomings. Such as: data security, illusion, timeliness, etc. At the same time, for general large language models, the answers to questions in some professional fields are not very accurate, which requires the support of RAG technology. Especially in the field of smart medical care, due to the lack of relevant data, the excellent conversation and problem-solving capabilities of the large language model cannot be brought into play. This algorithm uses Jieba word segmentation and the Word2Vec model to embed text data, calculate the vector similarity between sentences and reorder them, helping the large language model to quickly screen out the most reliable and trustworthy medical knowledge data outside the model, and then write relevant prompts to enable the large language model to provide satisfactory answers to docto 展开更多
关键词 通用人工智能 大语言模型 检索增强生成 jieba分词 Word2Vec PROMPT
下载PDF
患者评价视角下在线医疗网站先天性心脏病服务现状分析
11
作者 窦智丽 杨帅 +4 位作者 许书静 王若佳 韩东燃 刘一星 郭凤英 《医学信息学杂志》 CAS 2023年第1期25-29,共5页
基于“好大夫在线”网站先天性心脏病医疗服务数据和患者评价数据,采用数据分析和可视化方法,阐述在线医疗网站先天性心脏病医疗服务现状,并针对平台机制完善提出建议。
关键词 jieba分词 情感分析 “好大夫在线” 线上诊疗
下载PDF
基于Jieba分词的医疗设备信息查询一站式服务系统设计 被引量:4
12
作者 王清波 陈青青 王琳斌 《中国医学装备》 2020年第1期131-134,共4页
目的:设计基于Jieba分词的医疗设备信息查询一站式服务微信平台,以方便临床一线人员查询与梳理医疗设备信息相关资料、标准及各种资讯。方法:建立基于Jieba分词的微信平台系统架构,采用Python的Wxpy模块进行系统设计。使用Jieba分词进... 目的:设计基于Jieba分词的医疗设备信息查询一站式服务微信平台,以方便临床一线人员查询与梳理医疗设备信息相关资料、标准及各种资讯。方法:建立基于Jieba分词的微信平台系统架构,采用Python的Wxpy模块进行系统设计。使用Jieba分词进行消息处理,设计基于微信的聊天机器人,利用Python语句进行资料反馈和数据库查询。结果:基于微信的聊天机器人可提供设备管理相关资料的精准查询,能够在临床自然语言要求下,进行同质化答复管理。医疗设备资产库备有1万余条数据集,设定文件大小最大<10 M,查询设备资产的返回时间<2 s。结论:医疗设备信息查询一站式服务微信平台系统的设计,能够针对临床文字需求进行同质化答复,既可方便临床一线人员查询设备信息相关资料,还可有效提高医疗设备的管理效率。 展开更多
关键词 医疗设备信息查询系统 微信 自然语言处理 jieba分词 数据库 一站式服务
下载PDF
基于TF-IDF和jieba分词的交通运输综合执法语音文件和文本文件关联匹配技术
13
作者 刘文平 李艳春 +4 位作者 张贺 张宇驰 丁鼎 于泉 王传炀 《交通技术》 2023年第5期377-384,共8页
在交通运输综合行政执法听证环节中,传统听证环节均是线下举行的,听证记录员需要对整个听证环节的笔录进行详细记录。由于会后需要与整个案件的证据材料进行归档整理,对于执法人员的工作强度要求很高。因此,针对交通运输综合执法办案流... 在交通运输综合行政执法听证环节中,传统听证环节均是线下举行的,听证记录员需要对整个听证环节的笔录进行详细记录。由于会后需要与整个案件的证据材料进行归档整理,对于执法人员的工作强度要求很高。因此,针对交通运输综合执法办案流程中的听证业务环节提供一定的技术支撑,利用TF-IDF算法对听证内容进行关键词提取,和jieba分词进行优化开发语音文件和文本文件关联匹配技术,实现听证语音文本与案件关键要素信息的精确关联匹配,构建完整证据链确保行政处罚有据可依,整体提升交通运输综合行政执法针对听证案件的处罚判决的充分与准确,助力政府治理系统和治理能力现代化建设。 展开更多
关键词 TF-IDF jieba分词 交通运输综合执法 关联匹配 听证会
下载PDF
基于Python的网页数据分析及可视化应用 被引量:4
14
作者 李传科 肖自乾 《信息记录材料》 2021年第9期203-205,共3页
随着互联网平台的大量应用,各种网络数据呈现出多、杂、乱等现象,如何高效地获取有效网络数据问题显得尤为突出。本文基于Python语言,使用Scrapy网络爬虫框架实现网页信息的抓取,进而针对数据进行Pandas数据处理和jieba分词统计分析出... 随着互联网平台的大量应用,各种网络数据呈现出多、杂、乱等现象,如何高效地获取有效网络数据问题显得尤为突出。本文基于Python语言,使用Scrapy网络爬虫框架实现网页信息的抓取,进而针对数据进行Pandas数据处理和jieba分词统计分析出有效数据,并使用Matplotlib和Pyecharts可视化工具展现出分析数据,便于人们快速掌握网络信息中的有效数据。 展开更多
关键词 PYTHON 网络爬虫 数据分析 jieba分词 可视化
下载PDF
基于贝叶斯决策的极短文本分类模型 被引量:2
15
作者 张德成 王杨 +2 位作者 赵传信 甄磊 李昌 《重庆科技学院学报(自然科学版)》 CAS 2018年第4期82-85,共4页
为了有效提取极短文本中的关键特征信息,提出一种基于贝叶斯决策的极短文本分类模型。首先对原数据进行数据清洗并利用Jieba分词对清洗过的数据进行处理;然后利用Kettle工具提取分类所需关键词,并将处理后的数据存入数据库;最后利用贝... 为了有效提取极短文本中的关键特征信息,提出一种基于贝叶斯决策的极短文本分类模型。首先对原数据进行数据清洗并利用Jieba分词对清洗过的数据进行处理;然后利用Kettle工具提取分类所需关键词,并将处理后的数据存入数据库;最后利用贝叶斯决策对极短文本进行分类。通过(1-0)检验,验证模型的有效性。以一批极短文本数据作为样本进行实验,结果显示出该方法能够有效提高匹配效率,误分度与精确度指标的匹配结果更加均衡。 展开更多
关键词 jieba分词 Kettle工具 极短文本分类 贝叶斯分类
下载PDF
基于Jieba分词的青城旅游景点本体构建研究与应用 被引量:2
16
作者 曹丹阳 赵俊生 +1 位作者 李尽辉 张林 《内蒙古工业大学学报(自然科学版)》 2021年第3期218-225,共8页
针对游客在旅游网站上查询旅游景点不准确的问题,以青城为例研究了基于Jieba的旅游景点本体构建工作。首先,采用七步法结合“V”形开发过程构建本体;其次,基于每个景点实例进行相关文本数据收集,采用Jieba分词和基于词性的词频统计方式... 针对游客在旅游网站上查询旅游景点不准确的问题,以青城为例研究了基于Jieba的旅游景点本体构建工作。首先,采用七步法结合“V”形开发过程构建本体;其次,基于每个景点实例进行相关文本数据收集,采用Jieba分词和基于词性的词频统计方式选择属性特征词,根据属性特征词对实例属性进行赋值;最后,根据相关评价指标对构建好的旅游景点本体进行评价。实验结果表明,与传统关键词匹配法相比,基于Jieba的青城旅游景点本体的查询方法提高了查询性能,使查准率、查全率和综合指标F_(1)值的均值分别提升了9%、7.6%和8.5%. 展开更多
关键词 本体构建 jieba分词 词频统计 自然语言处理 查询性能
下载PDF
水利水电行业专用中文分词方法研究 被引量:1
17
作者 唐颖复 江新兰 +2 位作者 张伟兵 王志璋 缪纶 《水利信息化》 2021年第1期20-25,79,共7页
为改善对当前水利水电行业中大量以自然语言文本形式存在的相关资料挖掘不充分和利用率偏低的现状,在分析水利水电行业文本资料数据特点的基础上,构建水利水电行业的基本词典库,并对Jieba分词器进行算法改进,生成一种水利水电行业专用... 为改善对当前水利水电行业中大量以自然语言文本形式存在的相关资料挖掘不充分和利用率偏低的现状,在分析水利水电行业文本资料数据特点的基础上,构建水利水电行业的基本词典库,并对Jieba分词器进行算法改进,生成一种水利水电行业专用中文新分词方法,并利用新分词方法对1988-2007年的全国水利工作会议报告进行分析。分析结果表明:提出的新分词方法可以准确地进行语句切分,有利于相关行业研究人员从大量现存文本资料中挖掘出更多潜在的高价值信息。 展开更多
关键词 中文分词 jieba分词 算法改进 水利水电行业 专用 正向匹配法 水利工作会议
下载PDF
兼顾语义的地图注记智能换行方法研究 被引量:1
18
作者 张伟 《地理空间信息》 2021年第11期41-43,47,I0006,共5页
提出了一种兼顾语义的互联网地图注记智能换行标注方法,解决了互联网地图中长注记标注不美观、人工处理工作量大的问题,提升了地图注记的可读性。该方法已应用于“天地图·福建”的电子地图生产中,并发挥了重要作用。
关键词 地图注记 兴趣点 jieba分词 FME
下载PDF
基于模糊综合评价的情感分析模型
19
作者 陈安龙 孙驰 马璇 《长江信息通信》 2022年第2期76-78,共3页
近年来,主管部门和相关企业对景区与酒店等旅游目的地的"美誉度"越来越重视。旅游目的地的评价好坏也成为关注的焦点。文章正是对景区和酒店的网上评论进行分析,运用"模糊综合评价法"对各景区及酒店的服务、位置、... 近年来,主管部门和相关企业对景区与酒店等旅游目的地的"美誉度"越来越重视。旅游目的地的评价好坏也成为关注的焦点。文章正是对景区和酒店的网上评论进行分析,运用"模糊综合评价法"对各景区及酒店的服务、位置、设施、卫生、性价比五个方面建立"结合总体情感倾向的打分模型"计算评分,然后将计算的评分与实际得分进行比较,得到均方偏差:景区为0.177,酒店为0.077,预测的平均误差小于5%。文章建立的模型预测分数与原始数据评分高度一致,有较好的准确性和客观性,可用于帮助酒店、景区的经营者来发现用户的痛点;也可用于帮助主管部门发现运营场所存在的问题。 展开更多
关键词 自然语言处理 模糊理论 综合评价 感情分析 jieba分词 网络评论
下载PDF
面向XGBoost的课程评价文本智能分类模型 被引量:1
20
作者 晋百川 杨鸿波 胡大胆 《软件导刊》 2021年第9期14-17,共4页
对数据量大的评价文本内容进行分类分析较困难,为解决这一难题,提出面向XGBoost的评价文本智能分类模型,在样本不均衡问题下采用随机欠采样方法进行处理,对文本内容使用jieba分词和停用词进行词向量表示,使用PCA(主成分分析)进行特征降... 对数据量大的评价文本内容进行分类分析较困难,为解决这一难题,提出面向XGBoost的评价文本智能分类模型,在样本不均衡问题下采用随机欠采样方法进行处理,对文本内容使用jieba分词和停用词进行词向量表示,使用PCA(主成分分析)进行特征降维,使用交叉验证方法寻找XGBoost最优参数。为验证模型的有效性,分别在1647条数据以及9994条数据上进行实验。实验结果表明,XGBoost模型在评价文本分类时精准率、召回率、F1值分别达到了87.62%、87.73%、87.67%。面向XGBoost的评价文本智能分类模型不仅能快速对数量大的评价文本内容进行分类,而且能有效降低人工分类误差。 展开更多
关键词 文本分类 jieba分词 XGBoost模型 随机欠采样 交叉验证
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部