期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
基于Python语言的中文分词技术的研究 被引量:58
1
作者 祝永志 荆静 《通信技术》 2019年第7期1612-1619,共8页
Python作为一种解释性高级编程语言,已经深入大数据、人工智能等热门领域。Python在数据科学领域具有广泛的应用,比如Python爬虫、数据挖掘等等。将连续的字序列划分为具有一定规范的词序列的过程称为分词。在英文中,空格是单词间的分界... Python作为一种解释性高级编程语言,已经深入大数据、人工智能等热门领域。Python在数据科学领域具有广泛的应用,比如Python爬虫、数据挖掘等等。将连续的字序列划分为具有一定规范的词序列的过程称为分词。在英文中,空格是单词间的分界符,然而中文比较复杂。一般来说对字、句子和段落的划分比较简单,但中文中词的划分没有明显的标志,所以对中文文本进行分词的难度较大。运用Python爬虫对网页数据进行抓取作为实验文本数据,使用python强大的分词库jieba对中文文本进行分词处理。对分词结果分别采用TF-IDF算法和TextRank算法进行提取关键词,实验结果明显优于基于词频的分词算法。最后采用词云的方式对关键词进行展现,使得分词结果一目了然。 展开更多
关键词 PYTHON 文本分词 jieba 词云 数据可视化
下载PDF
基于jieba中文分词的中文文本语料预处理模块实现 被引量:36
2
作者 石凤贵 《电脑知识与技术》 2020年第14期248-251,257,共5页
文本预处理是文本分析理解的基础,预处理结果可以直接影响到文本分析的准确率。中文文本语句结构复杂,词语之间没有明显的分隔标记,需要进行分词来理解语句。分词是文本预处理的基础,词的切分准确性影响文本预处理结果。本文分词采用ji... 文本预处理是文本分析理解的基础,预处理结果可以直接影响到文本分析的准确率。中文文本语句结构复杂,词语之间没有明显的分隔标记,需要进行分词来理解语句。分词是文本预处理的基础,词的切分准确性影响文本预处理结果。本文分词采用jieba中文分词工具,实现了文本预处理模块。 展开更多
关键词 文本分词 文本预处理 去停用词
下载PDF
Python环境下的文本分词与词云制作 被引量:31
3
作者 严明 郑昌兴 《现代计算机》 2018年第23期86-89,共4页
近年来Python广泛应用于包括自然语言处理在内的数据处理和人工智能等领域。以实例探讨Python环境下基于jieba库的文本分词、基于WordCloud库的词云制作及其相关处理,特别是如何实现针对两个相关文本的比较处理。
关键词 文本分词 数据可视化 词云 PYTHON
下载PDF
中文文本分词及其可视化技术研究 被引量:13
4
作者 石凤贵 《现代计算机》 2020年第12期131-138,148,共9页
大数据和人工智能是当前计算机领域的两大热门方向,其应用正在改变我们的生活、工作和学习,其中一个应用就是自然语言处理。分析处理文本,首先需要进行分词,文本分词是自然语言处理的基础。Python是当前一门广泛使用的计算机语言,功能强... 大数据和人工智能是当前计算机领域的两大热门方向,其应用正在改变我们的生活、工作和学习,其中一个应用就是自然语言处理。分析处理文本,首先需要进行分词,文本分词是自然语言处理的基础。Python是当前一门广泛使用的计算机语言,功能强大,已作为大数据和人工智能处理的首选程序设计语言。介绍基于Python的jieba中文分词工具和WordCloud词云工具,并在此基础上进行实现。 展开更多
关键词 文本分词 词云 自然语言处理 PYTHON
下载PDF
基于BERT-BiLSTM-CRF模型的畜禽疫病文本分词研究 被引量:2
5
作者 余礼根 郭晓利 +3 位作者 赵红涛 杨淦 张俊 李奇峰 《农业机械学报》 EI CAS CSCD 北大核心 2024年第2期287-294,共8页
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectiona... 针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network,BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field,CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、10.62、8.3、0.72个百分点,验证了方法的有效性。与单一语料相比,通用语料PKU和羊常见疫病文本数据集结合的混合语料,能够同时对畜禽疫病专业术语及疫病文本中常用词进行准确切分,在通用语料及疫病文本数据集上F1值都达到95%以上,具有较好的模型泛化能力。该方法可用于畜禽疫病文本分词。 展开更多
关键词 畜禽疫病 文本分词 预训练语言模型 双向长短时记忆网络 条件随机场
下载PDF
中文微博文本采集与预处理综述 被引量:7
6
作者 孔雪娜 孙红 《软件导刊》 2017年第2期186-189,共4页
随着微博的迅猛发展,微博相关方向的数据挖掘已经成为研究热点。而如何高效、完整地采集微博信息并对其进行预处理,将大大影响微博数据挖掘的效率与效果。对基于API与网页爬虫的微博信息采集方式及其研究现状进行了归纳总结,并按照中文... 随着微博的迅猛发展,微博相关方向的数据挖掘已经成为研究热点。而如何高效、完整地采集微博信息并对其进行预处理,将大大影响微博数据挖掘的效率与效果。对基于API与网页爬虫的微博信息采集方式及其研究现状进行了归纳总结,并按照中文微博文本预处理过程归纳总结了信息过滤、中文文本分词、特征表示与选择等预处理方法研究现状。最后对未来微博信息采集及处理的发展方向进行了展望。 展开更多
关键词 数据挖掘 网页爬虫 微博信息采集 文本预处理 文本分词
下载PDF
“本”中窥“债”略见一般——基于预算报告的我国地方债务治理概览 被引量:6
7
作者 刁伟涛 孙晓萱 沈亮 《中央财经大学学报》 CSSCI 北大核心 2022年第3期3-14,26,共13页
地方政府债务纳入预算管理之后,债务治理工作成为预算报告中的重要内容。本文基于文本分词和词频分析的视角,首次以2015—2019年中央、省、市三级政府的预算报告为基础,通过将地方债务治理工作提炼为防风险、稳增长与建机制三大目标,以... 地方政府债务纳入预算管理之后,债务治理工作成为预算报告中的重要内容。本文基于文本分词和词频分析的视角,首次以2015—2019年中央、省、市三级政府的预算报告为基础,通过将地方债务治理工作提炼为防风险、稳增长与建机制三大目标,以及显性债务(包括一般债务和专项债务)和隐性债务两大对象,系统地梳理了地方债务治理的发展历程和基本全貌。同时,对于中央、省、市三级政府地方债务治理的目标侧重和态度取向等方面的共同特征和显著差异也进行了分析。相应结论对于进一步改进和完善地方债务治理提供了重要的启示。 展开更多
关键词 地方债务治理 文本分词 词频分析 预算报告
下载PDF
自动摘要研究中的若干问题 被引量:7
8
作者 王连喜 《图书情报工作》 CSSCI 北大核心 2014年第20期13-22,共10页
处理流程和梳理国内外重要研究成果的基础上,重点对自动摘要研究在文本分词、冗余度控制、质量评价、短文本自动摘要以及多语言与跨语言文本自动摘要等方面所面临的若干基本问题及其主要解决方法进行归纳和总结,并对部分研究内容的发展... 处理流程和梳理国内外重要研究成果的基础上,重点对自动摘要研究在文本分词、冗余度控制、质量评价、短文本自动摘要以及多语言与跨语言文本自动摘要等方面所面临的若干基本问题及其主要解决方法进行归纳和总结,并对部分研究内容的发展方向进行展望,以期为未来的自动摘要和自然语言处理研究提供有意义的参考。 展开更多
关键词 自动摘要 自然语言处理 文本 文本分词 冗余度控制
原文传递
一种基于深度学习的档案文件齐全性检验方法
9
作者 肖雪丽 廖常辉 李惠仪 《信息记录材料》 2024年第3期198-200,204,共4页
本文针对档案管理领域中的档案文件齐全性检验任务,提出了一种基于深度学习的解决方法,旨在提高检验效率。首先,利用深度学习中的双向长短时记忆网络-条件随机场模型(bidirectional long short⁃term memory⁃conditional random field,Bi... 本文针对档案管理领域中的档案文件齐全性检验任务,提出了一种基于深度学习的解决方法,旨在提高检验效率。首先,利用深度学习中的双向长短时记忆网络-条件随机场模型(bidirectional long short⁃term memory⁃conditional random field,BiLSTM⁃CRF)对档案文件名进行文本分词,以精准提取出关键词。其次,构建关键词库,并结合预设规则,形成了一种灵活且高效的档案文件齐全性检验策略。再次,通过采用句子级双向编码器的Transformer表示模型(sentence bidirectional encoder representations from transformers,SBERT),计算文本之间的相似度,进行精确的档案文件比对,以便及时发现文件是否存在缺失、重复或超出预期的情况。最后,对档案文件的齐全性进行快速、准确的评估,为档案管理人员提供有力的决策支持。 展开更多
关键词 档案文件齐全性 深度学习 文本匹配 文本分词
下载PDF
在线医疗社区分析系统的设计与实现
10
作者 张霞 邵芊芊 顾加成 《无线互联科技》 2024年第3期38-40,44,共4页
作为“互联网+医疗”的重要产物,在线医疗社区迅速发展。在线医疗社区产生了大量的医疗问答信息,这些信息富含医学知识和患者关切等内容。因此,文章构建了在线医疗社区分析系统的架构,再通过网络爬虫、数据清洗和存储、文本分词、数据... 作为“互联网+医疗”的重要产物,在线医疗社区迅速发展。在线医疗社区产生了大量的医疗问答信息,这些信息富含医学知识和患者关切等内容。因此,文章构建了在线医疗社区分析系统的架构,再通过网络爬虫、数据清洗和存储、文本分词、数据可视化等技术,设计并开发了一个医患问答数据的分析系统,通过折线图、饼状图和生成词云等数据分析,得到不同疾病的发病症状、治疗常用药物等有用知识,为患者诊断和治疗提供便利,也能为医生了解患者关切提供依据。 展开更多
关键词 在线医疗社区 文本分词 词云分析
下载PDF
基于ElasticSearch的医疗数据检索系统的设计与实现
11
作者 汪睿 胡外光 +1 位作者 胡珊珊 周颖 《信息技术》 2024年第4期76-82,共7页
随着医疗技术的发展,医疗业务场景越加复杂,由此产生的医疗数据也越来越多,其来源复杂,结构多变,信息冗余,数据不完整。这些特性使得系统在进行检索时,无法快速、有效、精确地查询数据。为了解决这个问题,设计并实现了基于ElasticSearc... 随着医疗技术的发展,医疗业务场景越加复杂,由此产生的医疗数据也越来越多,其来源复杂,结构多变,信息冗余,数据不完整。这些特性使得系统在进行检索时,无法快速、有效、精确地查询数据。为了解决这个问题,设计并实现了基于ElasticSearch的医疗数据检索系统。该系统将医疗数据进行标准化,填补缺失值,选取合适的分词算法进行分词,将处理后的数据存入ElasticSearch中,同时使用SpringBoot构建系统应用,消耗多个医疗基础业务系统产生的数据,最终形成统一的医疗数据检索系统,给用户提供便捷、精确的查询服务。 展开更多
关键词 lasticSearch 医疗数据 文本分词 全文检索 分布式搜索
下载PDF
基于混合机器学习模型的短文本语义相似性度量算法 被引量:2
12
作者 韩开旭 袁淑芳 《吉林大学学报(理学版)》 CAS 北大核心 2023年第4期909-914,共6页
为提高短文本语义相似性度量准确性,设计一种基于混合机器学习模型的短文本语义相似性度量算法.先对短文本实施预处理,基于混合机器学习模型构建短文本的字词向量模型,对短文本进行特征扩展;然后组合短文本的多样度量特征,对多样度量特... 为提高短文本语义相似性度量准确性,设计一种基于混合机器学习模型的短文本语义相似性度量算法.先对短文本实施预处理,基于混合机器学习模型构建短文本的字词向量模型,对短文本进行特征扩展;然后组合短文本的多样度量特征,对多样度量特征进行维度规约;最后通过构建一个集成学习模型,计算语义相似性结果,实现语义相似性的度量.使用“Quora Question Pairs”比赛数据集测试该方法的性能,测试结果表明,该方法的准确性较高,对数损失和度量均方差均较低,说明该方法的相似性度量准确性较高. 展开更多
关键词 混合机器学习模型 文本 文本分词 语义相似性 卡方检验 相似性度量
下载PDF
基于BiLSTM_CRF模型的藏文分词方法 被引量:6
13
作者 王莉莉 王宏渊 +1 位作者 白玛曲珍 杨鸿武 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2020年第4期648-654,共7页
藏文分词是实现藏文语音合成和藏文语音识别的关键技术之一。提出一种基于双向长短时记忆网络加条件随机场(bidirectional long-short-term memory with conditional random field model,BiLSTM_CRF)模型的藏文分词方法。对手工分词的... 藏文分词是实现藏文语音合成和藏文语音识别的关键技术之一。提出一种基于双向长短时记忆网络加条件随机场(bidirectional long-short-term memory with conditional random field model,BiLSTM_CRF)模型的藏文分词方法。对手工分词的语料经过词向量训练后输入到双向长短时记忆网络(bidirectional long-short-term memory,BiLSTM)中,将前向长短时记忆网络(long-short-term memory,LSTM)和后向LSTM学习到的过去输入特征和未来输入特征相加,传入到线性层和softmax层进行非线性操作得到粗预测信息,再利用条件随机场(conditional random field,CRF)模型进行约束性修正,得到一个利用词向量和CRF模型优化的藏文分词模型。实验结果表明,基于BiLSTM_CRF模型的藏文分词方法可取得较好的分词效果,分词准确率可达94.33%,召回率为93.89%,F值为94.11%。 展开更多
关键词 文本分词 长短时计忆网络 深度神经网络 词向量 民族语言
下载PDF
隐马尔可夫模型在中文文本分词中应用研究 被引量:5
14
作者 王庆福 《无线互联科技》 2016年第13期106-107,共2页
文本分词是各个互联网领域中的基础性工作。通过对平台涉及的文本串进行切词处理,对切词之后的短文本串更能够聚合用户。隐马尔可夫模型作为机器学习领域中重要算法,它能够进行各个状态之间的转换,对于文本中词语之间上下文语义关系、... 文本分词是各个互联网领域中的基础性工作。通过对平台涉及的文本串进行切词处理,对切词之后的短文本串更能够聚合用户。隐马尔可夫模型作为机器学习领域中重要算法,它能够进行各个状态之间的转换,对于文本中词语之间上下文语义关系、词语与词语之间前后向位置关系非常匹配,众多的开源分词工具都基于隐马尔可夫模型。 展开更多
关键词 文本分词 上下文语义 隐马尔可夫模型
下载PDF
基于分词的关联规则预测系统研究 被引量:4
15
作者 王志超 孙建斌 秦瑞丽 《计算机应用与软件》 北大核心 2018年第12期140-143,共4页
定向文本预测,往往存在预测不准、数据量大、针对性不高等问题。提出基于分词的关联规则预测方法,以煤化工行业为例进行发展方向的预测。对预测主题近期新闻标题进行层叠隐马尔可夫模型的初步分词,对得到的词集进行虚词修剪及喻词实化... 定向文本预测,往往存在预测不准、数据量大、针对性不高等问题。提出基于分词的关联规则预测方法,以煤化工行业为例进行发展方向的预测。对预测主题近期新闻标题进行层叠隐马尔可夫模型的初步分词,对得到的词集进行虚词修剪及喻词实化完成语义统一形成参与关联规则的事务集;通过提出的基于分词的关联规则算法Apriori_Split对事务集进行计算,最终得到预测结果。实验表明,该预测方法简单有效,可以极大提高预测准确性。 展开更多
关键词 分词 关联规则 预测模型 文本分词 马尔可夫模型
下载PDF
地区电网调度操作票系统的功能设计
16
作者 刘诗 李焕奇 李崇 《东北电力技术》 2023年第9期32-35,39,共5页
介绍了一个自主开发的地区电网调度操作票系统及其各模块的功能设计。该系统不但具有操作任务和操作顺序项快速生成功能、计划任务文本分词识别功能和典型操作票检索等功能用于生成操作票,还具有插入大项、插入小项、删除行、上移行、... 介绍了一个自主开发的地区电网调度操作票系统及其各模块的功能设计。该系统不但具有操作任务和操作顺序项快速生成功能、计划任务文本分词识别功能和典型操作票检索等功能用于生成操作票,还具有插入大项、插入小项、删除行、上移行、下移行和连续撤销等高效编辑功能;在进行插、删、移行的过程中,大、小项序号能自动调整;在操作票保存前能对各行操作项中的操作动作和设备以及厂站、设备和代号的匹配关系进行自动校验纠错,同时提供一键导入OMS系统的软连接接口。该系统已成为地区电网调度日常工作中的重要工具。 展开更多
关键词 地区电网 调度操作票 文本分词 自动校验纠错 软连接接口
下载PDF
数据分析报告自动评分研究
17
作者 夏稳 宋捷 《科技与创新》 2023年第4期16-20,共5页
为了实现没有标准答案及确定主题的数据分析报告的自动评分算法,利用文本分词等技术将数据分析报告处理为结构化数据,量化评分特征利用机器学习模型学习评分过程,找出重要特征变量,从而完成数据分析报告自动评分算法的实现。实验结果表... 为了实现没有标准答案及确定主题的数据分析报告的自动评分算法,利用文本分词等技术将数据分析报告处理为结构化数据,量化评分特征利用机器学习模型学习评分过程,找出重要特征变量,从而完成数据分析报告自动评分算法的实现。实验结果表明,使用随机森林的MPE约为3.85,优于3种主要的对比模型,最重要的特征变量是工作变量和描述性变量。没有把人工打分考虑的非语义因素纳入模型,可能导致机器自动评分和人工打分的结果存在差异。利用自然语言处理技术和机器学习模型,在没有标准答案对比及确定主题分析的前提下,实现了数据分析报告的自动评分且评分结果和人工评分结果差异不大。 展开更多
关键词 数据分析报告 自动评分 文本分词 随机森林
下载PDF
基于前后端分离算法的ACM智能管家系统 被引量:2
18
作者 高云泽 王莉莉 +3 位作者 董文睿 冯紫君 胡祖容 赵中楠 《智能计算机与应用》 2022年第3期80-86,共7页
为了ACM国际大学生程序设计竞赛参赛者对算法进行系统学习并积累编程能力,本文基于前后端分离技术,设计了一个功能全面,架构稳定的智能辅助学习系统。通过该系统,参赛者可以对算法训练题目进行分析,模拟比赛,并进行赛后复盘和总结。系... 为了ACM国际大学生程序设计竞赛参赛者对算法进行系统学习并积累编程能力,本文基于前后端分离技术,设计了一个功能全面,架构稳定的智能辅助学习系统。通过该系统,参赛者可以对算法训练题目进行分析,模拟比赛,并进行赛后复盘和总结。系统后端采用Django框架,前端采用Electron和Vue框架,保证前后端的可扩展性,降低了系统的耦合性,并采用WebSocket完成用户之间的实时通信。系统提供了训练题库,借助文本分词来获取题目的类型标签,并使用该标签类型对题目进行划分,并指导用户数据的可视化结果。 展开更多
关键词 文本分词 前后端分离 DJANGO ELECTRON Vue
下载PDF
基于文本分词的检修申请单智能成票研究 被引量:3
19
作者 康伟 高丽媛 +2 位作者 蓝海波 张锐 丁华杰 《东北电力技术》 2020年第2期59-62,共4页
为全面贯通检修-调度一体化安全流程,实现检修申请单直接智能生成调度操作票,从检修申请单文本分词的思路出发,通过研究基于规则的最大匹配算法,设计实现了检修工作内容分词器;在分词结果的基础上,详细阐述了语义解析规则及过程,完成对... 为全面贯通检修-调度一体化安全流程,实现检修申请单直接智能生成调度操作票,从检修申请单文本分词的思路出发,通过研究基于规则的最大匹配算法,设计实现了检修工作内容分词器;在分词结果的基础上,详细阐述了语义解析规则及过程,完成对分词内容的提取和电网模型关联;最后设计与操作票系统接口,实现检修申请单的智能成票。 展开更多
关键词 检修申请单 最大匹配算法 文本分词 操作票
下载PDF
基于文本分词朴素贝叶斯分类的图书采访机制探索 被引量:3
20
作者 王红 王雅琴 黄建国 《现代情报》 CSSCI 2021年第9期74-83,共10页
[目的/意义]依据图书客观特征作为图书采访依据,相比依据读者需求作为图书采访依据,更具有客观基础。[方法/过程]在馆藏图书是否发生过流通的分类划分基础上,对以题名、出版社为特征的馆藏图书的描述信息,通过文本分类技术,形成图书特... [目的/意义]依据图书客观特征作为图书采访依据,相比依据读者需求作为图书采访依据,更具有客观基础。[方法/过程]在馆藏图书是否发生过流通的分类划分基础上,对以题名、出版社为特征的馆藏图书的描述信息,通过文本分类技术,形成图书特征划分方法,对馆藏是否发生过流通进行的统计结果,转化为可以利用人工智能的朴素贝叶斯分类等技术,进行分类学习的概率事件。[结果/结论]模型运行的结果,表明基于文本分词朴素贝叶斯分类技术,能够根据图书表征,对图书流通趋势进行分类,可以使图书采访摆脱人工主观因素干扰,并提供客观可靠的量化依据。 展开更多
关键词 人工智能 图书采访 文本分词 朴素贝叶斯
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部