期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
对中学化学的主要任务专论和教材改革的看法 被引量:110
1
作者 宋心琦 胡美玲 《化学教育》 CAS 2001年第9期9-13,共5页
本文介绍了作者对中学化学教学和教材改革的一些看法。涉及到中学化学教学的主要目标、任务 ,以及编写教材时应当突出的基本理念、化学基本概念和观念等问题。本文对于中学化学教学各学段的主要着重点提出了看法。对于分类法的意义、元... 本文介绍了作者对中学化学教学和教材改革的一些看法。涉及到中学化学教学的主要目标、任务 ,以及编写教材时应当突出的基本理念、化学基本概念和观念等问题。本文对于中学化学教学各学段的主要着重点提出了看法。对于分类法的意义、元素论、物质的静态和动态、化学计量关系和浓度概念等在中学化学教学和教材中的地位和作用 ,也简要地进行了讨论。 展开更多
关键词 教材改革 分类法 元素论 物质 静态 动态 化学组成 化学计量关系 中学 化学教育
下载PDF
一个无需词典支持和切词处理的中文文档分类系统 被引量:23
2
作者 周水庚 关佶红 +1 位作者 胡运发 周傲英 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期839-844,共6页
报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统... 报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统易于功能扩充和性能完善 .测试结果表明该系统具有令人满意的分类性能 . 展开更多
关键词 中文文档分类系统 词典支持 切词处理 中文信息处理 INTERNET
下载PDF
自动文本分类方法研究述评 被引量:12
3
作者 蒲筱哥 《情报科学》 CSSCI 北大核心 2008年第3期469-475,共7页
在总结已经研究出的经典文本分类方法的基础上,对当前涌现出的一些新的文本分类方法进行了归纳,得出了当前研究的不足之处和未来发展趋势。
关键词 分类 文本分类 分类方法
下载PDF
LDA模型下不同分词方法对文本分类性能的影响研究 被引量:9
4
作者 李湘东 高凡 丁丛 《计算机应用研究》 CSCD 北大核心 2017年第1期62-66,共5页
通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上... 通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上进行分类的适用性及影响分类性能的原因。结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。对于学术文献类型的语料,使用二元分词法时的分类效果较好,F1值均在80%以上;而网页类型的语料对于各种分词法的适应性更强。尝试通过对语料进行信息度量而非单纯的实验来选择提高该语料分类性能的最佳分词方法,以期为网页和学术文献等不同类型的文本在基于LDA模型的分类系统中选择合适的中文分词方法提供参考。 展开更多
关键词 文本分类 LDA主题模型 语料度量 分词方法
下载PDF
基于主题相似性聚类的自适应文本分类 被引量:6
5
作者 康雁 杨其越 +4 位作者 李浩 梁文韬 李晋源 崔国荣 王沛尧 《计算机工程》 CAS CSCD 北大核心 2020年第3期93-98,共6页
传统的文本分类方法仅使用一种模型进行分类,容易忽略不同类别特征词出现交叉的情况,影响分类性能。为提高文本分类的准确率,提出基于主题相似性聚类的文本分类算法。通过CHI和WordCount相结合的方法提取类特征词,利用K-means算法进行... 传统的文本分类方法仅使用一种模型进行分类,容易忽略不同类别特征词出现交叉的情况,影响分类性能。为提高文本分类的准确率,提出基于主题相似性聚类的文本分类算法。通过CHI和WordCount相结合的方法提取类特征词,利用K-means算法进行聚类并提取簇特征词构成簇特征词库。在此基础上,通过Adaptive Strategy算法自适应地选择fasttext、TextCNN或RCNN模型进行分类,得到最终分类结果。在AG News数据集上的实验结果表明,该算法可较好地解决不同类别特征词交叉的问题,与单独使用的fasttext、TextCNN、RCNN模型相比,其文本分类性能显著提升。 展开更多
关键词 文本分类 CHI方法 特征提取 K-MEANS算法 自适应算法
下载PDF
数字人文范式下机器学习文本分类应用于翻译研究的路径探索——以翻译汉语句法特征研究为例
6
作者 钟书能 杨立汝 《上海交通大学学报(哲学社会科学版)》 北大核心 2024年第8期1-17,共17页
文本分类等大数据挖掘技术的应用是数字人文范式下翻译研究的主要特征之一。翻译语言特征研究是翻译研究的基础领域。本研究提出机器学习文本分类应用于翻译语言特征研究的“五步法”研究路径,包含文本分类数据远观、贡献度排序特征中... 文本分类等大数据挖掘技术的应用是数字人文范式下翻译研究的主要特征之一。翻译语言特征研究是翻译研究的基础领域。本研究提出机器学习文本分类应用于翻译语言特征研究的“五步法”研究路径,包含文本分类数据远观、贡献度排序特征中观、随机选择文本细读、语言规律总结和规律成因阐释等五个步骤。本研究依循该路径考察了翻译汉语的句法特征,发现翻译汉语相比原创汉语的最显著特征是数词在“数词+作名词的量词”表名词短语、习语、“数词+量词+名词”表模糊义等范畴边缘成员上的负使用,其认知成因在于译者倾向于忽略语义网络中突显程度较低的范畴边缘成员。案例研究表明,引入机器学习文本分类算法能够提升语言宏观描写层面的全面性、客观性与科学性,基于数据结论随机选择文本开展语例细读则有助于深入挖掘形式数据背后隐含的更细颗粒度的语言规律。本研究旨在为数字人文范式下的翻译研究提供新的方法与思路。 展开更多
关键词 数字人文 机器学习 文本分类 翻译语言特征研究 五步法
下载PDF
文本分类中特征预抽取方法研究 被引量:5
7
作者 郑伟 吕建新 张建伟 《情报科学》 CSSCI 北大核心 2011年第1期86-88,92,共4页
在文本分类中,特征抽取是一项很重要的工作,抽取到的特征项质量的好坏直接影响到分类的效果。在研究了文本分类中常用的文本特征词预抽取方法的基础上,提出了一种基于词性选择的特征预抽取方法,结合IG方法进行特征抽取。在分类实验中实... 在文本分类中,特征抽取是一项很重要的工作,抽取到的特征项质量的好坏直接影响到分类的效果。在研究了文本分类中常用的文本特征词预抽取方法的基础上,提出了一种基于词性选择的特征预抽取方法,结合IG方法进行特征抽取。在分类实验中实验结果显示,这种基于词性的特征预抽取方法在分类过程中可以在不降低分类精度的同时可以减少特征维数和训练时间。 展开更多
关键词 文本分类 特征 抽取方法
原文传递
政府网站开放公文主题分类自动标注方法 被引量:4
8
作者 卢小宾 鲁国轩 +1 位作者 杨冠灿 祁天娇 《档案学通讯》 CSSCI 北大核心 2022年第5期19-27,共9页
当前,政府从各层面采取了一系列措施推进政务信息公开,已经取得了阶段性成果。实践工作中,政府网站平台发布的开放公文缺少主题分类、标注不一致间题成为阻碍政务信息开放利用的技术瓶颈。如何精准地、一致地对现有政府平台的海量政务... 当前,政府从各层面采取了一系列措施推进政务信息公开,已经取得了阶段性成果。实践工作中,政府网站平台发布的开放公文缺少主题分类、标注不一致间题成为阻碍政务信息开放利用的技术瓶颈。如何精准地、一致地对现有政府平台的海量政务公文进行主题分类标注,使其能为深度检索、推荐服务提供支撑,是函待解决的关键问题。在深入调研的基础上,一套自动化的针对政府开放公文的主题分类方法被提出,该方法以CNN-LSTM模型为基础,融合预训练BERT模型的语义特征,能精准的对政府开放公文进行主题分类。模型针对主题分类预测的整体准确度(Accuracy)为63.52%,最佳的F1-value可达到63.59%,为解决政务公文主题分类标注缺失问题提供了可行方案。该方法可以与信息检索、推荐结合,为公众提供更具精准度的政府公文服务。 展开更多
关键词 政策文本 主题分类 预训练BERT模型 标注方法
原文传递
基于文本倾向性分类技术的图书评价模型 被引量:3
9
作者 邓忠莹 严馨 +2 位作者 周历生 王卫东 常彦峰 《昆明理工大学学报(理工版)》 北大核心 2009年第4期121-124,共4页
介绍了文本分类技术和文本倾向性分类技术,并基于文本倾向性分类技术分析了图书评论中的信息,研究如何将机器学习方法应用在图书评论的倾向性分类中,提出了一种图书评价模型构建的解决方法.
关键词 文本分类 文本倾向性分类 图书评价 机器学习方法
下载PDF
面向电力客户投诉信息的短文本分类算法的改进技术 被引量:3
10
作者 吴艾薇 雷景生 《上海电力学院学报》 CAS 2017年第6期597-600,共4页
针对电力客户投诉信息进行短文本分类,介绍了K近邻(KNN)算法和中心向量算法,并针对KNN分类算法的某些缺陷作了相关改进,主要加入了中心向量法的思想.对改良后的KNN算法、中心向量算法和传统的KNN算法进行了实验比较,结果发现,相比传统的... 针对电力客户投诉信息进行短文本分类,介绍了K近邻(KNN)算法和中心向量算法,并针对KNN分类算法的某些缺陷作了相关改进,主要加入了中心向量法的思想.对改良后的KNN算法、中心向量算法和传统的KNN算法进行了实验比较,结果发现,相比传统的KNN算法,改良后的新方案能更好地运用在电力客户投诉信息的分类操作上. 展开更多
关键词 文本分类 中心向量法 K近邻算法 相似度
下载PDF
一种新的监督潜在语义模型 被引量:1
11
作者 廖一星 《计算机工程与应用》 CSCD 北大核心 2009年第33期117-119,共3页
Sprinkling方法是一种集成了训练样本类别信息的监督潜在语义模型。但是该方法特征权重采用词频,降低了文本分类效果,同时该模型并没有考虑不同样本对分类的贡献能力,而是认为样本对分类的贡献相同,另外,该模型采用多个特征映射一个类... Sprinkling方法是一种集成了训练样本类别信息的监督潜在语义模型。但是该方法特征权重采用词频,降低了文本分类效果,同时该模型并没有考虑不同样本对分类的贡献能力,而是认为样本对分类的贡献相同,另外,该模型采用多个特征映射一个类别来加强类别知识对分类的贡献。为此,文章在Sprinkling方法的基础上提出了一种新的监督潜在语义模型。实验结果表明,该文方法的总体性能优于原始的Sprinkling方法,在特征数为1100时,获得了最高分类精度,提高幅度达到1.71%。 展开更多
关键词 文本分类 潜在语义 sprinkling方法
下载PDF
面向图书主题分类的随机森林算法的应用研究 被引量:2
12
作者 孙彦雄 李业丽 边玉宁 《计算机技术与发展》 2020年第6期65-70,共6页
针对传统随机森林算法对文本特征提取质量不高导致分类效果差的问题,提出一种对图书等大数据量文本信息文本的改进的随机森林算法。又由于传统随机森林决策树质量难以保证,提出一种加权投票提高决策树质量的机制。算法主要由两方面组成... 针对传统随机森林算法对文本特征提取质量不高导致分类效果差的问题,提出一种对图书等大数据量文本信息文本的改进的随机森林算法。又由于传统随机森林决策树质量难以保证,提出一种加权投票提高决策树质量的机制。算法主要由两方面组成,一方面是基于文本主题特征提取的Tr-K方法,目的是提高文本主题特征的质量与代表性;另一方面是基于bootstrap抽样时遗留的1/3袋外数据提出的验证机制。文中采用的是20 Newsgroups数据集和来自于搜狗实验室提供的中文分类语料库,中英文两种数据集充分考虑了该模型的泛化性,并在实验中验证了不同数据集下较传统随机森林算法拥有更优秀的分类能力。Python环境下的实验数据表明,该方法在文本分类中相对于C4.5、KNN、SVM、原始随机森林算法可以取得更好的结果。 展开更多
关键词 图书文本分类 随机森林 Tr-K方法 TRk-SW-RF模型 主题分类 决策树
下载PDF
一种基于概率推理的邮件过滤系统的研究与设计 被引量:1
13
作者 汤伟 程家兴 纪霞 《计算机技术与发展》 2008年第8期76-79,共4页
分类问题是机器学习与数据挖掘研究中最重要的问题之一,其中文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。设计了一种基于贝叶斯概率推理方法的垃圾邮件过滤系统。它用概率测试的权... 分类问题是机器学习与数据挖掘研究中最重要的问题之一,其中文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。设计了一种基于贝叶斯概率推理方法的垃圾邮件过滤系统。它用概率测试的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题。作为互联网的第一大应用,电子邮件一直受到广大网民的青睐,但近些年来,垃圾邮件问题日益严重。将上述研究的结果应用到目前互联网上垃圾邮件的过滤工作中,实验证明了方法的有效性。 展开更多
关键词 机器学习 文本分类 垃圾邮件 贝叶斯方法
下载PDF
基于推拉策略的文本分类增量学习研究 被引量:1
14
作者 罗长升 段建国 郭莉 《中文信息学报》 CSCD 北大核心 2008年第1期37-43,共7页
学习算法是否具有增量学习能力是衡量其是否适合于解决现实问题的一个重要方面。增量学习使学习算法的时间和空间资源消耗保持在可以管理和控制的水平,已被广泛应用于解决大规模数据集问题。针对文本分类问题,本文提出了增量学习算法的... 学习算法是否具有增量学习能力是衡量其是否适合于解决现实问题的一个重要方面。增量学习使学习算法的时间和空间资源消耗保持在可以管理和控制的水平,已被广泛应用于解决大规模数据集问题。针对文本分类问题,本文提出了增量学习算法的一般性问题。基于推拉策略的基本思想,本文提出了文本分类的增量学习算法ICCDP,并使用该算法对提出的一般性问题进行了分析。实验表明,该算法训练速度快,分类精度高,具有较高的实用价值。 展开更多
关键词 计算机应用 中文信息处理 增量学习 推拉策略 文本分类 中心法
下载PDF
结合概率型神经网络(PNN)和学习矢量量化(LVQ)算法的文本分类方法 被引量:2
15
作者 李敏 余正涛 《计算机系统应用》 2012年第10期81-85,共5页
针对文本自动分类问题,提出一种基于概率型神经网络(PNN)和学习矢量量化(LVQ)相结合的文本分类算法,该方法借助TFIDF方法提取文本特征及特征值,形成文本分类特征向量,利用概率型神经网络构建分类模型,并利用LVQ学习算法对神经网络模型... 针对文本自动分类问题,提出一种基于概率型神经网络(PNN)和学习矢量量化(LVQ)相结合的文本分类算法,该方法借助TFIDF方法提取文本特征及特征值,形成文本分类特征向量,利用概率型神经网络构建分类模型,并利用LVQ学习算法对神经网络模型竞争层网络进行学习,使相应模式向量相互靠拢,远离其他模式,从而实现文本分类.实验结果表明,提出的该方法在文本分类中表现了很好的效果,不仅具有很好的分类准确率,还表现出很好的学习效率. 展开更多
关键词 文本分类 概率型神经网络 LVQ学习算法 特征提取
下载PDF
一种面向教学的知识点库自动生成方法 被引量:2
16
作者 冯筠 李刚 +1 位作者 孙霞 冯宏伟 《计算机工程》 CAS CSCD 2012年第2期201-203,206,共4页
为解决实际教学过程中教学内容较多的问题,提出面向教学的知识点定义,在基于切分单元的最大匹配算法基础上,结合优化规则进行知识点提取。在知识点的关系提取中,使用关联规则和混合分类方法,用于提高知识点关系提取的正确率。利用获得... 为解决实际教学过程中教学内容较多的问题,提出面向教学的知识点定义,在基于切分单元的最大匹配算法基础上,结合优化规则进行知识点提取。在知识点的关系提取中,使用关联规则和混合分类方法,用于提高知识点关系提取的正确率。利用获得的知识点及其关系,建立面向教学内容的知识结构图。实验结果表明,该方法适用于中文知识点关系的提取。 展开更多
关键词 知识点 关联规则 计算机辅助教学 关系提取 文本分词 混合分类方法
下载PDF
复杂文本多标签分类算法的设计与仿真 被引量:1
17
作者 李楚贞 吴新玲 余育文 《计算机仿真》 北大核心 2022年第5期299-303,共5页
由于已有算法未能通过卷积神经网络进行分类,导致分类结果不准确,分类复杂度提升,容错率下降。结合卷积神经网络,提出一种新的复杂文本多标签分类算法。首先在训练样本集中通过Bootstrap方法进行样本抽取,利用特征选择算法对抽取的特征... 由于已有算法未能通过卷积神经网络进行分类,导致分类结果不准确,分类复杂度提升,容错率下降。结合卷积神经网络,提出一种新的复杂文本多标签分类算法。首先在训练样本集中通过Bootstrap方法进行样本抽取,利用特征选择算法对抽取的特征进行评价。采用投票方法确定评价结果的特征权重,通过特征权重完成特征选择。然后,利用Word2vec工具将复杂文本特征提取结果转换为词向量,同时将句子整理为向量矩阵的形式。利用粒子群算法对卷积神经网络模型进行优化,进而实现复杂文本多标签分类。最终进行仿真测试,结果表明所提算法能够获取高精度的分类结果,降低分类复杂度,提升容错率。 展开更多
关键词 卷积神经网络 复杂文本 多标签分类
下载PDF
基于改进LDA模型的信息安全事件提取算法 被引量:1
18
作者 吴君戈 张笑笑 +1 位作者 邹春明 宋好好 《网络空间安全》 2020年第12期87-92,共6页
随着社会信息化的飞速发展,信息在人们生活中开始扮演举足轻重的作用。信息化的普及也带来了愈发严重的信息安全问题,使得信息安全事件成为公众关注的热点话题。然而,信息安全事件经常被海量的新闻事件所淹没,导致研究人员难以快速定位... 随着社会信息化的飞速发展,信息在人们生活中开始扮演举足轻重的作用。信息化的普及也带来了愈发严重的信息安全问题,使得信息安全事件成为公众关注的热点话题。然而,信息安全事件经常被海量的新闻事件所淹没,导致研究人员难以快速定位,从而提出了针对性的防范措施。为了解决此问题,基于对传统LDA模型的研究,提出了一种改进的LDA模型,通过对LDA模型的主题数确定指标进行改进,提高了信息安全事件的分类效果和准确性。仿真结果表明,所提信息安全事件提取方法,较之传统文本分类方法具有更好的分类性能。 展开更多
关键词 信息安全 LDA模型 主题数确定指标 文本分类
下载PDF
文本分类中特征项权重算法的改进 被引量:1
19
作者 卢志翔 蒙丽莉 《柳州师专学报》 2011年第4期128-131,共4页
TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率和准确率都优于改进前TFIDF。
关键词 文本分类 特征项 权重计算 改进方法
下载PDF
基于粗糙集与改进KNN算法的文本分类方法的研究 被引量:1
20
作者 邵莉 《计算机与现代化》 2012年第2期86-89,共4页
KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决相关问题,本文首先利用粗糙... KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决相关问题,本文首先利用粗糙集对高维文本信息进行属性约简,删除冗余属性,而后用改进的基于簇的KNN算法进行文本分类。通过仿真实验,证明该方法能够提高文本的分类精度和准确率。 展开更多
关键词 粗糙集 改进KNN 文本分类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部