期刊文献+
共找到90篇文章
< 1 2 5 >
每页显示 20 50 100
从纽马克的文本范畴理论看翻译标准的相对性和多重性 被引量:39
1
作者 辛献云 《解放军外国语学院学报》 北大核心 2001年第2期74-76,共3页
纽马克的文本范畴理论为翻译标准的研究提供了新的视点。不同类型的文本需要不同的翻译标准 ,表达型文本的翻译既要忠实原文的思想内容 ,又要忠实原文的语言风格 ;信息型文本的翻译要忠实原文的“真实性” ;
关键词 纽马克 文本范畴 翻译标准 表达型文本 信息型文本 号召型文本
下载PDF
基于TF-IDF和余弦相似度的文本分类方法 被引量:91
2
作者 武永亮 赵书良 +2 位作者 李长镜 魏娜娣 王子晏 《中文信息学报》 CSCD 北大核心 2017年第5期138-145,共8页
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习... 文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤:基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。 展开更多
关键词 文本分类 大数据 TF-IDF 余弦相似度 类别关键词
下载PDF
训练集类别分布对文本分类的影响 被引量:26
3
作者 张启蕊 张凌 +1 位作者 董守斌 谭景华 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1802-1805,共4页
为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程... 为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇。在复旦大学语料库上使用类别均衡法,分别用N a ve B ayes和R occh io方法分类,前者的宏平均F1从48.62%提高到了80.99%,后者的宏平均F1从64.58%提高到80.26%,微平均F1从73.99%提高到80.47%。实验结果显示,类别均衡法显著提高了分类性能。 展开更多
关键词 文本分类 训练集 类别均衡法
原文传递
基于规则的自动分类在文本分类中的应用 被引量:20
4
作者 李渝勤 孙丽华 《中文信息学报》 CSCD 北大核心 2004年第4期9-14,共6页
文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术 (k近邻分类器、支持向量机分类器和朴素贝叶斯分类器 ) ,剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的... 文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术 (k近邻分类器、支持向量机分类器和朴素贝叶斯分类器 ) ,剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的不足主要表现为 :当类别之间分类特征的交叉变大时 ,分类精度呈下降趋势 ,在多层分类的情况下 ,此局限尤为突出。针对此局限性 ,为了提高自动分类的精度 ,我们引入了基于规则的自动分类来对其进行改进和扩充 ,并整合两种自动分类技术的优点 ,设计出了混合分类器系统 。 展开更多
关键词 计算机应用 中文信息处理 文本挖掘 文本分类 规则分类
下载PDF
游客的目的地感知是如何形成的?——基于文本挖掘的探索性研究 被引量:28
5
作者 史达 张冰超 衣博文 《旅游学刊》 CSSCI 北大核心 2022年第3期68-82,共15页
游客感知是旅游目的地管理的重要研究领域。以往研究多基于扎根理论对素材进行人工编码并归纳出范畴,或以对中介变量的假设检验来讨论其形成机制。文章以大连市5家著名景区的10万余条游客评论为资料来源,首先根据游客评分,对评论文本进... 游客感知是旅游目的地管理的重要研究领域。以往研究多基于扎根理论对素材进行人工编码并归纳出范畴,或以对中介变量的假设检验来讨论其形成机制。文章以大连市5家著名景区的10万余条游客评论为资料来源,首先根据游客评分,对评论文本进行正负情感维度划分;然后以TF-IDF和TextRank两种算法对景区游客文本评论抽取关键词,并遵循诠释性研究的范式,提炼出游客正负感知的子范畴和关键范畴;随后,利用LDA主题模型方法测算出上述游客正负感知范畴的权重次序。在此基础上,最终梳理出游客目的地感知形成过程的故事线。研究结果表明:(1)游客感知的表征因素、效用因素、结构因素和特征因素等范畴内蕴含着复杂的正负情感双重维度,并呈现出动态演变的特征。(2)游客感知范畴内的正负情感主题具有显著的差异性。(3)游客正负感知之间的转换和调整,动态演绎出游客对目的地的最终认知与情感。文章建构了游客的目的地感知形成的动态过程,拓展了情感细粒度在游客感知理论的深度,同时拓宽了游客感知理论研究方法的边界。 展开更多
关键词 游客感知 文本挖掘 质性分析 感知范畴
下载PDF
基于句类特征的作者写作风格分类研究 被引量:19
6
作者 张运良 朱礼军 +1 位作者 乔晓东 张全 《计算机工程与应用》 CSCD 北大核心 2009年第22期129-131,223,共4页
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用it... 不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。 展开更多
关键词 文本分类 作者写作风格 句类 向量空间模型 概念层次网络(HNC)理论 自然语言理解
下载PDF
大规模层次分类中的候选类别搜索 被引量:19
7
作者 何力 丁兆云 +1 位作者 贾焰 韩伟红 《计算机学报》 EI CSCD 北大核心 2014年第1期41-49,共9页
大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,... 大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.因为类别层次规模巨大,通常可以达到数千甚至数万个类别,严重影响了分类性能.对此,已有研究通过搜索待分类文档在类别层次中的候选类别对文档进行分类,但结果表明候选类别搜索成为了其中瓶颈.文中首先对候选搜索问题的计算复杂性进行了分析,证明了该问题是NP难的,接下来提出了一个基于贪心策略的启发式候选搜索算法,并且证明了该贪心策略在求解过程中是一个局部最优选择.作者采用DMOZ目录中的简体中文网页数据进行了实验论证,实验结果显示,相比已有算法,文中提出的候选类别搜索算法在候选类别搜索的准确率上提高了大约7.5%. 展开更多
关键词 文本分类 大规模层次分类 类别层次 候选类别 候选搜索问题 社交网络
下载PDF
基于维基百科类别的文本特征表示 被引量:16
8
作者 王锦 王会珍 张俐 《中文信息学报》 CSCD 北大核心 2011年第2期27-31,共5页
该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百... 该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,该文提出了一种基于全局信息自学习维基百科类别的方法。该文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在当特征数量较少时(如:<700),分类的F1值提高了5.14%。 展开更多
关键词 文本分类 维基百科类别 文本表示
下载PDF
中文文本的可视化表示 被引量:7
9
作者 林鸿飞 高天 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2000年第5期501-504,共4页
由于辅助阅读的需求 ,给出了中文文本的可视化表示 ,以直观的方式逐级显示文本内容·其基本思想是 :利用潜在语义索引的方法 ,改进文本分类的效果·利用文本层次分析方法 ,进行文本结构分解 ,给出了文本结构中各单元的标记信息 ... 由于辅助阅读的需求 ,给出了中文文本的可视化表示 ,以直观的方式逐级显示文本内容·其基本思想是 :利用潜在语义索引的方法 ,改进文本分类的效果·利用文本层次分析方法 ,进行文本结构分解 ,给出了文本结构中各单元的标记信息 ,由此形成了文本的可视化表示·利用文本类别、文本主题、层次、段落的超文本连接和特征项的导航功能 ,帮助用户有目的、有选择地浏览文本 。 展开更多
关键词 文本层次分析 文本可视化表示 向量空间模型 文本分类 潜在语义索引
下载PDF
文本类型翻译理论与翻译标准的再讨论 被引量:10
10
作者 陈婧 《宜宾学院学报》 2005年第1期103-105,共3页
不同类型的文本需要不同的翻译标准 ,表达型文本的翻译既要忠实原文的思想内容 ,又要忠实原文的语言风格 ;信息型文本的翻译要忠实原文的“真实性” ;号召型文本的翻译则要忠实于读者的反应。
关键词 纽马克 文本范畴 翻译标准 表达型文本 信息型文本 号召型文本
下载PDF
基于概念的中文文本可视化表示机制
11
作者 林鸿飞 姚天顺 《小型微型计算机系统》 EI CSCD 北大核心 2000年第10期1042-1045,共4页
为了浏览因特网上日益增多的在线中文文本 ,本文给出了基于概念的中文文本可视化表示机制 ,以直观的方式组织和表示文本及文本集 .其基本思想是 :首先在概念扩充的基础上 ,进行文本分类 .然后 ,利用本文提出的文本特征抽取方法和摘要方... 为了浏览因特网上日益增多的在线中文文本 ,本文给出了基于概念的中文文本可视化表示机制 ,以直观的方式组织和表示文本及文本集 .其基本思想是 :首先在概念扩充的基础上 ,进行文本分类 .然后 ,利用本文提出的文本特征抽取方法和摘要方法 ,获取文本类别、文本、文本正文的标记信息 ,通过类别、文本、正文的超文本连接 ,帮助用户有目的、有选择地浏览文本 . 展开更多
关键词 中文文本可视化 概念 信息处理 文本分类
下载PDF
基于类别关键词的突发事件新闻文本分类方法 被引量:11
12
作者 张永奎 李红娟 《计算机应用》 CSCD 北大核心 2008年第B06期139-140,143,共3页
对突发事件新闻领域的文本自动分类问题进行了研究,提出了一种基于类别关键词的分类方法。在应用向量空间模型的基础上,充分考虑了类别关键词对于文本分类的特殊作用,并进行了实验。实验结果表明,加入类别关键词后,文本分类的精度有较... 对突发事件新闻领域的文本自动分类问题进行了研究,提出了一种基于类别关键词的分类方法。在应用向量空间模型的基础上,充分考虑了类别关键词对于文本分类的特殊作用,并进行了实验。实验结果表明,加入类别关键词后,文本分类的精度有较大的提高,该方法具有一定的实用价值。 展开更多
关键词 文本分类 类别关键词 向量空间模型 突发事件新闻
下载PDF
基于类别加权和方差统计的特征选择方法 被引量:11
13
作者 冀俊忠 吴金源 +1 位作者 吴晨生 杜芳华 《北京工业大学学报》 CAS CSCD 北大核心 2014年第10期1593-1602,共10页
为提高不均衡文本分类的准确率和稳定性,提出了一种基于类别加权和方差统计的联合特征选择方法.首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征;其次,在探究特征类别区分能力的基础上,设计了类别... 为提高不均衡文本分类的准确率和稳定性,提出了一种基于类别加权和方差统计的联合特征选择方法.首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征;其次,在探究特征类别区分能力的基础上,设计了类别方差统计策略来凸显含有丰富类别信息的特征;最后,将2种策略相融合,实现了一种联合特征选择的新算法.在Reuters-21578和复旦大学语料这2个不均衡语料上的实验都表明:该算法有效,特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法. 展开更多
关键词 文本分类 不均衡数据集 特征选择方法 类别加权 方差统计
下载PDF
基于句类向量空间模型的自动文本分类研究 被引量:6
14
作者 张运良 张全 《计算机工程》 CAS CSCD 北大核心 2007年第22期45-47,共3页
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,... 向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。 展开更多
关键词 文本分类 句类 向量空间模型 HNC理论
下载PDF
采用类别相似度聚合的关联文本分类方法 被引量:8
15
作者 田丰 桂小林 +2 位作者 杨攀 王刚 郭岳龙 《西安交通大学学报》 EI CAS CSCD 北大核心 2012年第12期6-11,122,共7页
针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则... 针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内. 展开更多
关键词 文本分类 关联规则 类别相似度 聚合
下载PDF
基于深度金字塔卷积神经网络的ChatGPT生成文本检测方法 被引量:1
16
作者 范志武 姚金良 《数据分析与知识发现》 EI CSCD 北大核心 2024年第7期14-22,共9页
【目的】为了防止ChatGPT被滥用,本文研究了一种中文情景下的ChatGPT生成文本(AI生成文本)检测方法。【方法】采用Prompt提示的方式,构建三个不同种类的中文数据集。在这三个数据集上进行模型训练和测试,并从模型类型、文本类型和文本... 【目的】为了防止ChatGPT被滥用,本文研究了一种中文情景下的ChatGPT生成文本(AI生成文本)检测方法。【方法】采用Prompt提示的方式,构建三个不同种类的中文数据集。在这三个数据集上进行模型训练和测试,并从模型类型、文本类型和文本长度等维度,找到一种最优的AI生成文本检测方法。【结果】首先,通过多种方法对比,基于深度金字塔卷积神经网络的文本分类方法在测试集上准确率达到0.9655,优于其他方法;其次,经过测试,DPCNN模型具备良好的跨类别能力;最后,不同的文本长度对于模型的准确率具有直接影响。【局限】以Prompt提示方式生成的中文数据集具有类别上的局限性,本文只构建了三种类别的数据集,并在此数据集上进行模型训练,然而现实中的文本类型是多样的。【结论】本文提出一种中文情景下的AI生成文本检测方法,其准确率受到文本类型和文本长度的影响。 展开更多
关键词 ChatGPT 文本识别 DPCNN 跨类别
原文传递
汉语意见型主观性文本类型体系的研究 被引量:3
17
作者 刘全升 姚天昉 +2 位作者 黄高辉 刘军 宋鸿彦 《中文信息学报》 CSCD 北大核心 2008年第6期63-68,共6页
主观性文本是一种描述个人想法、情感和意见等的非约束性文本。它与主要描述以事实为主的客观性文本在内容和结构上有很大的不同。意见型文本是包含有意见元素(意见持有者、意见陈述范围、意见主题和意见情感)的一种主观性文本,它大量... 主观性文本是一种描述个人想法、情感和意见等的非约束性文本。它与主要描述以事实为主的客观性文本在内容和结构上有很大的不同。意见型文本是包含有意见元素(意见持有者、意见陈述范围、意见主题和意见情感)的一种主观性文本,它大量出现在网上的电子公告板、论坛和博客等媒介中,受到广泛的关注,并成为研究意见挖掘方法和技术的语料。该文介绍了主观性文本的定义及其与客观性文本的差异,同时着重讨论了意见型文本的定义、特点、类型体系及其在意见挖掘技术中的应用。 展开更多
关键词 计算机应用 中文信息处理 主观性文本 类型体系 意见挖掘
下载PDF
CRD-CGAN:category-consistent and relativistic constraints for diverse text-to-image generation
18
作者 Tao HU Chengjiang LONG Chunxia XIAO 《Frontiers of Computer Science》 SCIE EI CSCD 2024年第1期61-75,共15页
Generating photo-realistic images from a text description is a challenging problem in computer vision.Previous works have shown promising performance to generate synthetic images conditional on text by Generative Adve... Generating photo-realistic images from a text description is a challenging problem in computer vision.Previous works have shown promising performance to generate synthetic images conditional on text by Generative Adversarial Networks(GANs).In this paper,we focus on the category-consistent and relativistic diverse constraints to optimize the diversity of synthetic images.Based on those constraints,a category-consistent and relativistic diverse conditional GAN(CRD-CGAN)is proposed to synthesize K photo-realistic images simultaneously.We use the attention loss and diversity loss to improve the sensitivity of the GAN to word attention and noises.Then,we employ the relativistic conditional loss to estimate the probability of relatively real or fake for synthetic images,which can improve the performance of basic conditional loss.Finally,we introduce a category-consistent loss to alleviate the over-category issues between K synthetic images.We evaluate our approach using the Caltech-UCSD Birds-200-2011,Oxford 102 flower and MS COCO 2014 datasets,and the extensive experiments demonstrate superiority of the proposed method in comparison with state-of-the-art methods in terms of photorealistic and diversity of the generated synthetic images. 展开更多
关键词 text-to-image diverse conditional GAN relativi-stic category-consistent
原文传递
文本阅读中空间距离的心理表征 被引量:6
19
作者 闫秀梅 莫雷 +1 位作者 伍丽梅 张积家 《心理学报》 CSSCI CSCD 北大核心 2007年第4期602-610,共9页
采用学习探测模式和回指解决相结合的研究范式,探讨情境模型中空间距离的心理表征问题。实验1分离几何距离和类别距离,探讨类别距离对回指解决的影响。结果表明,在控制几何距离的条件下,读者采用由房间数目体现的类别距离信息建构情境模... 采用学习探测模式和回指解决相结合的研究范式,探讨情境模型中空间距离的心理表征问题。实验1分离几何距离和类别距离,探讨类别距离对回指解决的影响。结果表明,在控制几何距离的条件下,读者采用由房间数目体现的类别距离信息建构情境模型;实验2进一步探讨几何距离的作用,结果发现,类别距离信息相同的条件下,读者在情境模型中表征几何距离信息。研究表明,类别距离和几何距离分别对空间情境模型的回指解决产生独立影响。 展开更多
关键词 文本阅读 回指解决 类别距离 几何距离 情境模型.
下载PDF
纽马克文本功能指导下的翻译策略——以旅游广告文本翻译为例 被引量:5
20
作者 胡天赋 周弘 《南阳师范学院学报》 CAS 2008年第10期81-83,共3页
纽马克的文本范畴理论为翻译实践标准提供了新的视角,不同的文本需要不同的翻译标准。文章从纽马克的文本范畴理论入手,探讨在文本功能指导下的翻译策略,并以具体的旅游广告文本翻译为例,采用交际翻译法详细说明文本功能的指导实践意义。
关键词 文本范畴 文本功能 旅游广告 交际翻译法
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部