期刊文献+
共找到192篇文章
< 1 2 10 >
每页显示 20 50 100
面向数字人文研究的大规模古籍文本可视化分析与挖掘 被引量:106
1
作者 欧阳剑 《中国图书馆学报》 CSSCI 北大核心 2016年第2期66-80,共15页
传统的古籍开发与应用模式已难以适应人文学科研究的需要,人文学科研究者期待一个技术逻辑和人文逻辑相耦合的数字人文研究范式的出现。本文从古籍文献深层次开发与利用出发,利用新的信息技术与面向数字人文研究跨学科方法,以大规模中... 传统的古籍开发与应用模式已难以适应人文学科研究的需要,人文学科研究者期待一个技术逻辑和人文逻辑相耦合的数字人文研究范式的出现。本文从古籍文献深层次开发与利用出发,利用新的信息技术与面向数字人文研究跨学科方法,以大规模中国古籍文本为研究对象,采用大数据研究理念,对古籍进行整理、标注、自动分词等处理,以词频分析统计为研究核心,采用数据降噪、基于窗口时间单位的统计分析计算、滑动窗口预测等分析与挖掘方法,采用大数据实时分析技术,实现了实时、在线、立体、可视化、定量分析字词的历史词频分布规律,创建了一个以语言学、历史文献学、历史地理学等人文学科研究为主的古籍实时统计分析平台,可辅助研究者在大量的古籍文献中发现新的模式、现象、趋势等,实现古籍开发与应用模式创新的初步尝试。图11。参考文献36。 展开更多
关键词 数字人文 文本可视化 数据挖掘 古籍文献
下载PDF
文本挖掘、数据挖掘和知识管理——二十一世纪的智能信息处理 被引量:63
2
作者 韩客松 王永成 《情报学报》 CSSCI 北大核心 2001年第1期100-104,共5页
本文首先介绍了数据挖掘、文本挖掘和知识管理等概念 ,然后从技术角度出发 ,将知识管理划分为知识库、知识共享和知识发现三个阶段 ,分析了作为最高阶段的知识发现的关键技术和意义 。
关键词 文本挖掘 数据挖掘 知识管理 知识发现 智能信息处理 搜索引擎 挖掘引擎
下载PDF
文本挖掘技术研究 被引量:63
3
作者 薛为民 陆玉昌 《北京联合大学学报》 CAS 2005年第4期59-63,共5页
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛。对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技... 文本挖掘是数据挖掘的重要内容之一,其应用十分广泛。对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望。 展开更多
关键词 文本挖掘 数据挖掘 WEB文本挖掘 文本挖掘模型
下载PDF
文本分类技术研究 被引量:36
4
作者 高洁 吉根林 《计算机应用研究》 CSCD 北大核心 2004年第7期28-30,34,共4页
对文本分类技术进行研究 ,介绍文本分类的基本过程 ,论述文本特征提取方法 ,讨论朴素贝叶斯、K 近邻、支持向量机、投票等常用的文本分类原理与方法 。
关键词 文本分类 文本模型 数据挖掘
下载PDF
文本挖掘及其关键技术与方法 被引量:42
5
作者 王丽坤 王宏 陆玉昌 《计算机科学》 CSCD 北大核心 2002年第12期12-19,共8页
With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis mar... With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis marvelously emerging and plays an important role in interrelated fields. So it is worth summarizing the contentabout text mining from its definition to relational methods and techniques. In this paper, combined to comparativelymature data mining technology, we present the definition of text mining and the multi-stage text mining process mod-el. Moreover, this paper roundly introduces the key areas of text mining and some of the powerful text analysis tech-niques, including: Word Automatic Segmenting, Feature Representation, Feature Extraction, Text Categorization,Text Clustering, Text Summarization, Information Extraction, Pattern Quality Evaluation, etc. These techniquescover the whole process from information preprocessing to knowledge obtaining. 展开更多
关键词 文本挖掘 数据挖掘 知识发现 数据处理 数据库
下载PDF
文本挖掘与中文文本挖掘模型研究 被引量:50
6
作者 谌志群 张国煊 《情报科学》 CSSCI 北大核心 2007年第7期1046-1051,共6页
文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析... 文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向。最后提出了一个统一的中文文本挖掘模型——UCT-MF。该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架。 展开更多
关键词 文本挖掘 数据挖掘 中文文本挖掘模型 中文信息处理
下载PDF
文本挖掘研究进展 被引量:49
7
作者 谌志群 张国煊 《模式识别与人工智能》 EI CSCD 北大核心 2005年第1期65-74,共10页
文本挖掘又称为文本数据挖掘或文本知识发现,是指在大规模文本集合中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先介绍了文本挖掘的概念,包括文本挖掘的定义、特点、与其它几个研究领域(数据挖掘、信息检索、信息抽取、计... 文本挖掘又称为文本数据挖掘或文本知识发现,是指在大规模文本集合中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先介绍了文本挖掘的概念,包括文本挖掘的定义、特点、与其它几个研究领域(数据挖掘、信息检索、信息抽取、计算语言学等)的关系;然后讨论了文本挖掘模型、文本特征抽取与中间表示、文本挖掘的分类与实现技术;最后介绍了几个文本挖掘产品。 展开更多
关键词 文本挖掘 数据挖掘 文本知识发现 自然语言处理 关联规则 文本聚类 趋势分析
原文传递
互联网知道的更多么?——网络开源信息对资产定价的影响 被引量:47
8
作者 张永杰 张维 +1 位作者 金曦 熊熊 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2011年第4期577-586,共10页
随着互联网的不断发展,网络信息内容开始逐渐深入地影响投资者的投资行为,进而影响股票价格与市场资源配置功能发挥,采用基于搜索引擎的文本语义挖掘的算法获得了一组关于个股网络开源信息内容含量的数据,并据此研究了开源信息在资产定... 随着互联网的不断发展,网络信息内容开始逐渐深入地影响投资者的投资行为,进而影响股票价格与市场资源配置功能发挥,采用基于搜索引擎的文本语义挖掘的算法获得了一组关于个股网络开源信息内容含量的数据,并据此研究了开源信息在资产定价方面的影响,不断发展中的中文社会媒体已经开始蕴含对股票异常日收益率有显著解释力的有效的信息内容,甚至包含了交易量指标所未包含的有效信息内容,但是由于Internet还处于快速发展之中,开源信息内容指标对导常收益率的解释力随个股不同仍表现出较大差异. 展开更多
关键词 开源信息 网络 资产定价 股票价格 收益率 文本数据挖掘
原文传递
PageRank算法的分析及其改进 被引量:43
9
作者 王德广 周志刚 梁旭 《计算机工程》 CAS CSCD 北大核心 2010年第22期291-292,F0003,共3页
在分析PageRank算法存在偏重旧网页、主题漂移、网页权值均分、忽视用户浏览兴趣现象的基础上,对其进行改进,考虑网页修改日期、网页文本信息、网站权威度、用户兴趣度等重要因素,重新计算网页PR值。实验结果表明,改进算法可提高搜索引... 在分析PageRank算法存在偏重旧网页、主题漂移、网页权值均分、忽视用户浏览兴趣现象的基础上,对其进行改进,考虑网页修改日期、网页文本信息、网站权威度、用户兴趣度等重要因素,重新计算网页PR值。实验结果表明,改进算法可提高搜索引擎对网页排序的准确度,以及用户对检索结果的满意度。 展开更多
关键词 PAGERANK算法 搜索引擎 文本数据挖掘 PR值
下载PDF
元宇宙空间著作权合理使用制度的困境与出路——以转换性使用的界定与适用为视角 被引量:41
10
作者 袁锋 《东方法学》 CSSCI 北大核心 2022年第2期44-57,共14页
元宇宙本质上是对现实世界的虚拟化、数字化,围绕文本和数据挖掘、网络短视频、网络游戏直播等产生的新型著作权纠纷是元宇宙空间数字化利用作品的折射和反映。转换性使用理论成为解决这些问题的核心,但关键在于如何对转换性使用进行界... 元宇宙本质上是对现实世界的虚拟化、数字化,围绕文本和数据挖掘、网络短视频、网络游戏直播等产生的新型著作权纠纷是元宇宙空间数字化利用作品的折射和反映。转换性使用理论成为解决这些问题的核心,但关键在于如何对转换性使用进行界定和适用。转换性使用的本质内涵为"目的性转换"而非"内容性转换"。在转换性使用的界定中要考量以下因素:转换性使用是一种客观目的或功能的转换、"目的性转换"的两种类型、结合公共利益的实现来对转换程度进行判断、明晰转换性使用与原作市场的关系。我国法院在司法实践中可以结合著作权法第24条第(2)项和第(13)项的规定,对转换性使用规则进行本土化适用,以有效解决新技术环境下的著作权难题。 展开更多
关键词 元宇宙 转换性使用 文本和数据挖掘 短视频 游戏直播 目的性转换
下载PDF
文本知识发现:基于信息抽取的文本挖掘 被引量:32
11
作者 周雪忠 吴朝晖 《计算机科学》 CSCD 北大核心 2003年第1期63-66,共4页
1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数... 1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数据挖掘技术已相当成熟。因为除了结构化的数据之外,在数字化信息中更多地存在大量自由、非结构化或半结构化的文本信息如新闻文章、电子书本、电子图书馆藏、Web页面内容、Email、文档数据库等,显然手工处理需要花费大量的人力物力,并且具有不确定性。 展开更多
关键词 文本知识发现 信息抽取 文本挖掘 数据库 数据挖掘
下载PDF
大黄不同功效的古今用药规律分析 被引量:38
12
作者 陈嘉倩 陈艳琰 +3 位作者 唐于平 周桂生 尚尔鑫 段金廒 《中草药》 CAS CSCD 北大核心 2019年第6期1485-1492,共8页
基于文本数据挖掘研究,分析归纳大黄不同功效的古今用药规律。将中医方剂数据库中含有大黄的7 226首古方与《中国药典》2015年版和药智网中含有大黄的736条现代中成药处方信息分别进行筛选归纳,统计大黄在方剂中占比、制法、配伍药、功... 基于文本数据挖掘研究,分析归纳大黄不同功效的古今用药规律。将中医方剂数据库中含有大黄的7 226首古方与《中国药典》2015年版和药智网中含有大黄的736条现代中成药处方信息分别进行筛选归纳,统计大黄在方剂中占比、制法、配伍药、功效及所治疾病科属,探究大黄制法用法与功效、疾病科属间的联系。通过数据挖掘发现,除生用内服、最常用于治疗内科疾病外,大黄发挥"泻下攻积、清热泻火"作用时古代常水煎液内服,现多酒炙内服,还用于儿科;"凉血解毒"时古代常贴膏外用或水煎液内服,现多醇提内服,还用于外科;"逐瘀通经"时古方中以酒煎液或酒送服为主,现今以水煎液内服为主,较多用于妇科;"利湿退黄"时古代常水煎液内服,而现代以酒煎液或水酒共煎液居多,还用于儿科。古方中大黄多与甘草配伍而现代与黄芩配伍较多,在"逐瘀通经"中配伍药古方以当归、肉桂、木香为主,现代以芍药和干漆为主。这些研究结果为大黄的临床精准使用与相关药物创制提供了参考。 展开更多
关键词 大黄 文本数据挖掘 古今方剂 用药规律 配伍用药
原文传递
电力文本数据挖掘现状及挑战 被引量:33
13
作者 王慧芳 曹靖 罗麟 《浙江电力》 2019年第3期1-7,共7页
文本数据是电力大数据的重要组成部分,对其进行有效挖掘是智能电网深入、全面发展的需要。在目前已有研究成果的基础上,对电力领域文本数据挖掘的现状及挑战进行了深入剖析。首先分析了文本挖掘技术的发展过程及存在难题;接着重点分析... 文本数据是电力大数据的重要组成部分,对其进行有效挖掘是智能电网深入、全面发展的需要。在目前已有研究成果的基础上,对电力领域文本数据挖掘的现状及挑战进行了深入剖析。首先分析了文本挖掘技术的发展过程及存在难题;接着重点分析了电力文本数据挖掘的关键技术及其研究现状,包括文本预处理技术、文本表示方法以及数据挖掘方法;然后以电力设备缺陷文本为对象,介绍了文本挖掘技术在电力领域的应用,包括缺陷文本质量的提升与保证、缺陷文本严重程度自动分类、缺陷发生部件及程度的自动提取、缺陷文本检索、基于缺陷文本的电力设备健康状态评价等,可为其他类型电力文本的挖掘提供参考;最后,探讨了电力文本挖掘面临的挑战以及未来发展方向。 展开更多
关键词 电力大数据 文本数据 数据挖掘 自然语言处理 电力设备 缺陷文本
下载PDF
基于可视化数据挖掘的管理科学科技文本分析研究 被引量:23
14
作者 任智军 朱东华 荆雷 《科学学与科学技术管理》 CSSCI 北大核心 2006年第1期8-12,共5页
通过可视化数据挖掘方法的研究,使用数据挖掘和科技文本分析的方法,获取管理科学研究的新进展、新思想和新方法。综合评价、对比分析了国内外管理科学研究力量和能力水平的分布状况,对管理科学研究主体及资助主体决策活动有较强的支持作... 通过可视化数据挖掘方法的研究,使用数据挖掘和科技文本分析的方法,获取管理科学研究的新进展、新思想和新方法。综合评价、对比分析了国内外管理科学研究力量和能力水平的分布状况,对管理科学研究主体及资助主体决策活动有较强的支持作用,并对我国管理科学领域进行了实证分析。 展开更多
关键词 管理科学 数据挖掘 科技文本 可视化数据挖掘
下载PDF
疫情心理时空距离对公众情绪的影响研究——基于新冠肺炎疫期微博文本面板数据的计算分析 被引量:27
15
作者 张放 甘浩辰 《新闻界》 CSSCI 北大核心 2020年第6期39-49,共11页
流行性传染病危机发生时疫情信息如何影响公众情绪是一个兼具理论与现实意义的重要问题。解释水平理论认为,心理距离是影响解释水平也即社会认知的关键。以该理论为视角,挖掘新冠肺炎疫情初期甘肃、青海与西藏三个省级行政区微博文本形... 流行性传染病危机发生时疫情信息如何影响公众情绪是一个兼具理论与现实意义的重要问题。解释水平理论认为,心理距离是影响解释水平也即社会认知的关键。以该理论为视角,挖掘新冠肺炎疫情初期甘肃、青海与西藏三个省级行政区微博文本形成面板数据进行情感分析、词频分析及GLS、GMM估计模型分析发现:第一,在一定的地理概念范围内,疫情心理空间距离并不存在对公众情绪的固定影响;第二,由于启动效应与图式加工两种认知机制的共同作用,疫情心理时间距离的缩短会导致公众情绪变得更加负面,存在"情绪下沉效应";此外,特定时间出现的疫情相关新闻事件也会导致公众情绪产生相应的波动,存在"情绪脉冲效应"。 展开更多
关键词 疫情信息 公众情绪 心理距离 微博文本 数据挖掘
原文传递
大数据环境下文本和数据挖掘的版权例外研究——以欧盟《DSM版权指令》提案为视角 被引量:24
16
作者 唐思慧 《知识产权》 CSSCI 北大核心 2017年第10期109-116,共8页
大数据时代,文本和数据挖掘技术的广泛应用打破版权法构建的利益平衡机制,给我国著作权法带来了挑战,亟需调整。美国的应对是从默示许可转到无条件例外规则,而欧盟《DSM版权指令》提案以义务式的模式规定了"科学研究领域的文本和... 大数据时代,文本和数据挖掘技术的广泛应用打破版权法构建的利益平衡机制,给我国著作权法带来了挑战,亟需调整。美国的应对是从默示许可转到无条件例外规则,而欧盟《DSM版权指令》提案以义务式的模式规定了"科学研究领域的文本和数据挖掘"例外规则,对科研促进及对版权保护力度适中,值得借鉴。我国著作权法修改应制定"文本和数据挖掘合理使用规则",严格限制适用条件,重构利益平衡机制。 展开更多
关键词 大数据 文本和数据挖掘 版权例外 利益平衡
下载PDF
一种文本分类数据挖掘的技术 被引量:10
17
作者 杨斌 孟志青 《湘潭大学自然科学学报》 CAS CSCD 2001年第4期34-37,共4页
挖掘的理论和应用研究是数据挖掘领域一个新的重要分支 ,介绍了一种文本数据挖掘方法 .首先 ,论述了文本挖掘的意义和重要性 ,探讨了文本挖掘的定义和文本分类的一些形式 ,然后讨论了一个以数据预处理、特征提取、特征表示和特征匹配等... 挖掘的理论和应用研究是数据挖掘领域一个新的重要分支 ,介绍了一种文本数据挖掘方法 .首先 ,论述了文本挖掘的意义和重要性 ,探讨了文本挖掘的定义和文本分类的一些形式 ,然后讨论了一个以数据预处理、特征提取、特征表示和特征匹配等文本分类的一些关键理论问题 ,并给出了一个基于该方法的文本分类系统的实验结果 。 展开更多
关键词 文本挖掘 文本分类 数据挖掘 VSM
下载PDF
人工智能时代文本与数据挖掘合理使用规则设计研究 被引量:21
18
作者 吴高 黄晓斌 《图书情报工作》 CSSCI 北大核心 2021年第22期3-13,共11页
[目的/意义]在对美国、英国、欧盟、日本、德国等地区或国家对TDM行为的立法或司法应对进行比较分析基础上,提出我国TDM合理使用规则的设计思路。[方法/过程]首先分析人工智能时代文本与数据挖掘的技术特征及其挑战,介绍出版商和图书馆... [目的/意义]在对美国、英国、欧盟、日本、德国等地区或国家对TDM行为的立法或司法应对进行比较分析基础上,提出我国TDM合理使用规则的设计思路。[方法/过程]首先分析人工智能时代文本与数据挖掘的技术特征及其挑战,介绍出版商和图书馆有关TDM合理使用的立场分歧,之后在对代表性国家有关TDM合理使用法律应对机制进行比较分析基础上,从TDM例外的主体、客体、目的、行为及其他条件等方面,论证我国TDM合理使用规则的具体内容。[结果/结论]任何机构或个人基于科学研究或其他合理目的对任何作品以复制、提取、改编或有限传播方式进行文本和数据挖掘构成合理使用,但利用非合法来源作品须支付合理的使用费。 展开更多
关键词 人工智能 文本与数据挖掘 TDM 合理使用 例外
原文传递
基于类别分布的特征选择框架 被引量:18
19
作者 靖红芳 王斌 +1 位作者 杨雅辉 徐燕 《计算机研究与发展》 EI CSCD 北大核心 2009年第9期1586-1593,共8页
目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵... 目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适用于非平衡语料,也具有很好的扩展性.另外,OCFS和基于类别分布差异的特征过滤可以看作该框架的特例.实现该框架得到了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的Macro和Micro F1效果都优于IG,CHI和OCFS. 展开更多
关键词 特征选择 非平衡语料 特征降维 文本分类 数据挖掘
下载PDF
文本与数据挖掘对著作权例外体系的冲击与应对 被引量:18
20
作者 马治国 赵龙 《西北师大学报(社会科学版)》 CSSCI 北大核心 2021年第4期107-115,共9页
我国现有的著作权例外体系无法为文本与数据挖掘提供豁免,故挖掘行为存在侵犯著作权相关财产性权利的风险。通过对比日本、欧盟以及美国的相关司法与立法经验,认为我国文本与数据挖掘借鉴美国模式概括性适用合理使用条款是目前最具可行... 我国现有的著作权例外体系无法为文本与数据挖掘提供豁免,故挖掘行为存在侵犯著作权相关财产性权利的风险。通过对比日本、欧盟以及美国的相关司法与立法经验,认为我国文本与数据挖掘借鉴美国模式概括性适用合理使用条款是目前最具可行性的应对策略。为了使文本与数据挖掘自洽于著作权例外体系,还应采取将"四要素分析法"作为判断"三步检验法"的要件、提供合法授权的"第三方规避者"以及保持技术措施保护例外的开放性等举措。 展开更多
关键词 文本与数据挖掘 著作权 合理使用 技术措施
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部