期刊文献+
共找到138篇文章
< 1 2 7 >
每页显示 20 50 100
面向数字人文研究的大规模古籍文本可视化分析与挖掘 被引量:106
1
作者 欧阳剑 《中国图书馆学报》 CSSCI 北大核心 2016年第2期66-80,共15页
传统的古籍开发与应用模式已难以适应人文学科研究的需要,人文学科研究者期待一个技术逻辑和人文逻辑相耦合的数字人文研究范式的出现。本文从古籍文献深层次开发与利用出发,利用新的信息技术与面向数字人文研究跨学科方法,以大规模中... 传统的古籍开发与应用模式已难以适应人文学科研究的需要,人文学科研究者期待一个技术逻辑和人文逻辑相耦合的数字人文研究范式的出现。本文从古籍文献深层次开发与利用出发,利用新的信息技术与面向数字人文研究跨学科方法,以大规模中国古籍文本为研究对象,采用大数据研究理念,对古籍进行整理、标注、自动分词等处理,以词频分析统计为研究核心,采用数据降噪、基于窗口时间单位的统计分析计算、滑动窗口预测等分析与挖掘方法,采用大数据实时分析技术,实现了实时、在线、立体、可视化、定量分析字词的历史词频分布规律,创建了一个以语言学、历史文献学、历史地理学等人文学科研究为主的古籍实时统计分析平台,可辅助研究者在大量的古籍文献中发现新的模式、现象、趋势等,实现古籍开发与应用模式创新的初步尝试。图11。参考文献36。 展开更多
关键词 数字人文 文本可视化 数据挖掘 古籍文献
下载PDF
文本挖掘技术研究进展 被引量:57
2
作者 袁军鹏 朱东华 +2 位作者 李毅 李连宏 黄进 《计算机应用研究》 CSCD 北大核心 2006年第2期1-4,共4页
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视... 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。 展开更多
关键词 文本挖掘 中文分词 特征选取 文本摘要 文本分类 文本聚类 关联分析 数据可视化
下载PDF
基于Python语言的中文分词技术的研究 被引量:58
3
作者 祝永志 荆静 《通信技术》 2019年第7期1612-1619,共8页
Python作为一种解释性高级编程语言,已经深入大数据、人工智能等热门领域。Python在数据科学领域具有广泛的应用,比如Python爬虫、数据挖掘等等。将连续的字序列划分为具有一定规范的词序列的过程称为分词。在英文中,空格是单词间的分界... Python作为一种解释性高级编程语言,已经深入大数据、人工智能等热门领域。Python在数据科学领域具有广泛的应用,比如Python爬虫、数据挖掘等等。将连续的字序列划分为具有一定规范的词序列的过程称为分词。在英文中,空格是单词间的分界符,然而中文比较复杂。一般来说对字、句子和段落的划分比较简单,但中文中词的划分没有明显的标志,所以对中文文本进行分词的难度较大。运用Python爬虫对网页数据进行抓取作为实验文本数据,使用python强大的分词库jieba对中文文本进行分词处理。对分词结果分别采用TF-IDF算法和TextRank算法进行提取关键词,实验结果明显优于基于词频的分词算法。最后采用词云的方式对关键词进行展现,使得分词结果一目了然。 展开更多
关键词 PYTHON 文本分词 jieba 词云 数据可视化
下载PDF
Python环境下的文本分词与词云制作 被引量:31
4
作者 严明 郑昌兴 《现代计算机》 2018年第23期86-89,共4页
近年来Python广泛应用于包括自然语言处理在内的数据处理和人工智能等领域。以实例探讨Python环境下基于jieba库的文本分词、基于WordCloud库的词云制作及其相关处理,特别是如何实现针对两个相关文本的比较处理。
关键词 文本分词 数据可视化 词云 PYTHON
下载PDF
数字人文背景下“远距离可视化阅读”探析 被引量:27
5
作者 胡悦融 马青 +3 位作者 刘佳派 梁书涵 何流 王晓光 《图书馆论坛》 CSSCI 北大核心 2017年第2期1-9,共9页
"远距离阅读"是一种新型文献阅读和理解方式,主张通过计算机处理原文,生成新的概要性内容,以支撑读者理解或学术研究。文章介绍文学类文本的"远距离可视化阅读"理论与实践,结合案例分析远距离可视化阅读面临的问题... "远距离阅读"是一种新型文献阅读和理解方式,主张通过计算机处理原文,生成新的概要性内容,以支撑读者理解或学术研究。文章介绍文学类文本的"远距离可视化阅读"理论与实践,结合案例分析远距离可视化阅读面临的问题与发展前景。 展开更多
关键词 远距离阅读 文本可视化 数字人文 文本挖掘
下载PDF
词云可视化综述 被引量:20
6
作者 包琛 汪云海 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2021年第4期532-544,共13页
词云是一种近年来颇为流行的文本可视化方式,它提取出文本中的关键词并在二维空间上美观地排布,通常用于展示文本内容、辅助文本分析以及吸引读者阅读等.从视觉编码、布局方法和交互方式这3个方面介绍词云的设计空间;将现有的词云设计... 词云是一种近年来颇为流行的文本可视化方式,它提取出文本中的关键词并在二维空间上美观地排布,通常用于展示文本内容、辅助文本分析以及吸引读者阅读等.从视觉编码、布局方法和交互方式这3个方面介绍词云的设计空间;将现有的词云设计分为语义词云、形状词云、可编辑词云和多文档词云4类进行概括,并总结了目前对于词云进行实验评价的若干工作;最后分别从语义词云、形状词云、多文档词云和中文词云4个方面分析了词云可视化领域面临的挑战,并对未来工作进行了展望. 展开更多
关键词 词云 标签云 文本可视化 语义词云 形状词云 多文档文本 文本分析
下载PDF
基于社交媒体大数据的交通感知分析系统 被引量:18
7
作者 郑治豪 吴文兵 +3 位作者 陈鑫 胡荣鑫 柳鑫 王璞 《自动化学报》 EI CSCD 北大核心 2018年第4期656-666,共11页
社交媒体数据中蕴含了丰富的交通状态信息,这些信息以人类语言为载体,包含了大量对交通状态的因果分析与多角度描述,可以为传统交通信息采集手段提供有力补充,近年来已成为交通状态感知的重要信息来源.本文以新浪微博为主要数据来源,分... 社交媒体数据中蕴含了丰富的交通状态信息,这些信息以人类语言为载体,包含了大量对交通状态的因果分析与多角度描述,可以为传统交通信息采集手段提供有力补充,近年来已成为交通状态感知的重要信息来源.本文以新浪微博为主要数据来源,分别利用支持向量机算法、条件随机场算法以及事件提取模型完成微博的分类、命名实体识别与交通事件提取,开发了基于社交媒体大数据的交通感知分析与可视化系统,可以为交通管理部门及时提供交通舆情及突发交通事件的态势、影响范围、起因等信息.在交通信息采集系统建设较为薄弱的地区,本文建立的系统可以为交通管理提供信息补充. 展开更多
关键词 社会交通 机器学习 文本分类 命名实体识别 数据可视化
下载PDF
文字云图的英语阅读教学设计与实践——以文字云图工具Wordle为例 被引量:17
8
作者 杜华 《现代教育技术》 CSSCI 2012年第9期65-69,共5页
文字云图是通过文字云图工具制作而成的反映文字频率的可视图的一种形象比喻,可以作为一种有效的文本分析工具应用在教学中。文章梳理了国内外文字云图应用研究现状,指出国内该领域研究的不足。并以英语阅读教学为切入点,从文字云图的... 文字云图是通过文字云图工具制作而成的反映文字频率的可视图的一种形象比喻,可以作为一种有效的文本分析工具应用在教学中。文章梳理了国内外文字云图应用研究现状,指出国内该领域研究的不足。并以英语阅读教学为切入点,从文字云图的可视化表征、生成线索词、语义和表象的双重表征等优势分析了文字云图应用在英语阅读教学中的可行性,以Wordle为例选择高中英语教材中的一节课"Harry Potter"进行了研究设计与实践,研究结果表明文字云图的使用能够调动学生的兴趣,给学生的英语阅读带来积极的促进作用。 展开更多
关键词 文本可视化 文字云图 Wordle 英语阅读教学
下载PDF
中国高新技术产业政策层级性特征与演化研究——基于1991—2020年6043份政策文本的分析 被引量:16
9
作者 华斌 康月 范林昊 《科学学与科学技术管理》 CSSCI CSCD 北大核心 2022年第1期87-106,共20页
高新技术产业已成为我国经济持续增长的主动力,而其创新性、不确定性、外部性等特征决定了产业政策在其发展中扮演着重要角色。为进一步揭示高新技术产业政策的层级关联特征与演化趋势,以产业赋能高质量发展,利用文本挖掘技术对高新技... 高新技术产业已成为我国经济持续增长的主动力,而其创新性、不确定性、外部性等特征决定了产业政策在其发展中扮演着重要角色。为进一步揭示高新技术产业政策的层级关联特征与演化趋势,以产业赋能高质量发展,利用文本挖掘技术对高新技术产业政策进行了基于政策关键词共现、政策主题与政策工具三个维度的层级关联挖掘,并采用可视化方法以更好地揭示政策动态演进规律。在收集了我国1991—2020年国家、省、市三个层级的6043份高新技术产业政策文本的基础上,利用共词分析、LDA主题建模与相似度计算三种技术分别进行挖掘,并对挖掘结果进行Gephi、LDAvis与ThemeRiver方法的可视化分析,得到如下结论:(1)政策关键词共现挖掘方法显示,结果中存在"递进演化性""层级滞后性""层级滞后演化性"等规律;(2)政策主题挖掘方法显示,结果中存在由中观到微观的产业、企业、技术、产品的演变发展脉络,"层级阶段关联性"特征较为明显;(3)政策工具挖掘方法显示,结果中存在明显的"环重、供中、需弱""层级滞后发展性""国强、地方弱波动性""重建工补法、轻金融"等特征。总结上述结果,可以得出:缩短产业政策时滞、加强政策协调性,完善政策内容、健全产业政策市场化机制与优化金融工具对促进高新技术产业发展具有重要涵义。 展开更多
关键词 高新技术产业 产业政策 政策协同 文本挖掘 可视化分析
原文传递
数字人文研究中的古籍文本阅读可视化 被引量:16
10
作者 欧阳剑 任树怀 《图书馆杂志》 CSSCI 北大核心 2021年第4期82-89,99,共9页
近年来,古籍文本可视化成为数字人文研究中人文学者古籍文本阅读的重要方式,古籍文本可视化给古籍文本信息带来了新的呈现方式,丰富了人文学者的阅读体验,也给人文学者带来了新的文本观察与分析方法。本文从古籍文本精读及泛读理念出发... 近年来,古籍文本可视化成为数字人文研究中人文学者古籍文本阅读的重要方式,古籍文本可视化给古籍文本信息带来了新的呈现方式,丰富了人文学者的阅读体验,也给人文学者带来了新的文本观察与分析方法。本文从古籍文本精读及泛读理念出发分析了古籍文本阅读可视化的理论基础,通过对古籍文本可视化展示角度、展示任务、展示对象等进行文献调研,归纳了古籍文本阅读可视化类型及流程,分析了古籍文本可视化中的处理方法与可视化技术,并从文本信息处理与文本可视化方法两个角度分析了古籍文本可视化过程中遇到的挑战。本研究有助于更好地理解古籍文本阅读可视化理论基础,进一步理清古籍文本可视化的常用处理方法与技术,对古籍文本可视化具有推进作用。 展开更多
关键词 古籍文本 数字人文 文本可视化 精读 泛读
下载PDF
文本信息可视化模型研究 被引量:12
11
作者 周宁 张会平 金大卫 《情报学报》 CSSCI 北大核心 2007年第1期155-160,共6页
本文针对文本信息资源的特征,提出了一个基于XML的文本信息可视化的通用模型,详细介绍了模型的三个对象空间——XML文档库、XML特征库和可视化对象以及三项关键技术——中文分词、文本分割和可视化映射,并结合实例验证了模型的实用... 本文针对文本信息资源的特征,提出了一个基于XML的文本信息可视化的通用模型,详细介绍了模型的三个对象空间——XML文档库、XML特征库和可视化对象以及三项关键技术——中文分词、文本分割和可视化映射,并结合实例验证了模型的实用性、易扩展性以及可移植性。 展开更多
关键词 文本 信息可视化 中文分词 文本分割
下载PDF
基于中文文本的可视化技术研究 被引量:14
12
作者 袁海 陈康 +1 位作者 陶彩霞 陈翀 《电信科学》 北大核心 2014年第4期114-122,共9页
文本可视化是数据可视化的新兴主题,其目的是让人直观地认识数据,敏捷地发现数据中隐藏的规律。首先介绍了文本可视化的过程,包括信息收集、预处理、视觉呈现和交互功能等;然后通过分析和使用各种中文文本可视化的工具,从基于标签云、... 文本可视化是数据可视化的新兴主题,其目的是让人直观地认识数据,敏捷地发现数据中隐藏的规律。首先介绍了文本可视化的过程,包括信息收集、预处理、视觉呈现和交互功能等;然后通过分析和使用各种中文文本可视化的工具,从基于标签云、树图、关联和时间序列等多方面研究可视化技术;最后对比了这几种技术的差异和优缺点,并指出各技术的适用场景。文本可视化能够更好地帮助用户处理日益增长的文本信息,提高数据的可视化效率和转换成利益的效率。 展开更多
关键词 文本分析 信息可视化 文本可视化 交互界面
下载PDF
中文文本的可视化表示 被引量:7
13
作者 林鸿飞 高天 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2000年第5期501-504,共4页
由于辅助阅读的需求 ,给出了中文文本的可视化表示 ,以直观的方式逐级显示文本内容·其基本思想是 :利用潜在语义索引的方法 ,改进文本分类的效果·利用文本层次分析方法 ,进行文本结构分解 ,给出了文本结构中各单元的标记信息 ... 由于辅助阅读的需求 ,给出了中文文本的可视化表示 ,以直观的方式逐级显示文本内容·其基本思想是 :利用潜在语义索引的方法 ,改进文本分类的效果·利用文本层次分析方法 ,进行文本结构分解 ,给出了文本结构中各单元的标记信息 ,由此形成了文本的可视化表示·利用文本类别、文本主题、层次、段落的超文本连接和特征项的导航功能 ,帮助用户有目的、有选择地浏览文本 。 展开更多
关键词 文本层次分析 文本可视化表示 向量空间模型 文本分类 潜在语义索引
下载PDF
文本的可视化知识表示 被引量:14
14
作者 马创新 陈小荷 《情报科学》 CSSCI 北大核心 2017年第3期122-127,共6页
【目的/意义】文本的可视化知识表示是把用文字符号表示的知识转化为用图形、图像或动画表示的知识,其目的在于让人直观地观察到核心信息和关键数据,从而快速发现其中蕴含的知识。【方法/过程】首先分析文本可视化大量涌现的原因,然后... 【目的/意义】文本的可视化知识表示是把用文字符号表示的知识转化为用图形、图像或动画表示的知识,其目的在于让人直观地观察到核心信息和关键数据,从而快速发现其中蕴含的知识。【方法/过程】首先分析文本可视化大量涌现的原因,然后综述文本可视化的研究现状和发展趋势。【结果/结论】在此基础上,探讨在文本的结构、主题、情感态度和关联信息等领域典型的可视化知识表示方法,指出文本可视化研究具有广阔的应用前景。 展开更多
关键词 文本可视化 知识表示 文本分析 信息抽取
原文传递
高校网络舆情传播主题图谱可视化研究 被引量:14
15
作者 邢云菲 李玉海 《情报科学》 CSSCI 北大核心 2020年第11期86-91,共6页
【目的/意义】以新浪微博为例挖掘高校网络舆情传播主题图谱并分析主题间关联关系,对帮助高校及网络管理者及时采取有效措施应对高校网络舆情事件具有重要意义。【方法/过程】本文基于主题图谱理论,采集微博数据,通过社会网络分析法和... 【目的/意义】以新浪微博为例挖掘高校网络舆情传播主题图谱并分析主题间关联关系,对帮助高校及网络管理者及时采取有效措施应对高校网络舆情事件具有重要意义。【方法/过程】本文基于主题图谱理论,采集微博数据,通过社会网络分析法和文本聚类方法分别构建高校网络舆情传播过程中的用户图谱和文本主题图谱,通过用户关系可视化和文本可视化挖掘用户关系特征和文本主题关系并提出管理建议。【结果/结论】通过对用户图谱的中心度分析能够挖掘舆情传播过程中的关键节点;文本主题图谱研究能够通过聚类和分析特征词的中心度值发现用户关注内容。 展开更多
关键词 高校网络舆情 主题图谱 用户关系 文本可视化 关键节点
原文传递
基于技术功效矩阵的专利聚类分析 被引量:14
16
作者 陈旭 冯岭 +1 位作者 刘斌 彭智勇 《小型微型计算机系统》 CSCD 北大核心 2014年第3期526-531,共6页
专利文献蕴含着重要的技术、法律、经济信息,每年的出版量占世界各种图书和期刊的四分之一.随着专利数量的不断增多,对专利聚类分析显得尤为重要.我们主要研究专利聚类分析中的文本表示和结果可视化两个关键问题.首先将专利以技术功效... 专利文献蕴含着重要的技术、法律、经济信息,每年的出版量占世界各种图书和期刊的四分之一.随着专利数量的不断增多,对专利聚类分析显得尤为重要.我们主要研究专利聚类分析中的文本表示和结果可视化两个关键问题.首先将专利以技术功效对的方式表示,然后基于技术功效矩阵的进行专利聚类,最终形成一种多层次的专利地图.其实验结果表明这种方法比传统的向量空间模型的方法具有更高的效率和更好的聚类效果,并且其聚类结果的可视化更强的实用性和更好的扩展性. 展开更多
关键词 专利聚类 语义标注 文本表示 信息抽取 信息可视化
下载PDF
EMS人机界面及其交互技术研究 被引量:13
17
作者 朱全胜 刘娆 李卫东 《电力自动化设备》 EI CSCD 北大核心 2007年第8期77-81,共5页
人机界面是能量管理系统(EMS)中的重要一环,利用若干先进的人机交互技术,对EMS输入端、输出端2方面进行了改进。输入端在原有的交互工具上加入语音识别,从而和鼠标、键盘形成一个多模式的输入界面。该输入界面能够减少命令输入时间以及... 人机界面是能量管理系统(EMS)中的重要一环,利用若干先进的人机交互技术,对EMS输入端、输出端2方面进行了改进。输入端在原有的交互工具上加入语音识别,从而和鼠标、键盘形成一个多模式的输入界面。该输入界面能够减少命令输入时间以及实现多命令并行输入等。输出端引入关联多屏显示技术,并将2-D可视化和3-D可视化结合使用,在听觉输出上使用语音合成技术。这些综合输出方式的结合使用能够将系统信息以更加合理、自然的方式呈现出来,便于调度员更加快速地把握系统的运行情况。 展开更多
关键词 人机界面 EMS 交互技术 语音识别 语音合成 可视化
下载PDF
基于多维标度法的专利文本可视化聚类研究 被引量:13
18
作者 郝智勇 贺明科 +1 位作者 谭文堂 张健东 《计算机应用研究》 CSCD 北大核心 2010年第12期4608-4611,共4页
为了从当前海量的专利文本信息资源中迅速准确地获取所需的信息并将其以可视化的形式展现出来,通过研究文本挖掘相关理论和关键技术,结合专利文本的特征及现有的分析方法,提出一种基于多维标度法的专利文本可视化聚类方法,并结合实际进... 为了从当前海量的专利文本信息资源中迅速准确地获取所需的信息并将其以可视化的形式展现出来,通过研究文本挖掘相关理论和关键技术,结合专利文本的特征及现有的分析方法,提出一种基于多维标度法的专利文本可视化聚类方法,并结合实际进行了相关分析讨论。实验结果表明,该方法较好地展现了当前专利技术领域的应用主题分布状态及其关联图谱,可为相关部门的管理决策和技术创新提供有意义的参考和支持。 展开更多
关键词 多维标度法 专利文本 主题 可视化
下载PDF
基于文本挖掘的矿山安全隐患大数据分析与可视化 被引量:11
19
作者 郭对明 李国清 +1 位作者 胡乃联 侯杰 《工程科学学报》 EI CSCD 北大核心 2022年第3期328-338,共11页
基于大数据分析技术,构建了矿山安全隐患多维度分析模型,分析了隐患在时间和空间两个维度上的分布规律;利用主题挖掘模型将众多隐患信息归类,得到了13个隐患主题;利用关联规则挖掘模型探究了不同隐患之间的内在联系,并利用R编程语言对... 基于大数据分析技术,构建了矿山安全隐患多维度分析模型,分析了隐患在时间和空间两个维度上的分布规律;利用主题挖掘模型将众多隐患信息归类,得到了13个隐患主题;利用关联规则挖掘模型探究了不同隐患之间的内在联系,并利用R编程语言对上述结果进行可视化展示.通过对安全隐患的分析研究不仅充分利用了矿山隐患数据,避免了数据资源的浪费,同时也对矿山井下事故预防有一定的指导价值. 展开更多
关键词 矿山安全 文本挖掘 隐患数据 大数据分析 可视化
下载PDF
结合TF-IDF的企业生产隐患关联预警及可视化研究 被引量:12
20
作者 胡瑾秋 张曦月 吴志强 《中国安全科学学报》 CAS CSCD 北大核心 2019年第7期170-176,共7页
为有效利用企业在日常管理中积累的大量生产事故隐患记录,实现隐患预警,解决人工分析数据效率低、主观性强等问题,构建结合词频率-逆文档频率(TF-IDF)的企业生产隐患关联预警可视化模型。首先,运用先验(Apriori)关联规则算法挖掘各隐患... 为有效利用企业在日常管理中积累的大量生产事故隐患记录,实现隐患预警,解决人工分析数据效率低、主观性强等问题,构建结合词频率-逆文档频率(TF-IDF)的企业生产隐患关联预警可视化模型。首先,运用先验(Apriori)关联规则算法挖掘各隐患间的潜在联系,获取信息中的隐藏价值;然后,引入TF-IDF算法优化关联规则,找出隐患间的关键规则;最后,运用可视化技术直观地展现挖掘结果。研究表明:可视化模型能快速、准确地实现隐患预警;对关联规则的优化,解决了Apriori算法支持度依赖性强的问题;挖掘结果能为企业安全管理者提供整改方向与依据。 展开更多
关键词 词频率-逆文档频率(TF-IDF) 先验(Apriori)关联分析 优化排序 隐患预警 文本可视化
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部