期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
面向OLAP的高效海量数据存储技术研究与实现 被引量:4
1
作者 韩毅 韩伟红 +1 位作者 杨树强 贾焰 《微电子学与计算机》 CSCD 北大核心 2006年第z1期154-156,159,共4页
文章在分析了OLAP大规模海量多维数据特点的基础上,针对当前一般规模关系数据库处理海量多维数据能力的不足,通过使用数据库分区技术和并行磁盘组技术,设计并实现了一种高效的、面向OLAP应用的数据存储管理结构。并针对传统查询优化器... 文章在分析了OLAP大规模海量多维数据特点的基础上,针对当前一般规模关系数据库处理海量多维数据能力的不足,通过使用数据库分区技术和并行磁盘组技术,设计并实现了一种高效的、面向OLAP应用的数据存储管理结构。并针对传统查询优化器对于大规模海量数据统计信息更新不及时的问题,设计了一种基于分区技术的统计方法。实验证明,该设计可以对百TB级的多维海量文本数据进行有效的管理。 展开更多
关键词 OLAP 数据存储 海量 关系数据库 多维 文本数据
下载PDF
基于海量文本数据的知识图谱自动构建算法 被引量:4
2
作者 朱小龙 谢忠 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2021年第4期1358-1363,共6页
现有方法在构建知识图谱过程中,由于忽视了对半结构化数据的处理,导致知识图谱构建精确性不高,且耗时过长,为此本文提出基于海量文本数据的知识图谱自动构建算法。利用三元组抽取器实现海量文本数据源抽取,并提取其中的半结构化数据,同... 现有方法在构建知识图谱过程中,由于忽视了对半结构化数据的处理,导致知识图谱构建精确性不高,且耗时过长,为此本文提出基于海量文本数据的知识图谱自动构建算法。利用三元组抽取器实现海量文本数据源抽取,并提取其中的半结构化数据,同时剔除冗余数据。根据数据处理结果,利用数据采集功能选取适当的数据对象,作为知识图谱构建的文本数据源,并对数据源实行文本格式转换、分词和特征提取等规范化处理。分析得出数据的潜在语义,并绘制XTM可视化图谱,构成初步的知识图谱。挖掘该知识图谱中的已存知识,将潜在向量应用在信息推荐中,组成用户、评分与项目的三元组数据,采用图谱演进算法对评分、用户及项目进行预测,构建潜在向量模型生成多领域推荐,从而实现知识图谱的自动演进。实验结果表明,该算法具有更高的构建精确性,并且用时较短,说明该算法具有可靠性与实际应用性。 展开更多
关键词 海量文本数据 知识图谱 三元组抽取器 格式转换 特征提取
原文传递
不确定噪声下海量文本数据的模糊挖掘算法研究 被引量:2
3
作者 潘大胜 《微电子学与计算机》 CSCD 北大核心 2017年第9期129-132,共4页
针对传统的数据挖掘方法一直存在挖掘精度低、运行时间长的问题,提出基于小波变换与关联规则的不确定噪声下海量文本数据的模糊数据挖掘算法,首先利用小波变换对不确定噪声下海量文本数据的模糊数据进行预处理,将模糊海量文本数据时间... 针对传统的数据挖掘方法一直存在挖掘精度低、运行时间长的问题,提出基于小波变换与关联规则的不确定噪声下海量文本数据的模糊数据挖掘算法,首先利用小波变换对不确定噪声下海量文本数据的模糊数据进行预处理,将模糊海量文本数据时间序列转换至频谱空间中,获得频谱空间内距离最小、类间聚类最大的变换基系数,并将其作为海量文本模糊数据特征系数,利用数据特征系数计算出其从属于各类别的隶属度,确定模糊文本数据集的关联规则,依据多维海量数据集之间的相关程度进行区间划分,由此实现对不确定噪声下海量文本数据的有效挖掘.实验结果证明,所提算法能有效提高海量文本数据挖掘精度,且挖掘效率较高. 展开更多
关键词 不确定噪声 海量文本数据 模糊数据挖掘算法 特征系数 关联规则
下载PDF
基于位置敏感哈希的海量文本数据查询算法研究 被引量:1
4
作者 蒋巍 《科技通报》 北大核心 2013年第10期70-72,共3页
提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数... 提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数集把文本的特征向量映射至哈希桶;接下来,利用哈希表为给定的文本计算出与之对应的直方图,通过直方图距离计算文本的相似度;最后,通过计算目标文本集中的文本与待查询文本的相似度进行文本排序,排序分值高的文本作为相关文本返回给用户。实验结果表明,对比已有方法文本提出的算法在MAP以及查全率-查准率曲线两个测度上都获得了较好的性能。 展开更多
关键词 位置敏感哈希 海量文本数据 哈希桶 排序
下载PDF
教育质性研究中人机协同文本挖掘技术的运用——以某高校教学评估中文文本数据为例 被引量:4
5
作者 王金羽 詹逸思 +1 位作者 冯起 李曼丽 《清华大学教育研究》 CSSCI 北大核心 2022年第2期56-63,共8页
信息时代海量增长的文本资料成为质性研究者开展研究的数据宝藏,但未得到充分研究,其原因在于针对海量中文文本数据的有效分析方法尚待突破。文章率先在质性研究范式中使用了以结构主题模型(STM)为代表的人机协同方法,对某大学在线教学... 信息时代海量增长的文本资料成为质性研究者开展研究的数据宝藏,但未得到充分研究,其原因在于针对海量中文文本数据的有效分析方法尚待突破。文章率先在质性研究范式中使用了以结构主题模型(STM)为代表的人机协同方法,对某大学在线教学效果评估的课堂观察记录数据展开文本挖掘。以教学评估研究数据分析为例,完整呈现了在教育质性研究中应用STM进行数据挖掘的四个步骤,并分析了其在挖掘海量中文文本资料方面的独特优势。研究表明,跨学科研究方法的尝试有助于解决教育学科甚至人文社科领域内海量中文文本在质性分析上的固有难题。 展开更多
关键词 结构主题模型(STM) 超大文本挖掘 教育质性研究
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部