期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向OLAP的高效海量数据存储技术研究与实现
被引量:
4
1
作者
韩毅
韩伟红
+1 位作者
杨树强
贾焰
《微电子学与计算机》
CSCD
北大核心
2006年第z1期154-156,159,共4页
文章在分析了OLAP大规模海量多维数据特点的基础上,针对当前一般规模关系数据库处理海量多维数据能力的不足,通过使用数据库分区技术和并行磁盘组技术,设计并实现了一种高效的、面向OLAP应用的数据存储管理结构。并针对传统查询优化器...
文章在分析了OLAP大规模海量多维数据特点的基础上,针对当前一般规模关系数据库处理海量多维数据能力的不足,通过使用数据库分区技术和并行磁盘组技术,设计并实现了一种高效的、面向OLAP应用的数据存储管理结构。并针对传统查询优化器对于大规模海量数据统计信息更新不及时的问题,设计了一种基于分区技术的统计方法。实验证明,该设计可以对百TB级的多维海量文本数据进行有效的管理。
展开更多
关键词
OLAP
数据存储
海量
关系数据库
多维
文本数据
下载PDF
职称材料
基于海量文本数据的知识图谱自动构建算法
被引量:
4
2
作者
朱小龙
谢忠
《吉林大学学报(工学版)》
EI
CAS
CSCD
北大核心
2021年第4期1358-1363,共6页
现有方法在构建知识图谱过程中,由于忽视了对半结构化数据的处理,导致知识图谱构建精确性不高,且耗时过长,为此本文提出基于海量文本数据的知识图谱自动构建算法。利用三元组抽取器实现海量文本数据源抽取,并提取其中的半结构化数据,同...
现有方法在构建知识图谱过程中,由于忽视了对半结构化数据的处理,导致知识图谱构建精确性不高,且耗时过长,为此本文提出基于海量文本数据的知识图谱自动构建算法。利用三元组抽取器实现海量文本数据源抽取,并提取其中的半结构化数据,同时剔除冗余数据。根据数据处理结果,利用数据采集功能选取适当的数据对象,作为知识图谱构建的文本数据源,并对数据源实行文本格式转换、分词和特征提取等规范化处理。分析得出数据的潜在语义,并绘制XTM可视化图谱,构成初步的知识图谱。挖掘该知识图谱中的已存知识,将潜在向量应用在信息推荐中,组成用户、评分与项目的三元组数据,采用图谱演进算法对评分、用户及项目进行预测,构建潜在向量模型生成多领域推荐,从而实现知识图谱的自动演进。实验结果表明,该算法具有更高的构建精确性,并且用时较短,说明该算法具有可靠性与实际应用性。
展开更多
关键词
海量文本数据
知识图谱
三元组抽取器
格式转换
特征提取
原文传递
不确定噪声下海量文本数据的模糊挖掘算法研究
被引量:
2
3
作者
潘大胜
《微电子学与计算机》
CSCD
北大核心
2017年第9期129-132,共4页
针对传统的数据挖掘方法一直存在挖掘精度低、运行时间长的问题,提出基于小波变换与关联规则的不确定噪声下海量文本数据的模糊数据挖掘算法,首先利用小波变换对不确定噪声下海量文本数据的模糊数据进行预处理,将模糊海量文本数据时间...
针对传统的数据挖掘方法一直存在挖掘精度低、运行时间长的问题,提出基于小波变换与关联规则的不确定噪声下海量文本数据的模糊数据挖掘算法,首先利用小波变换对不确定噪声下海量文本数据的模糊数据进行预处理,将模糊海量文本数据时间序列转换至频谱空间中,获得频谱空间内距离最小、类间聚类最大的变换基系数,并将其作为海量文本模糊数据特征系数,利用数据特征系数计算出其从属于各类别的隶属度,确定模糊文本数据集的关联规则,依据多维海量数据集之间的相关程度进行区间划分,由此实现对不确定噪声下海量文本数据的有效挖掘.实验结果证明,所提算法能有效提高海量文本数据挖掘精度,且挖掘效率较高.
展开更多
关键词
不确定噪声
海量文本数据
模糊数据挖掘算法
特征系数
关联规则
下载PDF
职称材料
基于位置敏感哈希的海量文本数据查询算法研究
被引量:
1
4
作者
蒋巍
《科技通报》
北大核心
2013年第10期70-72,共3页
提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数...
提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数集把文本的特征向量映射至哈希桶;接下来,利用哈希表为给定的文本计算出与之对应的直方图,通过直方图距离计算文本的相似度;最后,通过计算目标文本集中的文本与待查询文本的相似度进行文本排序,排序分值高的文本作为相关文本返回给用户。实验结果表明,对比已有方法文本提出的算法在MAP以及查全率-查准率曲线两个测度上都获得了较好的性能。
展开更多
关键词
位置敏感哈希
海量文本数据
哈希桶
排序
下载PDF
职称材料
教育质性研究中人机协同文本挖掘技术的运用——以某高校教学评估中文文本数据为例
被引量:
4
5
作者
王金羽
詹逸思
+1 位作者
冯起
李曼丽
《清华大学教育研究》
CSSCI
北大核心
2022年第2期56-63,共8页
信息时代海量增长的文本资料成为质性研究者开展研究的数据宝藏,但未得到充分研究,其原因在于针对海量中文文本数据的有效分析方法尚待突破。文章率先在质性研究范式中使用了以结构主题模型(STM)为代表的人机协同方法,对某大学在线教学...
信息时代海量增长的文本资料成为质性研究者开展研究的数据宝藏,但未得到充分研究,其原因在于针对海量中文文本数据的有效分析方法尚待突破。文章率先在质性研究范式中使用了以结构主题模型(STM)为代表的人机协同方法,对某大学在线教学效果评估的课堂观察记录数据展开文本挖掘。以教学评估研究数据分析为例,完整呈现了在教育质性研究中应用STM进行数据挖掘的四个步骤,并分析了其在挖掘海量中文文本资料方面的独特优势。研究表明,跨学科研究方法的尝试有助于解决教育学科甚至人文社科领域内海量中文文本在质性分析上的固有难题。
展开更多
关键词
结构主题模型(STM)
超大文本挖掘
教育质性研究
原文传递
题名
面向OLAP的高效海量数据存储技术研究与实现
被引量:
4
1
作者
韩毅
韩伟红
杨树强
贾焰
机构
国防科技大学计算机学院网络与信息安全研究所
出处
《微电子学与计算机》
CSCD
北大核心
2006年第z1期154-156,159,共4页
基金
国家自然科学基金项目(90412011)
国家"863"计划项目(2004AA112020
2005AA112030)
文摘
文章在分析了OLAP大规模海量多维数据特点的基础上,针对当前一般规模关系数据库处理海量多维数据能力的不足,通过使用数据库分区技术和并行磁盘组技术,设计并实现了一种高效的、面向OLAP应用的数据存储管理结构。并针对传统查询优化器对于大规模海量数据统计信息更新不及时的问题,设计了一种基于分区技术的统计方法。实验证明,该设计可以对百TB级的多维海量文本数据进行有效的管理。
关键词
OLAP
数据存储
海量
关系数据库
多维
文本数据
Keywords
OLAP,
data
storage,
massive
,
Relational
data
base,
Multi-dimension,
text
data
分类号
TP31 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于海量文本数据的知识图谱自动构建算法
被引量:
4
2
作者
朱小龙
谢忠
机构
中国地质大学(武汉)地理与信息工程学院
长江大学地球科学学院
出处
《吉林大学学报(工学版)》
EI
CAS
CSCD
北大核心
2021年第4期1358-1363,共6页
基金
国家自然科学基金项目(41671400).
文摘
现有方法在构建知识图谱过程中,由于忽视了对半结构化数据的处理,导致知识图谱构建精确性不高,且耗时过长,为此本文提出基于海量文本数据的知识图谱自动构建算法。利用三元组抽取器实现海量文本数据源抽取,并提取其中的半结构化数据,同时剔除冗余数据。根据数据处理结果,利用数据采集功能选取适当的数据对象,作为知识图谱构建的文本数据源,并对数据源实行文本格式转换、分词和特征提取等规范化处理。分析得出数据的潜在语义,并绘制XTM可视化图谱,构成初步的知识图谱。挖掘该知识图谱中的已存知识,将潜在向量应用在信息推荐中,组成用户、评分与项目的三元组数据,采用图谱演进算法对评分、用户及项目进行预测,构建潜在向量模型生成多领域推荐,从而实现知识图谱的自动演进。实验结果表明,该算法具有更高的构建精确性,并且用时较短,说明该算法具有可靠性与实际应用性。
关键词
海量文本数据
知识图谱
三元组抽取器
格式转换
特征提取
Keywords
massive
text
data
knowledge
map
triples
extractor
format
conversion
feature
extraction
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
原文传递
题名
不确定噪声下海量文本数据的模糊挖掘算法研究
被引量:
2
3
作者
潘大胜
机构
百色学院信息工程学院
出处
《微电子学与计算机》
CSCD
北大核心
2017年第9期129-132,共4页
文摘
针对传统的数据挖掘方法一直存在挖掘精度低、运行时间长的问题,提出基于小波变换与关联规则的不确定噪声下海量文本数据的模糊数据挖掘算法,首先利用小波变换对不确定噪声下海量文本数据的模糊数据进行预处理,将模糊海量文本数据时间序列转换至频谱空间中,获得频谱空间内距离最小、类间聚类最大的变换基系数,并将其作为海量文本模糊数据特征系数,利用数据特征系数计算出其从属于各类别的隶属度,确定模糊文本数据集的关联规则,依据多维海量数据集之间的相关程度进行区间划分,由此实现对不确定噪声下海量文本数据的有效挖掘.实验结果证明,所提算法能有效提高海量文本数据挖掘精度,且挖掘效率较高.
关键词
不确定噪声
海量文本数据
模糊数据挖掘算法
特征系数
关联规则
Keywords
Key
words:
uncertain
noise
massive
text
data
the
fuzzy
data
mining
algorithm
characteristics
of
the
coefficient
of
association
rules
分类号
TN391 [电子电信—物理电子学]
下载PDF
职称材料
题名
基于位置敏感哈希的海量文本数据查询算法研究
被引量:
1
4
作者
蒋巍
机构
哈尔滨金融学院
出处
《科技通报》
北大核心
2013年第10期70-72,共3页
基金
黑龙江省教育厅2013年度科学技术研究(面上)项目(12531089)
文摘
提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数集把文本的特征向量映射至哈希桶;接下来,利用哈希表为给定的文本计算出与之对应的直方图,通过直方图距离计算文本的相似度;最后,通过计算目标文本集中的文本与待查询文本的相似度进行文本排序,排序分值高的文本作为相关文本返回给用户。实验结果表明,对比已有方法文本提出的算法在MAP以及查全率-查准率曲线两个测度上都获得了较好的性能。
关键词
位置敏感哈希
海量文本数据
哈希桶
排序
Keywords
locality
sensitive
hashing
massive
text
data
hash
bucket
ranking
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
教育质性研究中人机协同文本挖掘技术的运用——以某高校教学评估中文文本数据为例
被引量:
4
5
作者
王金羽
詹逸思
冯起
李曼丽
机构
清华大学教育研究院
清华大学学生学习与发展指导中心
清华大学电机工程与应用电子技术系
出处
《清华大学教育研究》
CSSCI
北大核心
2022年第2期56-63,共8页
基金
清华大学自主科研计划“人工智能条件下教育领域社会实验方法设计预研”(2019THZWYY05)。
文摘
信息时代海量增长的文本资料成为质性研究者开展研究的数据宝藏,但未得到充分研究,其原因在于针对海量中文文本数据的有效分析方法尚待突破。文章率先在质性研究范式中使用了以结构主题模型(STM)为代表的人机协同方法,对某大学在线教学效果评估的课堂观察记录数据展开文本挖掘。以教学评估研究数据分析为例,完整呈现了在教育质性研究中应用STM进行数据挖掘的四个步骤,并分析了其在挖掘海量中文文本资料方面的独特优势。研究表明,跨学科研究方法的尝试有助于解决教育学科甚至人文社科领域内海量中文文本在质性分析上的固有难题。
关键词
结构主题模型(STM)
超大文本挖掘
教育质性研究
Keywords
Structural
Topic
Model(STM)
massive
text
data
mining
educational
qualitative
research
分类号
G40-034 [文化科学—教育学原理]
原文传递
题名
作者
出处
发文年
被引量
操作
1
面向OLAP的高效海量数据存储技术研究与实现
韩毅
韩伟红
杨树强
贾焰
《微电子学与计算机》
CSCD
北大核心
2006
4
下载PDF
职称材料
2
基于海量文本数据的知识图谱自动构建算法
朱小龙
谢忠
《吉林大学学报(工学版)》
EI
CAS
CSCD
北大核心
2021
4
原文传递
3
不确定噪声下海量文本数据的模糊挖掘算法研究
潘大胜
《微电子学与计算机》
CSCD
北大核心
2017
2
下载PDF
职称材料
4
基于位置敏感哈希的海量文本数据查询算法研究
蒋巍
《科技通报》
北大核心
2013
1
下载PDF
职称材料
5
教育质性研究中人机协同文本挖掘技术的运用——以某高校教学评估中文文本数据为例
王金羽
詹逸思
冯起
李曼丽
《清华大学教育研究》
CSSCI
北大核心
2022
4
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部