期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
最大距离法选取初始簇中心的K-means文本聚类算法的研究
被引量:
108
1
作者
翟东海
鱼江
+2 位作者
高飞
于磊
丁锋
《计算机应用研究》
CSCD
北大核心
2014年第3期713-715,719,共4页
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实...
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。
展开更多
关键词
K-MEANS聚类算法
最大
距离
文本
聚类
文本
距离
测度函数
F度量值
下载PDF
职称材料
基于改进的K-means算法在文本挖掘中的应用
被引量:
9
2
作者
杨丹
朱世玲
卞正宇
《计算机技术与发展》
2019年第4期68-71,共4页
K-means算法具有简单易于理解的特征,广泛运用于聚类过程中,但是其初始聚类中心是随机确定的,这样极容易导致聚类结果的稳定性很差。针对传统K-means算法对于初始聚类中心选择的敏感性及最大最小距离法容易选取离散点的不足,提出了一种...
K-means算法具有简单易于理解的特征,广泛运用于聚类过程中,但是其初始聚类中心是随机确定的,这样极容易导致聚类结果的稳定性很差。针对传统K-means算法对于初始聚类中心选择的敏感性及最大最小距离法容易选取离散点的不足,提出了一种新的聚类中心选择评判函数,依次考察每个点的函数值,选取当前函数值最大的点作为新的聚类中心,直到满足事先确定的聚类中心数。新聚类中心评判函数既可以保证新中心点周围是紧凑的,又可以保证远离其他中心点。最后将该算法运应用于文本聚类之中,根据准确率、召回率及F度量值来衡量算法的聚类质量。实验结果表明,该算法相对于传统算法和最大最小距离算法,准确率更高,聚类质量更好,较适合于文本聚类。
展开更多
关键词
K-MEANS算法
聚类中心
文本
聚类
文本
距离
稀疏度
下载PDF
职称材料
基于贝叶斯网和RoBERTa的文本派生关系挖掘方法
3
作者
庄园
翁年凤
李杰
《计算机工程与设计》
北大核心
2024年第9期2690-2696,共7页
对不实信息进行溯源分析是抑制社交网络中不实信息传播的重要手段,传统数据溯源方法主要针对结构化数据,难以准确判断文本之间的派生关系。针对这些问题,提出一种基于贝叶斯网和RoBERTa的文本派生关系挖掘方法,通过RoBERTa模型获得文本...
对不实信息进行溯源分析是抑制社交网络中不实信息传播的重要手段,传统数据溯源方法主要针对结构化数据,难以准确判断文本之间的派生关系。针对这些问题,提出一种基于贝叶斯网和RoBERTa的文本派生关系挖掘方法,通过RoBERTa模型获得文本向量;通过RoBERTa模型初步预测文本间的派生关系,得到文本是否具有派生关系的分类标签;基于向量距离、文本距离、时间跨度和文本分类标签构建贝叶斯网,对文本派生关系进行判断。实验结果表明,所提方法查准率、查全率、F 1值均高于对比方法,验证了该方法的有效性。
展开更多
关键词
数据溯源
文本
派生
贝叶斯网
预训练语言模型
派生关系
文本
距离
概率模型
下载PDF
职称材料
基于TF-IDF算法的文本量化方法及作者识别应用
被引量:
2
4
作者
李楚
《现代信息科技》
2022年第19期1-6,12,共7页
作者识别任务旨在找到匿名文本的作者,在互联网蓬勃发展的时代,准确识别出匿名文本的作者对维护网络环境的安全有着积极作用。在该任务中,文本内容的量化非常关键,能直接影响作者识别的准确率。基于词频-逆文档频率(TF-IDF)算法,文章提...
作者识别任务旨在找到匿名文本的作者,在互联网蓬勃发展的时代,准确识别出匿名文本的作者对维护网络环境的安全有着积极作用。在该任务中,文本内容的量化非常关键,能直接影响作者识别的准确率。基于词频-逆文档频率(TF-IDF)算法,文章提出了一种文本量化方法将文本转变为向量。为评估闵可夫斯基距离和余弦相似度识别作者的共同作用,提出了一种混合距离用于计算两个文本之间的距离。实验结果显示在中英文两种数据集上,运用提出的量化方法量化文本能有效提高支持向量机、K近邻和闵可夫斯基距离(p=1和p=2)识别文本作者的准确率。
展开更多
关键词
作者识别
文本
量化
TF-IDF算法
文本
距离
下载PDF
职称材料
论20世纪90年代诗歌的文本距离与接受困境
5
作者
周德波
《沈阳农业大学学报(社会科学版)》
2007年第3期456-458,共3页
20世纪90年代诗歌在文学的整体架构中处于相对尴尬的境遇,个体话语场的衍生和叙述策略的变化同时并存。诗歌文本在书写的过程中,受主体价值认定、文化环境的变迁、书写状态的差异等因素的影响,其文本距离不断衍生。这造成了批评的困难,...
20世纪90年代诗歌在文学的整体架构中处于相对尴尬的境遇,个体话语场的衍生和叙述策略的变化同时并存。诗歌文本在书写的过程中,受主体价值认定、文化环境的变迁、书写状态的差异等因素的影响,其文本距离不断衍生。这造成了批评的困难,也导致了诗美的泛化,对于诗歌发展本身起了阻滞的作用。认识这一状况将有利于当下诗歌文本书写的自觉。
展开更多
关键词
20世纪90年代诗歌
文本
书写
文本
距离
下载PDF
职称材料
基于文本成分距离的节事“官方投射形象-观众感知形象”比较研究
被引量:
6
6
作者
耿爽
何钰琴
+1 位作者
许欣
牛奔
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2022年第6期115-127,共13页
【目的】探究节事活动官方宣传的投射形象与观众分享内容的感知形象在不同形象维度上的差异与一致性。【方法】通过爬虫收集官方宣传数据与观众相关评论数据,采用扎根理论构建节事形象概念模型,通过文本成分距离计算分析各维度要素上的...
【目的】探究节事活动官方宣传的投射形象与观众分享内容的感知形象在不同形象维度上的差异与一致性。【方法】通过爬虫收集官方宣传数据与观众相关评论数据,采用扎根理论构建节事形象概念模型,通过文本成分距离计算分析各维度要素上的形象距离,量化分析节事观众感知形象和官方投射形象之间的差异,最后收集问卷数据对节事概念模型与文本成分距离分析结果进行多元数据的验证。【结果】节事形象包含节事、社会、场所三个维度和19个范畴,场所维度上“感知-投射”形象差异最大(4.349),社会维度上“感知-投射”形象差异最小(3.251)。【局限】以草莓音乐节为研究案例,数据量相对有限,未来考虑补充其他节事活动数据进行拓展。【结论】本研究为追踪和分析官方投射形象与观众感知形象的差距提供了有效的数据驱动的分析路径。
展开更多
关键词
感知形象
投射形象
扎根理论
文本
成分
距离
原文传递
基于文本技术距离的企业知识溢出研究
7
作者
于云云
冯树辉
+1 位作者
廖辉
朱平芳
《数量经济研究》
2023年第3期173-190,共18页
技术距离是衡量企业、行业或区域间技术差异和知识溢出的重要工具。本文通过文本分析方法计算企业技术相似性,测度技术距离,并将其用于微观企业知识溢出研究。本文基于企业描述信息,使用词频-逆文档频率(TF-IDF)方法和文本动态网络分类(...
技术距离是衡量企业、行业或区域间技术差异和知识溢出的重要工具。本文通过文本分析方法计算企业技术相似性,测度技术距离,并将其用于微观企业知识溢出研究。本文基于企业描述信息,使用词频-逆文档频率(TF-IDF)方法和文本动态网络分类(TNIC)方法提取微观企业技术特征,构造两种基于文本技术距离的空间权重矩阵WTF-IDF和WTNIC;以长三角、珠三角、京津冀三大城市群科技型中小企业知识溢出为例进行实证研究,证实该方法在实际应用中的使用价值;并将其与传统技术距离构建方法进行比较,实证结果表明基于文本方法构造的技术距离在微观知识溢出实证研究中具有更好的效果。此外,实证研究也发现:三大城市群内科技型中小企业间存在正向的显性知识溢出,相比之下,京津冀的科技型中小企业显性知识溢出并不明显;三大城市群均出现了研发资本投入的挤占效应;京津冀地区技术壁垒较高的技术领域存在“隐性知识过度向中心集中”现象。
展开更多
关键词
文本
技术
距离
企业技术相似性矩阵
知识溢出
城市群
下载PDF
职称材料
透视文本的距离与语言的张力
8
作者
周呈宝
《课外语文(下)》
2016年第5期19-19,共1页
两篇不同体裁的文章,却可以透过文本和深入挖掘语言的张力,进而走进文本。当人的思想和文本中语言与文字的延展与变形相契合的时候,自然我们就"触底"了。
关键词
文本
的
距离
语言的张力
下载PDF
职称材料
题名
最大距离法选取初始簇中心的K-means文本聚类算法的研究
被引量:
108
1
作者
翟东海
鱼江
高飞
于磊
丁锋
机构
西南交通大学信息科学与技术学院
西藏大学工学院
出处
《计算机应用研究》
CSCD
北大核心
2014年第3期713-715,719,共4页
基金
国家语委"十二五"科研规划项目(YB125-49)
国家教育部科学技术研究重点项目(212167)
+1 种基金
中央高校基本科研业务费专项资金科技创新项目(SWJTU12CX096)
西藏自治区大学生创新性实验训练计划项目(2011CX051)
文摘
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的Kmeans文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比,新提出的文本聚类算法在降低了聚类总耗时的同时,F度量值也有了明显提高。
关键词
K-MEANS聚类算法
最大
距离
文本
聚类
文本
距离
测度函数
F度量值
Keywords
K-means clustering algorithm
maximum distance
text clustering
text distance
measurement function
F-measure
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于改进的K-means算法在文本挖掘中的应用
被引量:
9
2
作者
杨丹
朱世玲
卞正宇
机构
南京邮电大学计算机学院
出处
《计算机技术与发展》
2019年第4期68-71,共4页
基金
国家"863"高技术发展计划项目(2006AA01Z201)
文摘
K-means算法具有简单易于理解的特征,广泛运用于聚类过程中,但是其初始聚类中心是随机确定的,这样极容易导致聚类结果的稳定性很差。针对传统K-means算法对于初始聚类中心选择的敏感性及最大最小距离法容易选取离散点的不足,提出了一种新的聚类中心选择评判函数,依次考察每个点的函数值,选取当前函数值最大的点作为新的聚类中心,直到满足事先确定的聚类中心数。新聚类中心评判函数既可以保证新中心点周围是紧凑的,又可以保证远离其他中心点。最后将该算法运应用于文本聚类之中,根据准确率、召回率及F度量值来衡量算法的聚类质量。实验结果表明,该算法相对于传统算法和最大最小距离算法,准确率更高,聚类质量更好,较适合于文本聚类。
关键词
K-MEANS算法
聚类中心
文本
聚类
文本
距离
稀疏度
Keywords
K-means algorithm
clustering center
text clustering
text distance
sparseness
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于贝叶斯网和RoBERTa的文本派生关系挖掘方法
3
作者
庄园
翁年凤
李杰
机构
南京信息工程大学计算机学院、网络空间安全学院
国防科技大学第六十三研究所
国防科技大学大数据与决策实验室
出处
《计算机工程与设计》
北大核心
2024年第9期2690-2696,共7页
基金
国家自然科学基金项目(61371196)
国家重大科技专项基金项目(2015ZX01040201-003)。
文摘
对不实信息进行溯源分析是抑制社交网络中不实信息传播的重要手段,传统数据溯源方法主要针对结构化数据,难以准确判断文本之间的派生关系。针对这些问题,提出一种基于贝叶斯网和RoBERTa的文本派生关系挖掘方法,通过RoBERTa模型获得文本向量;通过RoBERTa模型初步预测文本间的派生关系,得到文本是否具有派生关系的分类标签;基于向量距离、文本距离、时间跨度和文本分类标签构建贝叶斯网,对文本派生关系进行判断。实验结果表明,所提方法查准率、查全率、F 1值均高于对比方法,验证了该方法的有效性。
关键词
数据溯源
文本
派生
贝叶斯网
预训练语言模型
派生关系
文本
距离
概率模型
Keywords
data provenance
text derivation
Bayesian network
per-trained language model
derivation relation
text distance
probabilistic models
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于TF-IDF算法的文本量化方法及作者识别应用
被引量:
2
4
作者
李楚
机构
东北大学秦皇岛分校
出处
《现代信息科技》
2022年第19期1-6,12,共7页
文摘
作者识别任务旨在找到匿名文本的作者,在互联网蓬勃发展的时代,准确识别出匿名文本的作者对维护网络环境的安全有着积极作用。在该任务中,文本内容的量化非常关键,能直接影响作者识别的准确率。基于词频-逆文档频率(TF-IDF)算法,文章提出了一种文本量化方法将文本转变为向量。为评估闵可夫斯基距离和余弦相似度识别作者的共同作用,提出了一种混合距离用于计算两个文本之间的距离。实验结果显示在中英文两种数据集上,运用提出的量化方法量化文本能有效提高支持向量机、K近邻和闵可夫斯基距离(p=1和p=2)识别文本作者的准确率。
关键词
作者识别
文本
量化
TF-IDF算法
文本
距离
Keywords
author identification
text quantification
TF-IDF algorithm
text distance
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
论20世纪90年代诗歌的文本距离与接受困境
5
作者
周德波
机构
辽宁大学文化传播学院
出处
《沈阳农业大学学报(社会科学版)》
2007年第3期456-458,共3页
文摘
20世纪90年代诗歌在文学的整体架构中处于相对尴尬的境遇,个体话语场的衍生和叙述策略的变化同时并存。诗歌文本在书写的过程中,受主体价值认定、文化环境的变迁、书写状态的差异等因素的影响,其文本距离不断衍生。这造成了批评的困难,也导致了诗美的泛化,对于诗歌发展本身起了阻滞的作用。认识这一状况将有利于当下诗歌文本书写的自觉。
关键词
20世纪90年代诗歌
文本
书写
文本
距离
Keywords
the 1990's poetry
text writing
text distance
分类号
F302.6 [经济管理—产业经济]
下载PDF
职称材料
题名
基于文本成分距离的节事“官方投射形象-观众感知形象”比较研究
被引量:
6
6
作者
耿爽
何钰琴
许欣
牛奔
机构
深圳大学管理学院
深圳大学大湾区国际创新学院
华南理工大学旅游管理系
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2022年第6期115-127,共13页
基金
国家自然科学基金项目(项目编号:71901150,71901143)
广东省基础与应用基础研究基金项目(项目编号:2022A1515012077)的研究成果之一。
文摘
【目的】探究节事活动官方宣传的投射形象与观众分享内容的感知形象在不同形象维度上的差异与一致性。【方法】通过爬虫收集官方宣传数据与观众相关评论数据,采用扎根理论构建节事形象概念模型,通过文本成分距离计算分析各维度要素上的形象距离,量化分析节事观众感知形象和官方投射形象之间的差异,最后收集问卷数据对节事概念模型与文本成分距离分析结果进行多元数据的验证。【结果】节事形象包含节事、社会、场所三个维度和19个范畴,场所维度上“感知-投射”形象差异最大(4.349),社会维度上“感知-投射”形象差异最小(3.251)。【局限】以草莓音乐节为研究案例,数据量相对有限,未来考虑补充其他节事活动数据进行拓展。【结论】本研究为追踪和分析官方投射形象与观众感知形象的差距提供了有效的数据驱动的分析路径。
关键词
感知形象
投射形象
扎根理论
文本
成分
距离
Keywords
Perceived Image
Projected Image
Grounded Theory
Textual Compositional Distance
分类号
F592 [经济管理—旅游管理]
TP391 [经济管理—产业经济]
原文传递
题名
基于文本技术距离的企业知识溢出研究
7
作者
于云云
冯树辉
廖辉
朱平芳
机构
上海社会科学院数量经济研究中心
上海财经大学经济学院
上海交通大学安泰经济与管理学院
出处
《数量经济研究》
2023年第3期173-190,共18页
基金
国家自然科学基金项目“偏线性分位数样本截取和选择模型的估计与应用——基于非参数筛分法(Sieve Method)”(72273091)
“非线性动态因子模型和函数型时间序列的前沿理论及其应用”(71773078)
中国博士后科学基金第73批面上资助项目“政策评价中适用于高维数据的非参数模型估计与应用研究”(2023M732268)的联合资助。
文摘
技术距离是衡量企业、行业或区域间技术差异和知识溢出的重要工具。本文通过文本分析方法计算企业技术相似性,测度技术距离,并将其用于微观企业知识溢出研究。本文基于企业描述信息,使用词频-逆文档频率(TF-IDF)方法和文本动态网络分类(TNIC)方法提取微观企业技术特征,构造两种基于文本技术距离的空间权重矩阵WTF-IDF和WTNIC;以长三角、珠三角、京津冀三大城市群科技型中小企业知识溢出为例进行实证研究,证实该方法在实际应用中的使用价值;并将其与传统技术距离构建方法进行比较,实证结果表明基于文本方法构造的技术距离在微观知识溢出实证研究中具有更好的效果。此外,实证研究也发现:三大城市群内科技型中小企业间存在正向的显性知识溢出,相比之下,京津冀的科技型中小企业显性知识溢出并不明显;三大城市群均出现了研发资本投入的挤占效应;京津冀地区技术壁垒较高的技术领域存在“隐性知识过度向中心集中”现象。
关键词
文本
技术
距离
企业技术相似性矩阵
知识溢出
城市群
Keywords
Text-Based Technical Distance
Technology Similarity Matrix between Enterprises
Knowledge Spillover
Metropolitan Areas
分类号
F272 [经济管理—企业管理]
下载PDF
职称材料
题名
透视文本的距离与语言的张力
8
作者
周呈宝
机构
天津市耀华中学
出处
《课外语文(下)》
2016年第5期19-19,共1页
基金
天津市教育学会十二五课题研究成果
课题名称:高中语文基于文本主体多元阅读方式的探究
+1 种基金
课题号:JK1250588B
级别:天津市教育科学学会十二五课题
文摘
两篇不同体裁的文章,却可以透过文本和深入挖掘语言的张力,进而走进文本。当人的思想和文本中语言与文字的延展与变形相契合的时候,自然我们就"触底"了。
关键词
文本
的
距离
语言的张力
分类号
G632 [文化科学—教育学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
最大距离法选取初始簇中心的K-means文本聚类算法的研究
翟东海
鱼江
高飞
于磊
丁锋
《计算机应用研究》
CSCD
北大核心
2014
108
下载PDF
职称材料
2
基于改进的K-means算法在文本挖掘中的应用
杨丹
朱世玲
卞正宇
《计算机技术与发展》
2019
9
下载PDF
职称材料
3
基于贝叶斯网和RoBERTa的文本派生关系挖掘方法
庄园
翁年凤
李杰
《计算机工程与设计》
北大核心
2024
0
下载PDF
职称材料
4
基于TF-IDF算法的文本量化方法及作者识别应用
李楚
《现代信息科技》
2022
2
下载PDF
职称材料
5
论20世纪90年代诗歌的文本距离与接受困境
周德波
《沈阳农业大学学报(社会科学版)》
2007
0
下载PDF
职称材料
6
基于文本成分距离的节事“官方投射形象-观众感知形象”比较研究
耿爽
何钰琴
许欣
牛奔
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2022
6
原文传递
7
基于文本技术距离的企业知识溢出研究
于云云
冯树辉
廖辉
朱平芳
《数量经济研究》
2023
0
下载PDF
职称材料
8
透视文本的距离与语言的张力
周呈宝
《课外语文(下)》
2016
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部