期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于文本计算的我国档案政策法律协同性研究——以《中华人民共和国档案法》(2020修订版)和《“十四五”全国档案事业发展规划》为蓝本 被引量:10
1
作者 马海群 张涛 《档案学研究》 CSSCI 北大核心 2022年第2期26-32,共7页
作为国家档案事业发展的顶层设计,《中华人民共和国档案法》(2020修订版)和《“十四五”全国档案事业发展规划》发挥了重要的引领作用,探寻其协同关系不但有助于档案工作者准确把握新时代国家档案工作总体设计方向,还能使地方政府正确... 作为国家档案事业发展的顶层设计,《中华人民共和国档案法》(2020修订版)和《“十四五”全国档案事业发展规划》发挥了重要的引领作用,探寻其协同关系不但有助于档案工作者准确把握新时代国家档案工作总体设计方向,还能使地方政府正确贯彻执行国家档案工作的方针政策。因此本文以《中华人民共和国档案法》(2020修订版)法律文本和《“十四五”全国档案事业发展规划》政策文本为研究对象,利用LDA主题聚类及相似度计算方法对其主题和内容协同关系进行研究。结果表明:两部政策法律在档案信息化建设、档案人才培养方面具有较强的协同性,这为促进我国档案事业高质量发展及地区档案政策法律制定提供决策参考。 展开更多
关键词 档案法 档案事业发展规划 政策法律协同 文本计算 LDA
原文传递
基于LDA模型的我国乡村文化政策主题挖掘与演化分析——与乡村文化科研论文对比视角 被引量:1
2
作者 胡卉 《图书馆研究》 2024年第1期119-128,共10页
基于乡村文化主题,以396条政策文本和1 480条科研论文为样本,运用主题建模的方法分析政策与科研的异同情况。通过对比发现,当前乡村文化政策还存在有待完善和调整之处,由此提出未来乡村文化政策的发展方向,具体包括提升乡村文化认同、... 基于乡村文化主题,以396条政策文本和1 480条科研论文为样本,运用主题建模的方法分析政策与科研的异同情况。通过对比发现,当前乡村文化政策还存在有待完善和调整之处,由此提出未来乡村文化政策的发展方向,具体包括提升乡村文化认同、加强公共文化服务供给、完善文化产业发展配套政策、培育文化消费市场。 展开更多
关键词 乡村文化 主题识别 主题演化 文本计算
下载PDF
政策文本计算:一种新的政策文本解读方式 被引量:86
3
作者 裴雷 孙建军 周兆韬 《图书与情报》 CSSCI 北大核心 2016年第6期47-55,共9页
政策文本计算是大数据环境下政策分析科学与计算科学交叉融合的产物。文章通过对政策文本计算的方法论、应用工具和典型研究议题的跟踪和梳理,提出了政策文本计算方法的主要特征与不足,并讨论了该方法在精细化政策分析和定量政治研究领... 政策文本计算是大数据环境下政策分析科学与计算科学交叉融合的产物。文章通过对政策文本计算的方法论、应用工具和典型研究议题的跟踪和梳理,提出了政策文本计算方法的主要特征与不足,并讨论了该方法在精细化政策分析和定量政治研究领域的研究前景。 展开更多
关键词 政策文本计算 政策诠释 政策分析 方法论
下载PDF
文本相似度视角下我国大数据政策比较研究 被引量:36
4
作者 张涛 马海群 易扬 《图书情报工作》 CSSCI 北大核心 2020年第12期26-37,共12页
[目的/意义]大数据政策的制定与实施是国家推动大数据产业发展的重要手段,因此对大数据的政策研究也受到了社会广泛关注。[方法/过程]以文本相似度为视角对国务院发布的《促进大数据发展行动纲要》和我国22个地区发布的大数据政策文本... [目的/意义]大数据政策的制定与实施是国家推动大数据产业发展的重要手段,因此对大数据的政策研究也受到了社会广泛关注。[方法/过程]以文本相似度为视角对国务院发布的《促进大数据发展行动纲要》和我国22个地区发布的大数据政策文本进行比较研究。[结果/结论]数据表明:广东省、福建省所制定的政策最为完整和全面,数据开放共享和安全保障在各地区大数据政策制定层面整体关注最高,呈现出相似性,在内蒙古自治区、四川省等地区大数据政策制定中区域特色较为突出,呈现出差异性。随着各地区相继颁布人工智能政策,未来对人工智能视域下大数据政策的研究将成为新方向。 展开更多
关键词 文本相似度 大数据政策 政策比较研究 政策文本计算
原文传递
基于政策文本计算的开放数据与数据安全政策协同研究 被引量:35
5
作者 张涛 马海群 《情报理论与实践》 CSSCI 北大核心 2020年第6期149-155,141,共8页
[目的/意义]5G、人工智能、区块链等技术的发展给大数据产业带来了崭新的机遇,数据政策作为国家调控大数据产业的重要手段,它的制定与实施受到了社会的广泛关注。在数据政策中开放数据与数据安全作为主要任务,两者协同关系的研究是推动... [目的/意义]5G、人工智能、区块链等技术的发展给大数据产业带来了崭新的机遇,数据政策作为国家调控大数据产业的重要手段,它的制定与实施受到了社会的广泛关注。在数据政策中开放数据与数据安全作为主要任务,两者协同关系的研究是推动大数据产业健康发展的关键因素。[方法/过程]文章通过LDA主题聚类方法选取数据政策中开放数据和数据安全的主题关键词,再把主题分布、共现强度、政策力度的数值进行加权计算得出主题协同度。[结果/结论]数据分析发现:我国数据政策中开放数据和数据安全主题协同度数值整体较低,但部分政策主题协同度数值大于0.8,说明这些政策间协同关系较为紧密,最后根据我国大数据产业实际发展情况结合计算结果,给出政策制定对策与建议。 展开更多
关键词 开放数据 数据安全 主题协同研究 政策文本计算
原文传递
一种基于政策文本计算的政策内容分析方法实证研究——以互联网租赁自行车为例 被引量:26
6
作者 张涛 蔡庆平 马海群 《信息资源管理学报》 CSSCI 2019年第1期66-76,共11页
政策文本计算是信息科学、政策科学与计算科学交叉融合的产物,通过对政策文件及政策评论内容进行计算分析,使政策制定研究过程更加科学有效。文章首先利用关键词抽取法对政策文件进行框架提取;其次利用主题分析法对政策评论数据进行聚... 政策文本计算是信息科学、政策科学与计算科学交叉融合的产物,通过对政策文件及政策评论内容进行计算分析,使政策制定研究过程更加科学有效。文章首先利用关键词抽取法对政策文件进行框架提取;其次利用主题分析法对政策评论数据进行聚类分析;再次利用共现分析法对政策文件及政策评论共现强度数据计算;最后依据计算所得数据对政策内容进行综合分析,进而形成一种新的政策内容分析方法并以互联网租赁自行车为例证实了该方法的有效性,此方法的提出也为未来政策分析研究提供了新思路。 展开更多
关键词 政策文本计算 政策内容分析 互联网租赁自行车 文档主题生成模型(LDA) 内容分析方法
下载PDF
基于文本相似度计算的我国人工智能政策比较研究 被引量:24
7
作者 张涛 马海群 《情报杂志》 CSSCI 北大核心 2021年第1期39-47,24,共10页
[目的/意义]随着2019年政府工作报告中首次提出“智能+”概念,我国各地区将加快推动人工智能与实体经济等产业深度融合,而政策是政府调控现代市场经济和社会管理的重要手段,因此对人工智能的政策研究受到了社会广泛的关注。[方法/过程]... [目的/意义]随着2019年政府工作报告中首次提出“智能+”概念,我国各地区将加快推动人工智能与实体经济等产业深度融合,而政策是政府调控现代市场经济和社会管理的重要手段,因此对人工智能的政策研究受到了社会广泛的关注。[方法/过程]基于文本相似度计算对国务院发布的《新一代人工智能发展规划》和我国20个地区发布的人工智能政策文本进行比较研究。[结果/结论]数据表明:新兴产业、产业升级、人才队伍、智能服务、社会治理等内容在各地区人工智能政策制定层面整体关注最高,呈现出政策制定的相似性。安徽省、辽宁省所制定的政策比较完整和全面,甘肃省、黑龙江省在政策制定中部分内容较为突出,且逐渐形成人工智能产业发展区域特色,呈现出政策制定的差异性。最后从可操作性角度为我国各地区人工智能产业发展提出政策建议。 展开更多
关键词 政策比较研究 人工智能政策 文本相似度 政策文本计算 人工智能 余弦相似度
下载PDF
我国科研诚信政策变迁计量分析 被引量:20
8
作者 冯凌子 刘敬 袁军鹏 《图书情报工作》 CSSCI 北大核心 2020年第9期73-84,共12页
[目的/意义]对我国中央发布的科研诚信政策和地方响应情况的现状及变迁作了分析,以求把握政策发展态势与阶段重点,为科研诚信建设提供支撑,为我国科研诚信政策发展研究提供帮助。[方法/过程]搜集整理108份与科研诚信相关的中央政策及80... [目的/意义]对我国中央发布的科研诚信政策和地方响应情况的现状及变迁作了分析,以求把握政策发展态势与阶段重点,为科研诚信建设提供支撑,为我国科研诚信政策发展研究提供帮助。[方法/过程]搜集整理108份与科研诚信相关的中央政策及80份参照落实中央政策的地方政策,使用政策文本计算与政策文献量化方法,对政策发布时间、发布机构、政策内容及政策响应情况的现状及其变迁进行分析梳理,得到了政策发布的时间特征、重要机构特征、内容侧重点变化以及政策响应的特征。[结果/结论]①科研诚信相关治理措施早在1980年就有涉及,近年来围绕国家创新建设的需求发文数量骤增,治理的态度更坚决,措施办法也更加具体。②科研诚信的治理由中央政府领导,教育部与科技部是各个阶段的主要管理部门,相关部门逐渐加入进行共同治理,目前已形成合力的格局。③各部门的科研诚信治理着力点、对象与方法略有差异,但总体而言,从方法与目标上来看,逐渐从自我约束、道德教育转变到制度建设与道德建设齐抓共管。④全国范围内绝大多数的地方省市都积极响应了中央政策,采取措施进行科研诚信治理,但相对而言有一定的时滞。 展开更多
关键词 科研诚信 政策文本计算 政策文献量化 政策变迁 政策分析
原文传递
基于政策文本计算的突发公共事件下中小企业扶持政策供需匹配研究——以新冠肺炎疫情为例 被引量:19
9
作者 盛东方 尹航 《现代情报》 CSSCI 2020年第8期10-19,共10页
[目的/意义]突发公共事件中的政策需求方,是应急管理活动的重要构成角色之一。相应的政策供给是否与政策需求相匹配,关系着应急管理的成效。政策供需匹配研究拓展了政策文本研究的分析视角,为优化应急管理政策的科学设计,提升突发公共... [目的/意义]突发公共事件中的政策需求方,是应急管理活动的重要构成角色之一。相应的政策供给是否与政策需求相匹配,关系着应急管理的成效。政策供需匹配研究拓展了政策文本研究的分析视角,为优化应急管理政策的科学设计,提升突发公共事件治理的精准度提供参考。[方法/过程]以新冠肺炎疫情为例,基于主题分布分析和关键词共现分析两条路径,采用融合了主题挖掘、文本分类和共现分析的政策文本计算方法,探究突发公共事件下中小企业扶持政策供需匹配问题。[结果/结论]金融支持类政策供需较为平衡,信息化征管和税费优惠类政策尚需加强舆论宣传,政务服务和物资保供类政策有待进一步增加政策供给。 展开更多
关键词 政策文本计算 政策供需匹配 突发公共事件 新冠肺炎 中小企业
下载PDF
基于政策文本计算的数据开放与隐私保护政策协同度研究 被引量:14
10
作者 周环 幸强国 唐泳 《图书馆论坛》 CSSCI 北大核心 2021年第11期118-127,共10页
开展隐私政策中数据开放和隐私保护的主题协同度研究,旨在完善政府数据开放平台的隐私政策,进而推动数据开放和隐私保护在实践中的协同和平衡,对推进我国政府数据开放的可持续发展具有重要意义。文章通过政策文本计算,用LDA主题聚类法... 开展隐私政策中数据开放和隐私保护的主题协同度研究,旨在完善政府数据开放平台的隐私政策,进而推动数据开放和隐私保护在实践中的协同和平衡,对推进我国政府数据开放的可持续发展具有重要意义。文章通过政策文本计算,用LDA主题聚类法选取主题关键词,分别计算主题分布和共现强度,再经过加权计算得出隐私政策的主题协同度。研究发现,我国政府数据开放平台隐私政策的数据开放和隐私保护的主题协同度数值偏低,近5成政策得分为零分,数据开放主题数值大概率高于隐私保护主题数值。结合我国政府数据开放实践中的实际情况,文章提出继续完善数据政策网络体系、加强隐私保护、构建多元协作机制、增强政策实施协同效力等对策。 展开更多
关键词 政府数据开放平台 隐私政策 隐私保护 主题协同 政策文本计算
下载PDF
我国央地政府健康信息政策比较研究
11
作者 黄丽霞 郭路颖 《情报理论与实践》 CSSCI 北大核心 2024年第7期199-210,共12页
[目的/意义]党的二十大提出把保障人民健康放在优先发展的战略地位,而政策作为实现这一目标的关键驱动力起到了重要的引导和支持作用。建立我国健康信息政策宏观与中观层面的联系并进行比较,能够推进我国健康事业的全面发展。[方法/过程... [目的/意义]党的二十大提出把保障人民健康放在优先发展的战略地位,而政策作为实现这一目标的关键驱动力起到了重要的引导和支持作用。建立我国健康信息政策宏观与中观层面的联系并进行比较,能够推进我国健康事业的全面发展。[方法/过程]结合各地健康事业发展状况,利用文本相似度计算对国务院发布的《“十四五”国民健康规划》和我国25个地区发布的健康信息政策文本进行比较研究。[结果/结论]中医药健康服务、疫情救治、业态融合、老年人健康等内容在各地关注度最高,呈现出与中央的政策耦合。宁夏回族自治区及广西壮族自治区政策完整性强;安徽省、海南省逐渐形成健康产业区域特色;广东省、湖南省单项数值突出,呈现出政策制定的差异性。在此基础上,提出强化央地间的政策协同性、加强区域间的经验协作、挖掘区域优势构建特色健康产业格局的建议。 展开更多
关键词 健康信息 健康信息政策 政策比较研究 政策文本计算 文本相似度
原文传递
我国省级科技管理部门官网文本数据的主题建模分析研究 被引量:2
12
作者 赵钰潇 化柏林 《情报理论与实践》 CSSCI 北大核心 2020年第11期116-121,168,共7页
科技情报领域的文本呈现出多源异构的特征,且对于不同省份的科技情报数据,往往同时包含多种不同的主题。文章使用各个省、自治区和直辖市的科技厅局公开数据,使用经过Word2vec进行词向量转换后的LDA2vec进行主题建模,并对结果进行分析... 科技情报领域的文本呈现出多源异构的特征,且对于不同省份的科技情报数据,往往同时包含多种不同的主题。文章使用各个省、自治区和直辖市的科技厅局公开数据,使用经过Word2vec进行词向量转换后的LDA2vec进行主题建模,并对结果进行分析。首先从科技厅官网上爬取多种数据,并进行整合与清洗。随后对数据进行分词和词性标注以进行进一步的筛选。最后通过LDA2vec方法进行建模,并针对各省主题词进行共性分析和差异性分析。通过分析,各个省份的科技情报主题呈现"大同小异"的特点,既有共同的热点主题,反映出对国家政策的一致性和科技发展的时代特点,也有各自突出的主题,反映出区域的管理侧重和发展特色。 展开更多
关键词 科技情报 文本分析 政策文本计算 主题建模 科技管理部门
原文传递
基于情感计算的城市历史公园更新改造文化服务感知评价——以鲁迅公园更新改造为例 被引量:8
13
作者 戴代新 陈语娴 《同济大学学报(社会科学版)》 CSSCI 北大核心 2022年第3期81-90,共10页
文化服务是识别文化遗产的文化特征及其价值组成的一条重要途径。采用文本情感计算方法,利用上海市10座历史公园的大众点评、位置微博和调研文本数据构建历史公园空间特征和文化服务感知词库,并以2006—2018年的大众点评数据为基础,对... 文化服务是识别文化遗产的文化特征及其价值组成的一条重要途径。采用文本情感计算方法,利用上海市10座历史公园的大众点评、位置微博和调研文本数据构建历史公园空间特征和文化服务感知词库,并以2006—2018年的大众点评数据为基础,对鲁迅公园2013—2014年改造前后的文化服务感知进行量化测度。研究结果显示:改造后“放松”“社交”“健康”的感知显著提升;“归属感”和“地方感”明显下降;其余文化服务感知略有提升。同时,研究也表明:文本情感计算是时空维度的文化服务量化测度的有效工具;文化服务感知与空间特征及改造策略具有关联性,文化服务感知的量化结果可以为历史公园保护与更新决策的制定提供参考。 展开更多
关键词 风景园林 文本情感计算 历史公园更新 文化服务感知 鲁迅公园
下载PDF
基于深度学习的文本相似度计算 被引量:8
14
作者 邵恒 冯兴乐 包芬 《郑州大学学报(理学版)》 CAS 北大核心 2020年第1期66-71,78,共7页
提出了一种基于改进堆叠自动编码器提取低维度句子特征的方法,同时采用自动编码器的降噪技术以增加鲁棒性和表达能力。接着用提取的特征计算文本间句子的相似度并组成相似矩阵,用对应的文本生成文本特征矩阵,然后分别通过对应的深度卷... 提出了一种基于改进堆叠自动编码器提取低维度句子特征的方法,同时采用自动编码器的降噪技术以增加鲁棒性和表达能力。接着用提取的特征计算文本间句子的相似度并组成相似矩阵,用对应的文本生成文本特征矩阵,然后分别通过对应的深度卷积网络训练并提取特征。最后用特征融合技术将两个深度卷积网络提取的特征融合,经全连接的多层感知机计算相似度。实验结果证明,提出的方法能够表达句子的语义特征和文本的上下文特征,有效提高文本相似度计算的准确度。 展开更多
关键词 深度学习 自动编码器 卷积神经网络 文本相似度计算
下载PDF
文本智能计算研究的主题挖掘与演化分析 被引量:6
15
作者 胡吉明 田沛霖 《情报杂志》 CSSCI 北大核心 2021年第4期139-146,共8页
[目的/意义]文本智能计算是近年来的新兴交叉学科,揭示其研究动态对情报学研究有重要意义。[方法/过程]从关键词共现网络的视角,以WOS核心合集中的文献为分析样本,借助复杂网络计算、社区划分以及可视化等技术手段,揭示了文本智能计算... [目的/意义]文本智能计算是近年来的新兴交叉学科,揭示其研究动态对情报学研究有重要意义。[方法/过程]从关键词共现网络的视角,以WOS核心合集中的文献为分析样本,借助复杂网络计算、社区划分以及可视化等技术手段,揭示了文本智能计算研究的主题结构和演化脉络,并总结归纳了其发展态势。[结果/结论]当前文本智能计算研究的结构趋于稳定,各子领域关联性较强。研究当前主要分为5个子领域,人工智能、数据挖掘是当前的领域研究热点,文本分析领域将有所突破,并成为新的研究重心。 展开更多
关键词 文本智能计算 复杂网络分析 主题结构 演化态势
下载PDF
基于同态加密技术的实验室开放管理系统 被引量:5
16
作者 郭俊岭 侯红霞 《信息安全研究》 2020年第2期188-192,共5页
构建基于同态加密技术的实验室开放管理系统,以提高实验室管理系统的隐私保护能力.依据实验室开放管理系统的需求分析,完成对实验室开放系统功能模块的分析,提出了一种基于同态加密技术的实验室开放管理系统,保证用户隐私的安全性,保障... 构建基于同态加密技术的实验室开放管理系统,以提高实验室管理系统的隐私保护能力.依据实验室开放管理系统的需求分析,完成对实验室开放系统功能模块的分析,提出了一种基于同态加密技术的实验室开放管理系统,保证用户隐私的安全性,保障实验室开放管理系统安全. 展开更多
关键词 实验室开放管理系统 同态加密算法 Paillier加密 隐私数据 密文计算
下载PDF
利用深度学习的文本相似度计算方法 被引量:4
17
作者 汪一百 陈实 叶剑锋 《湘潭大学自然科学学报》 CAS 2018年第2期104-107,共4页
针对在自然语言处理中起着关键作用的文本相似度计算问题,提出了一种神经网络深度学习的词向量模型计算方法.利用词向量计算文本语义相似度,并采用高频词滤波的方法削弱扰动的影响.对百度新闻、新浪新闻等的中文词库进行训练,并与传统... 针对在自然语言处理中起着关键作用的文本相似度计算问题,提出了一种神经网络深度学习的词向量模型计算方法.利用词向量计算文本语义相似度,并采用高频词滤波的方法削弱扰动的影响.对百度新闻、新浪新闻等的中文词库进行训练,并与传统的检测方法进行对比.实验结果证明了提出方法的有效性和准确性. 展开更多
关键词 文本相似度计算 词向量模型 深度学习 高频词滤波
下载PDF
基于词频-逆文档频率和法律本体的相似案例检索算法 被引量:2
18
作者 张云婷 叶麟 +1 位作者 方滨兴 张宏莉 《智能计算机与应用》 2021年第5期229-234,F0003,共7页
智慧检务是近年来研究的热点问题,而相似案例检索是智慧检务中公共法律服务模块的基本需求。传统的基于关键词的检索方式使案例的相似性仅局限在浅显的词语层面上,无法满足用户在文章和语义层面上的检索需求。针对公共法律服务中的相似... 智慧检务是近年来研究的热点问题,而相似案例检索是智慧检务中公共法律服务模块的基本需求。传统的基于关键词的检索方式使案例的相似性仅局限在浅显的词语层面上,无法满足用户在文章和语义层面上的检索需求。针对公共法律服务中的相似案例检索问题,该文以公共法律服务案例为研究对象,引入能够突出法律语义的案例要素,并以其为依据为案例建模,提出了一种基于语义的相似案例检索算法。该算法首先结合词频-逆文档频率和法律本体,提取出语料库中全部案例要素,再基于向量空间模型,通过欧氏距离计算出用户输入案例和语料库中各案例的相似程度,从而实现语义层面上的相似案例检索。通过对12348中国法网司法行政(法律服务)案例库中案例的分类实验可知,与传统的词频-逆文档频率提取关键词方法相比,该算法在监狱教改类案例分类上,其F1值提高了36.36%。 展开更多
关键词 语义检索 文本相似度计算 词频-逆文档频率 本体知识 案例要素
下载PDF
话题内相关文本的内容计算 被引量:1
19
作者 刘冬明 杨尔弘 《中文信息学报》 CSCD 北大核心 2015年第5期98-103,共6页
信息的暴涨给文本处理带来了更多的挑战。话题检测能够把大量的信息以话题为单位有效地组织起来,然而最终用户有可能并不需要涉及某一话题的所有文本,而是仅仅关心该话题的具体内容。在我们根据相关文本智能表达话题内容推送给用户之前... 信息的暴涨给文本处理带来了更多的挑战。话题检测能够把大量的信息以话题为单位有效地组织起来,然而最终用户有可能并不需要涉及某一话题的所有文本,而是仅仅关心该话题的具体内容。在我们根据相关文本智能表达话题内容推送给用户之前,自动从相关文本中挑选符合用户需求的文本是一个非常有意义的工作。本文致力于相同话题文本之间的内容比较,目的是有效地选出满足需求的文本。我们通过对话题进行重新定义,并根据此定义设定了话题和文本的表示方法,给出了基于该表示方法的话题和文本之间的内容比较计算方法。最后,通过实验说明了这一系列方法的有效性。 展开更多
关键词 话题定义 文本表示 话题检测 文本内容计算
下载PDF
文本相似度计算方法提高诊断名称数据标准化过程中人工判断效率的影响
20
作者 郑景文 《中国卫生产业》 2022年第9期166-169,共4页
目的研究文本相似度计算方法在提高诊断名称数据标准化过程中人工判断效率的价值。方法严格遵照国家标准的疾病分类与代码上存在编码的诊断名称,按疾病名称进行排序,并对其ID进行标记,选择2020年3月—2021年8月使用的23681条诊断名称文... 目的研究文本相似度计算方法在提高诊断名称数据标准化过程中人工判断效率的价值。方法严格遵照国家标准的疾病分类与代码上存在编码的诊断名称,按疾病名称进行排序,并对其ID进行标记,选择2020年3月—2021年8月使用的23681条诊断名称文本数据,利用余弦相似度计算文本相似度,并通过单字与单字组合的穷举分词及频数、逆文本频率指数加权形成文本向量,经函数对计算结果进行校正。结果诊断名称长度为8.58个字符,获得9字组长度,经观察发现3字组后,字组暂停增长,但5字组逐渐减低,从而得知9字组长度未达50万维,可利用计算机处理。通过余弦相似度的计算,选择频数向量成为非标准数据,而标准数据选择频数逆文本频率指数加权的向量,最终将数据标准化。利用疾病诊断名称相似的文本,发现文本向量存在较大差别,其自身即为相似度最大值。通过字组组合的方式,测定不同文本向量,选择高血压进行举例。各类字组组合模式下存在356条诊断名称,其中390次相似度最大值并不是其本身。对于不同的情况实施分析,字组组合模式Ⅰ不一致,Ⅱ~Ⅸ模式一致,记成0、1、1、1、1、1、1、1、1。结论文本相似度计算方法能够提升诊断名称数据标准化,并促进人工判断效率改善。 展开更多
关键词 人工判断效率 文本相似度计算法 诊断名称数据标准化
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部