-
题名基于PLSA模型的文本分割
被引量:25
- 1
-
-
作者
石晶
戴国忠
-
机构
中国科学院软件研究所人机交互技术与智能信息处理实验室
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第2期242-248,共7页
-
基金
国家自然科学基金项目(60373056)
国家"九七三"重点基础研究发展规划基金项目(2002CB312103)
中国科学院软件研究所创新工程重大项目
-
文摘
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用·基于PLSA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建立联系·实验以汉语的整句作为基本块,尝试了多种相似性度量手段及边界估计策略,同时考虑相邻句重复的未登录词对相似值的影响,其最佳结果表明,片段边界的识别错误率为6·06%,远远低于其他同类算法·
-
关键词
文本分割
概率潜在语义分析
相似性度量
边界识别
-
Keywords
text segmentation
probabilistic latent semantic analysis (PLSA)
similarity metric
boundary discovering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名语篇建构中的事件和语境
被引量:16
- 2
-
-
作者
徐盛桓
-
机构
河南大学外语学院
-
出处
《宁波大学学报(人文科学版)》
2009年第6期59-64,共6页
-
基金
北京对外经济贸易大学语言学交流中心资助项目(86jmdyy092)
-
文摘
语言科学的最终任务是要探究和说明语言知识的最为本质的东西。就语篇来说,语篇建构的知识是有关语篇的本体论和方法论的知识;正是对语篇的本体论和同建立语篇的本体有关的方法论的认识,最终影响和决定一个语篇的合理建构。
-
关键词
语篇
语境
语境边界
-
Keywords
text
context
contextual boundary
-
分类号
H030
[语言文字—语言学]
-
-
题名解释学视角下课程文本理解的边界
被引量:12
- 3
-
-
作者
张家军
杨艺伟
-
机构
教育部人文社会科学重点研究基地西南大学西南民族教育与心理研究中心
西南大学教育学部
-
出处
《教育研究》
CSSCI
北大核心
2020年第4期52-62,共11页
-
基金
重庆市哲学社会科学2018年度规划项目“贫困地区中小学生学习力的模型建构与提升路径研究”(项目编号:2018YBJY106)的研究成果。
-
文摘
课程文本理解的边界是课程文本理解活动中各构成要素对课程文本理解的规范性约束,并使其有别于其他形式的文本理解活动。作为一种动态的规范性要求,具有鲜明的历史性与时代性。无边界约束下的课程文本理解活动容易出现理解秩序混乱、理解过程失真的失序现象。依据课程文本理解的实际境况,借助中外解释学理论,可以构建课程文本理解边界的要素分析模型,并基于此探究课程文本理解的边界。课程文本内容的官方性与思想的完整性构成了课程文本理解的文本边界;作者的意图和写作文本的时间间距构成了课程文本理解的作者边界;标准读者的属性和特定的理解旨趣构成了课程文本理解的读者边界;意义符合性原则和理解现实性原则构成了课程文本理解的规则边界。探寻课程文本理解的边界旨在澄明课程文本理解活动的发生机制,为课程文本意义寻觅一个合适的栖息地。
-
关键词
课程文本
解释学
文本理解
边界
-
Keywords
curriculum text
hermeneutics
text understanding
boundary
-
分类号
G423
[文化科学—课程与教学论]
-
-
题名中文医疗文本中的嵌套实体识别方法
- 4
-
-
作者
闫璟辉
宗成庆
徐金安
-
机构
北京交通大学计算机与信息工程学院
模式识别国家重点研究室(中国科学院自动化研究所)
-
出处
《软件学报》
EI
CSCD
北大核心
2024年第6期2923-2935,共13页
-
文摘
实体识别是信息抽取的关键技术.相较于普通文本,中文医疗文本的实体识别任务往往面对大量的嵌套实体.以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法,为此,提出一种融合实体嵌套规则的中文实体识别方法.所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务,在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤,从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律.在公开的医疗文本实体识别的实验上取得良好的效果.数据集上的实验表明,所提方法在嵌套类型实体识别性能上显著优于已有的方法,在整体准确率方面比最先进的方法提高0.5%.
-
关键词
实体识别
中文文本
医疗领域
嵌套实体识别
边界识别
-
Keywords
entity recognition
Chinese text
medical field
nested entity recognition
boundary detection
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名阅读教学中的文本解读:“多元”和“有界”
被引量:4
- 5
-
-
作者
杨进红
代秀秀
-
机构
广西师范学院文学院
渤海大学文学院
-
出处
《现代教育论丛》
2011年第4期55-57,共3页
-
文摘
阅读教学中应允许学生发表不同意见,但多元并不是不合理据地断章取义。多元解读只有以文本为基础,靠近作者与作品的本真意义,切合具体的语境和语体,这样的多元解读才是有价值和意义的。
-
关键词
文本解读
多元
有界
-
Keywords
text reading, plural, boundary
-
分类号
G633.3
[文化科学—教育学]
-
-
题名作为事件边界的时间变化对文本阅读的影响
被引量:4
- 6
-
-
作者
刘金平
郑洪冰
刘亚丽
-
机构
河南大学教育科学学院
新乡学院教育科学系
-
出处
《心理科学》
CSSCI
CSCD
北大核心
2009年第1期190-192,216,共4页
-
文摘
采用固定窗口技术探讨在文本阅读过程中时间信息的变化对事件边界知觉的影响以及这种事件边界对记忆提取能力的影响。结果表明:在阅读记叙文的过程中,读者能够将记叙文中的时间变化知觉为有意义的活动单元之间的事件边界,并且时间变化影响读者对先前信息的提取能力。
-
关键词
文本阅读
时间变化
事件边界
-
Keywords
text reading, temporal change, perceive, event boundary
-
分类号
B842.3
[哲学宗教—基础心理学]
-
-
题名过渡映射耦合改进的阈值分割的文本提取方法
- 7
-
-
作者
贾彦茹
张连堂
周丽宴
-
机构
信阳学院数学与信息学院
河南大学计算机与信息工程学院
郑州大学信息工程学院
-
出处
《计算机工程与设计》
北大核心
2018年第8期2603-2609,共7页
-
基金
国家自然科学基金项目(61172086)
河南省科技发展计划基金项目(132300410474)
-
文摘
针对文本提取技术难以准确定位文本区域的问题,提出一种场景文本检测与提取方法。根据文本与其相邻背景之间的瞬态颜色差异,基于像素强度的变化,构建过渡映射,生成一个过渡图;通过计算过渡像素与其周围纹理的一致性,确定候选文本区域;利用LBP算子计算过渡像素附近的强度变化,得到文本区域,利用像素投影优化文本区域,精确定位文本区域的边界;在过渡像素中添加一个约束,利用改进的阈值分割方法,从文本区域中准确提取文本字符串。实验结果表明,与当前场景文本提取技术相比,在复杂视频场景中,所提算法具有更高的文本提取精度与鲁棒性。
-
关键词
文本提取
过渡映射
像素投影
文本区域
阈值分割
文本边界
-
Keywords
video text extraction
transition mapping
pixel projection
text region
threshold segmentation
text boundary
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于DOM的Web文本分割
- 8
-
-
作者
罗建利
-
机构
温州大学商学院
东南大学经济管理学院
-
出处
《图书情报工作》
CSSCI
北大核心
2009年第4期116-120,共5页
-
文摘
利用web文档的半结构化信息,提出一种基于DOM的web文本分割算法。该算法充分挖掘web网页中控制网页内容结构和显示的HTML标签信息,构建HTMLDOM树。首先通过改进传统的平面文本分割方法,使之适用于web文本分割;然后利用DOM树中的节点平滑平面文本分割的结果,初步实验表明该算法能有效提高web文本分割的精确度。
-
关键词
DOM
文本分割
主题边界
文本节点
-
Keywords
DOM
text segmentation
topic boundary
text nodes
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名论文本互文的原因及形成情况和边界问题
- 9
-
-
作者
马振宏
-
机构
咸阳师范学院文学与传播学院
-
出处
《咸阳师范学院学报》
2010年第5期98-102,共5页
-
文摘
法国符号学家、女权主义批评家朱丽娅·克里斯蒂娃提出的"互文性"理论认为,每一个文本其实都可以映照出其他许多先于它而存在的或与它共时存在的文本的影子,它是对它们的模仿、吸收与转化。此后,许多理论家对文本互文发生的原因、形成情况和边界问题进行了探讨、描述和界定。
-
关键词
互文
文本
边界
-
Keywords
intertext
text
boundary
-
分类号
I06
[文学—文学理论]
-
-
题名语文文本解读之边界探寻
被引量:22
- 10
-
-
作者
余虹
-
机构
四川师范大学文学院
-
出处
《课程.教材.教法》
CSSCI
北大核心
2016年第9期52-57,共6页
-
文摘
多元化的文本解读曾为语文教育注入了生机与活力,但对语文文本的过度诠释会影响语文教育的价值导向以及语文课程目标与内容的确定,导致语文教学深难度的失衡。基于阐释学的视角,立足文本解读的本质,从文本、学科、教育三个层面探讨文本解读的边界,可以揭示文本独特的规定性及其对文本解读的规范,为文本解读的教育回归与语文教学回归指明方向,提供思路。
-
关键词
文本
文本解读
边界
-
Keywords
text
text interpretationl boundary
-
分类号
G633.33
[文化科学—教育学]
-
-
题名基于增强特征金字塔网络的场景文本检测算法
被引量:10
- 11
-
-
作者
邵海琳
季怡
刘纯平
徐云龙
-
机构
苏州大学计算机科学与技术学院
苏州大学应用技术学院
-
出处
《计算机科学》
CSCD
北大核心
2022年第2期248-255,共8页
-
基金
国家自然科学基金(61972059,61773272,61602332)
江苏省高校自然科学基金重点项目(19KJA230001)
+1 种基金
吉林大学符号计算与知识工程教育部重点实验室项目(93K172016K08)
江苏高校优势学科建设工程资助项目。
-
文摘
场景文本检测有助于机器理解图像内容,在智能交通、场景理解和智能导航等领域应用广泛。现有的场景文本检测算法未充分利用高层语义信息和空间信息,限制了模型对复杂背景像素的分类能力和对不同尺度的文本实例的检测和定位能力。为解决上述问题,提出了一种基于增强特征金字塔网络的场景文本检测算法。该算法包括比率不变特征增强(Ratio Invariant Feature Enhanced,RIFE)模块和重建空间分辨率(Rebuild Spatial Resolution,RSR)模块。RIFE模块作为残差分支,增强了网络的高层语义信息传递,提高了分类能力,降低了误报率和漏捡率。RSR模块重建多层特征分辨率,利用丰富的空间信息改进边界位置。实验结果表明,所提算法提升了在多方向文本数据集ICDAR2015、弯曲文本数据集Totaltext以及长文本数据集MSRA-TD500上的检测能力。
-
关键词
场景文本检测
特征金字塔网络
语义信息
空间信息
边界位置
-
Keywords
Scene text detection
Feature pyramid network
Semantic information
Spatial information
boundary location
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名融合词汇边界信息的合同实体识别方法
- 12
-
-
作者
王浩畅
和婷婷
郑冠彧
-
机构
东北石油大学计算机与信息技术学院
-
出处
《计算机工程与设计》
北大核心
2024年第6期1757-1763,共7页
-
基金
国家自然科学基金项目(61402099、61702093)。
-
文摘
针对合同中实体表达形式复杂多变、识别粒度细的特点,及合同文本中实体较长问题,提出一种融合词汇边界信息的合同实体识别方法。利用预训练语言模型动态生成语义向量作为模型输入;运用相对位置编码对Transformer结构进行改进,使其在编码过程中融合词汇信息,进一步丰富语义特征;通过条件随机场(CRF)结构进行解码,得到输入序列的标签预测。实验结果表明,该方法可以有效确定合同文本中的实体边界,具有良好的泛化性能。
-
关键词
实体识别
合同文本
预训练语言模型
相对位置编码
转换器结构
词汇边界信息
条件随机场
-
Keywords
entity recognition
contract text
pre-trained language models
relative position encoding
transformer structure
lexical boundary information
conditional random field
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名纸片拼接技术
被引量:2
- 13
-
-
作者
杨梓艺
-
机构
北京理工大学
-
出处
《网络安全技术与应用》
2014年第5期12-13,共2页
-
文摘
计算机辅助二维碎片自动拼接是模式识别领域中的一个典型问题,它在司法鉴定、文物修复等领域有着广泛的应用。本文对这种二维图像碎片的自动拼接问题展开研究。对于仅纵切的碎片,比较任意两张图片拼接后边界处的相似度来判断碎片之间是否左右相邻;对于纵切加横切的碎片,在纵切模型的基础上考虑了碎片文字所在行的几何特征信息,解决了判断碎片上下相邻的问题;对于双面的碎片,处理方法与纵切加横切类似,仅在对行的几何特征按照相似度进行分组时需要考虑正反面的情况。实验结果验证了方案的有效性。另外,对于文字特点不同于中文的英文碎片建立了改进模型。
-
关键词
碎片拼接
文字行特征
边界相似度
-
Keywords
debris stitching
text line features
boundary similarity
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名面向概括性小文本的文本分割算法
被引量:1
- 14
-
-
作者
陈源
陈蓉
胡俊锋
林霖
张靖波
于中华
-
机构
四川大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第22期43-45,共3页
-
基金
国家自然科学基金资助项目(60473071)
高等学校博士学科点专项科研基金资助项目(20020610007)
四川大学计算机学院青年基金资助项目
-
文摘
文本分割是自然语言文本处理的一项重要研究内容。该文针对现有模型无法有效分割概括性小文本的不足,提出基于隐马尔可夫模型的统计算法。该算法利用小文本中各结构块的长度及词汇信息,对概括性小文本进行同一主题不同论述侧面的分割。对发射概率设计了基于句群和基于分割点2种不同的计算方法。以Medline摘要为样本进行的实验表明,该算法对概括性小文本分割是有效的,明显好于经典的TextTiling算法。
-
关键词
文本分割
概括性小文本
隐马尔可夫模型
边界识别
相似性度量
-
Keywords
text segmentation
small general-text
Hidden Markov Model(HMM)
boundary recognition
similarity metric
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于多特征检测与支持向量回归的图像文本提取算法
被引量:1
- 15
-
-
作者
杨俊
赵林
-
机构
武汉职业技术学院
广西电力职业技术学院
-
出处
《光学技术》
CAS
CSCD
北大核心
2018年第5期609-616,共8页
-
基金
湖北省教育厅科学技术研究计划指导性项目(B201658)
广西省自然科学基金(2014GXNSFCJ053172)
-
文摘
为解决复杂背景中难以有效提取场景文本的问题,提出了一种基于多特征检测与支持向量回归的图像文本提取方案。为有效区分文本与非文本边缘,基于图像边缘,提取场景中三个文本特征。将得到的三个文本特征进行多尺度融合,利用文本融合特征检测候选文本边界,有助于检测不同大小的文本,提高对不同类型的图像退化的鲁棒性。对于每个检测到的候选文本边界,根据邻域窗口中的像素来估计每个像素的局部阈值,利用局部阈值自适应分割提取候选字符。引入支持向量回归模型对文本像素与图像背景精确分离,消除非文本边界,提取真实字符和单词。实验表明:与当前文章提取技术相比,所提方法具有更好的鲁棒性,能适用各种变化的复杂场景文本提取,具有更优的PrecisionRecall曲线与F测量值。
-
关键词
文本提取
支持向量回归
多特征检测
局部阈值
文本边界
图像边缘
-
Keywords
text extraction
support vector regression
multi-feature detectiom local thresholdl text boundary
image edge
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Laplace变换的视频文本检测
- 16
-
-
作者
朱志坚
-
机构
湖南电视台
-
出处
《广播与电视技术》
2015年第5期71-74,共4页
-
文摘
本文提出了一种基于Laplace变换的视频图像水平文本检测算法。首先用Laplace变换对图像滤波,并根据梯度信息用K-均值方法对像素点聚类,得到候选文本区;然后用投影算法对候选文本区进行边缘精确,得到候选文本块;最后分析候选文本块的几何特性,进行文本验证。本文算法在公共数据库上的测试结果表明了算法的可行性和有效性。
-
关键词
视频文本检测
LAPLACE变换
边缘精确
文本验证
-
Keywords
Video text detection,Laplace transform,boundary rei nement,text identii cation
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-