题名 基于子话题分治匹配的新事件检测
被引量:26
1
作者
洪宇
张宇
范基礼
刘挺
李生
机构
哈尔滨工业大学计算机科学与技术学院信息检索研究室
出处
《计算机学报》
EI
CSCD
北大核心
2008年第4期687-695,共9页
基金
国家自然科学基金(60435020
60503072)
国家"八六三"高技术研究发展计划探索类专题项目(2006AA01Z145)资助
文摘
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859.
关键词
新 事件 检测
话题检测 与跟踪
子话题
Keywords
new event detection
topic detection and tracking
subtopic
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于词元再评估的新事件检测模型
被引量:17
2
作者
张阔
李涓子
吴刚
王克宏
机构
清华大学计算机科学与技术系
出处
《软件学报》
EI
CSCD
北大核心
2008年第4期817-828,共12页
基金
国家自然科学基金No.90604025~~
文摘
新事件检测(new event detection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻.初步实验发现,在对不同类别的新闻报道进行新事件检测时,其不同类型的词元往往具有不同的敏感程度.而传统方法往往将所有的词元等同看待.重点研究在新事件检测模型中,对于不同词元的权重设定问题.提出利用统计方法优化不同类别新闻对于不同词性词元的权重参数;提出利用已有新闻簇信息动态更新词元权重的方法,采用在新闻之间(而非新闻与新闻簇之间)计算相似度的形式,发挥两种比较形式的优点.在Linguistic Data Consortium(LDC)公共数据集TDT2与TDT3上进行实验,实验结果表明,这两种改进方法的效果明显,性能与同类系统相比有显著提升.
关键词
新 事件 检测
信息检索
命名实体
词元再评估
Keywords
new event detection
information retrieval
name entity
term reweighting
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于新闻要素的新事件检测方法研究
被引量:8
3
作者
薛晓飞
张永奎
任晓东
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
出处
《计算机应用》
CSCD
北大核心
2008年第11期2975-2977,共3页
基金
国家自然科学基金资助项目(60475022)
山西省自然科学基金资助项目(20041041)
山西省回国留学人员基金资助项目(2002004)
文摘
新事件检测(NED)的目标是检测出报道一个新闻话题种子事件的第一个新闻。考虑到新闻的基本要素在新闻中的作用,采用特征加权的方式对传统的词频和倒排文档频率(TF-IDF)模型进行改进,并在新闻报道中提取出时间信息和地点信息,分别对内容相似度、时间相似度和地点相似度进行计算,并将三者结合来检测新事件。实验证明这种方法有效。
关键词
新 事件 检测
事件 模型
相似度计算
Keywords
New Event Detection (NED)
event model
similarity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 LDA及主题词相关性的新事件检测
被引量:4
4
作者
黄颖
机构
赣南师范学院数学与计算机科学学院
出处
《计算机与现代化》
2012年第1期6-9,13,共5页
基金
江西省教育厅科技项目(GJJ11216)
赣南师范学院校级科研课题(10KYZ05)
文摘
目前,话题检测与跟踪已被广泛应用,新事件检测作为话题检测与跟踪领域中的研究任务之一,为跟踪后续话题发展的先验知识,在话题检测与跟踪领域具有重要的理论研究意义。LDA主题模型不能自动识别新事件,其主题数需通过人工或反复实验来确定,识别效率低。本文提出基于LDA及主题词间的相关性新事件检测算法,同时结合报道发生的时间,确定合理的主题数目,从而探知新事件。实验证明,与传统LDA算法及Gibbs LDA算法相比,该方法具有一定优势,提高了对新事件检测的敏感度。
关键词
LDA
话题检测
新 事件 检测
主题词相关性
Keywords
latent Diricblet allocation(LDA)
topic detection
new event detection
correlation of the topic terms
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于词对向量空间模型的新事件检测方法
被引量:4
5
作者
樊旭琴
张永奎
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2010年第12期123-125,共3页
基金
国家自然科学基金No.60475022
山西省自然科学基金No.20041041
山西省回国留学人员基金(No.2002004)~~
文摘
新事件检测(NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻。传统向量空间模型采用单个词来表示文本特征,考虑到词的位置信息以及其他的表示内容的信息,提出了词对表示文本的方法,并结合HowNet资源对所抽取的词对进行归一化处理,最后对不同类别新闻中不同词性对的权重参数进行优化。通过在已有的突发性新闻语料上进行实验,表明这种改进方法的效果比较明显,性能也有一定的提高。
关键词
向量空间模型
词对特征
新 事件 检测
Keywords
vector space model
word pair feature
new event detection
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于时序话题模型的新事件检测
被引量:3
6
作者
仓玉
洪宇
姚建民
朱巧明
机构
苏州大学计算机科学与技术学院
出处
《智能计算机与应用》
2011年第1X期74-78,共5页
基金
基金项目:国家自然科学基金(60970057,61003152).
文摘
新事件检测(NewEventDetection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻。初步实验发现,构成事件的一项重要属性是事件发生的特定时间,因此时间是区分不同事件的重要标志。为此,提出时序话题模型(TemporalTopicModel,简称TTM)。TYM将话题和报道切分为若干对应不同时间表达式的事件。其中,时间表达式描述事件发生的特定时间。TTM基于时间表达式在话题中出现的频率和增长率,估量对应时间表达式的事件作为种子事件或相关新颖事件的概率。此外,时间表达式的频率与增长率也用于衡量事件在相关性匹配中权重。在此基础上,NED依赖时间特性快速遏制不同时间发生的事件匹配,并借助种子事件和新颖事件调整相关性判定的权重分配。
关键词
新 事件 检测
时间表达式
时序话题模型
Keywords
New Event Detecting
Time Expression
Temporal Topic Model
分类号
TP391
[自动化与计算机技术—计算机应用技术][自动化与计算机技术—计算机科学与技术]
题名 基于本体的话题检测与跟踪技术
被引量:3
7
作者
刘炜
李明
杨合立
机构
兰州理工大学计算机与通信学院
兰州理工大学教务处
出处
《甘肃科技》
2011年第22期42-45,共4页
文摘
基于前人在TDT中对语义矢量的相似性计算研究,以及本体和语法结构在文本相似性研究方面的应用成果,提出了以词频分析作为辅助手段,将新闻中的关键要素归纳为时间、空间、参与事件的主客体、行为等几个语义类;借助WordNet与本体技术计算文档特征词的相似度,并且结合文本的语法结构特点,共同应用于文本的相似度计算,并以此作为新事件检测中相似度计算的基础,提高新事件检测的准确性。
关键词
TDT
本体
WORDNET
文本相似度
新 事件 检测
语义矢量
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于新闻要素的在线新事件检测
被引量:2
8
作者
李营那
阮彤
顾春华
机构
华东理工大学计算机科学与工程系
出处
《计算机应用与软件》
CSCD
北大核心
2013年第12期100-104,176,共6页
基金
国家科技支撑项目(2009BAH46B03)
文摘
在线新事件检测的主要任务是从以时间顺序到来的新闻报道中识别出未知事件。提出一种基于新闻要素的自动在线新事件检测方法。首先,构建基于新闻要素的报道和事件表示模型,该模型包括新闻报道地点、人物和内容等要素,使用多维要素的优越性在于可以区别相似事件;为计算各要素对应特征的相似度提供对应的相似度算法:使用基于地理本体树的地名相似度算法计算地点相似度,使用基于维基百科的语义相似度计算方法计算报道内容之间的相似度;为了衡量各要素的重要性,使用SVM模型训练得出各要素的权值;最后,以single-pass聚类算法为基础,在算法过程中不断修改事件的表示向量以防止事件中心的漂移,同时使用滑动的时间窗口以减少因处理大量不活跃事件引起的时间消耗。实验结果表明该方法可以有效地降低系统的漏检率和误检率,提高事件检测的性能。
关键词
新 事件 检测
Single-pass
地理本体
语义相似
Keywords
New event detection Single-pass Geographical ontology Semantic similarity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 话题检测与跟踪关键技术研究
被引量:1
9
作者
刁洪祥
机构
湖南农业大学信息科学技术学院
出处
《信息与电脑》
2016年第7期31-32,共2页
文摘
话题检测与追踪(TDT)技术作为舆情分析的重要技术手段,是近十年自然语言处理和信息检索领域的热点研究课题,笔者对该技术的研究现状和发展前景进行简要概括,并对其中的关键技术新事件检测和话题跟踪技术进行分析和研究。
关键词
话题检测
话题跟踪
聚类分析
新 事件 检测
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 面向大规模数据的在线新事件检测
被引量:1
10
作者
蔡偃武
高大启
阮彤
蒋锐权
机构
华东理工大学计算机科学与工程系
上海证券交易所技术开发部
出处
《计算机工程》
CAS
CSCD
2014年第10期37-42,共6页
基金
国家科技支撑计划基金资助项目"证券业云平台研发与运营"(2012BAH13F02)
文摘
通过分析基于新闻要素的在线新事件检测算法的时间消耗,提出一种面向大规模数据环境的在线新事件检测算法。该算法利用基于倒排索引的高效相似报道搜索机制,有效减少单路径聚类算法中的相似度比较次数。通过对报道预处理、报道与事件比较以及索引搜索这3个过程的并行化,提高算法在多机环境下的运行效率和可伸缩性。实验结果表明,该算法在不影响漏检率和误检率的基础上,提高了新事件检测的速度,并且在千万到亿级别的报道规模下,其吞吐量达到150条/s^200条/s。
关键词
新 事件 检测
单路径聚类
大规模数据
并行计算
倒排索引
MapReduce架构
Keywords
New Event Detection (NED)
single-pass clustering
large-scale data
parallel computing
inverted index
MapReduce architecture
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 面向新闻领域的蒙古文新事件检测方法的研究
11
作者
王士杰
飞龙
高光来
机构
内蒙古大学计算机学院
出处
《青海师范大学学报(自然科学版)》
2020年第1期31-37,共7页
文摘
新事件检测的目标是从一个或多个新闻源中检测出报道一个新闻话题种子事件的第一个新闻.本文面向新闻领域,研究了蒙古文新事件检测的相关方法.提出结合新闻内容相似度与新闻要素相似度进行新事件检测的方法.在新闻内容表示上,针对新闻的特点以及不同类型新闻表达词汇对传统的TF-IDF方法进行了改进.其次,提取出新闻的主要要素,包括时间、地点、主体、客体和主客体动作,计算了两篇新闻文档之间新闻要素的相似度.最后将新闻内容相似度与新闻要素相似度进行融合后进行相似度比较.实验结果表明,本文改进方法明显,性能比传统新事件检测系统有显著提升.
关键词
新 事件 检测
蒙古文
新 闻要素
相似度计算
Keywords
NED
Mongolian
news elements
similarity combination
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 在线新事件检测系统中的性能提升策略
被引量:3
12
作者
王颖颖
张赟
胡乃静
机构
上海金融学院信息管理系
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第15期72-74,共3页
基金
上海市青年科技启明星计划基金资助项目(051430)
文摘
现有的关于在线新事件检测(ONED)系统的研究更多地关注如何提高检测的准确率而很少考虑对资源的利用率,使ONED系统在实际应用中存在性能低下的问题。该文分析了传统的事件检测系统存在的性能上的缺点,并在此基础上进行了改进,在基本不降低识别正确率的基础上,通过合理设定技术参数以及对链表索引机制进行预筛选,降低了文档比较过程中的存储和计算开销。实验结果表明,改进的系统提升了检测性能。
关键词
在线新 事件 检测
话题识别与跟踪
信息检索
预筛选
Keywords
Online New Event Detection(ONED)
Topic Detection and Tracking(TDT)
Information retrieval
pre-filtering
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]