-
题名基于邮件正文的邮箱用户别名抽取
被引量:2
- 1
-
-
作者
尹美娟
陈庶民
刘晓楠
路林
-
机构
信息工程大学信息工程学院
-
出处
《计算机科学》
CSCD
北大核心
2011年第12期182-186,199,共6页
-
基金
某国防基金资助
-
文摘
邮箱用户身份信息挖掘是数据挖掘研究的一个热点。当前相关研究大多仅从邮件头中抽取邮箱用户的别名,遗漏了邮件正文中潜藏的更能代表通信双方身份的别名信息。针对纯文本邮件正文中邮箱用户别名信息抽取问题,提出了基于统计和规则过滤的称呼块和签名块定位算法,该算法能高效准确地从邮件正文中提取出蕴涵邮箱用户别名的称呼块和签名块文本片段;进一步提出了基于别名边界词汇模板修正的别名抽取方法,从而提高了仅基于命名实体识别或词性标注工具识别别名的准确率。实验结果表明,提出的方法可以有效地抽取出邮件正文中邮箱用户的别名。
-
关键词
实体解析
邮件正文
别名抽取
称呼块签名块定位
别名边界词汇模板
-
Keywords
Entity resolution, Email body, Alias Extraction, Salutation and signature blocks locating, Name boundaryword template
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于图的查询日志实体别名抽取方法
- 2
-
-
作者
石贝
孙乐
韩先培
-
机构
中国科学院软件研究所
-
出处
《中文信息学报》
CSCD
北大核心
2013年第5期149-155,共7页
-
基金
国家自然科学基金资助项目(61272324)
-
文摘
实体的别名是指同一个实体的不同名称。传统的别名抽取方法存在训练语料构建困难和时效性差这两个问题。针对这两个问题,该文提出了一种基于图的查询日志实体别名抽取方法。该方法利用查询日志的上下文信息和查询链接信息,构建了二层图(包括别名候选图层和查询链接图层),并通过随机游走算法对图中的候选别名进行排序。实验结果表明:1)该方法准确率达到了71.8%,证明该方法可行有效。2)使用查询链接信息进行别名抽取优于使用上下文信息进行别名抽取。这两种信息的结合能获得更好的别名抽取效果。
-
关键词
查询日志
别名抽取
-
Keywords
query log
alias extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-