-
题名使用最大熵模型进行中文文本分类
被引量:95
- 1
-
-
作者
李荣陆
王建会
陈晓云
陶晓鹏
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2005年第1期94-101,共8页
-
基金
国家自然科学基金项目(60173027)
-
文摘
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.
-
关键词
文本分类
最大熵模型
特征
N-GRAM
-
Keywords
text classification
maximum entropy model
features
N-Gram
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于密度的kNN文本分类器训练样本裁剪方法
被引量:98
- 2
-
-
作者
李荣陆
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第4期539-545,共7页
-
基金
国家自然科学基金项目 (60 173 0 2 7)
-
文摘
随着WWW的迅猛发展 ,文本分类成为处理和组织大量文档数据的关键技术 kNN方法作为一种简单、有效、非参数的分类方法 ,在文本分类中得到广泛的应用 但是这种方法计算量大 ,而且训练样本的分布不均匀会造成分类准确率的下降 针对kNN方法存在的这两个问题 ,提出了一种基于密度的kNN分类器训练样本裁剪方法 ,这种方法不仅降低了kNN方法的计算量 ,而且使训练样本的分布密度趋于均匀 ,减少了边界点处测试样本的误判 实验结果显示 。
-
关键词
文本分类
KNN
快速分类
-
Keywords
text classification
k nearest neighbor
fast classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于语义分析的倾向性文本过滤
被引量:34
- 3
-
-
作者
刘永丹
曾海泉
李荣陆
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《通信学报》
EI
CSCD
北大核心
2004年第7期78-85,共8页
-
基金
国家自然科学基金资助项目(60173027)
-
文摘
采用基于统计的文本过滤技术对具有倾向性的文本进行过滤的效果并不理想,原因在于基于统计的方法忽略了文本中的语义约束,无法有效识别倾向性信息。本文提出一种基于语义分析的文本过滤技术,将文本中的语义关系加以考虑,能高效地识别和过滤倾向性文本信息。
-
关键词
人工智能
文本过滤
语义分析
自然语言处理
-
Keywords
artificial intelligence
text filtering
semantic analysis
natural language process
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于智能Agent的用户兴趣发现和更新
被引量:8
- 4
-
-
作者
白丽君
张永奎
李荣陆
-
机构
山西大学计算机科学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第2期236-237,共2页
-
基金
山西省自然科学基金项目(991035)
-
文摘
提出了一种新的基于智能Agent的用户兴趣发现和更新方法,主要介绍了智能Agent需要跟踪用户的哪些行为,如何发现用户真正感兴趣的文献,如何通过分析提取兴趣特征词及权重计算等内容。该方法主要利用了用户浏览文献页面的信息,有效地解决了用户兴趣的自适应变化。
-
关键词
智能AGENT
用户兴趣发现
程序设计
用户模型
兴趣特征词
用户兴趣更新
人工智能
-
Keywords
Intelligent agent;User profile;Intersted word
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
TP18
[自动化与计算机技术—计算机科学与技术]
-
-
题名三种文档语义倾向性识别方法的分析与比较
被引量:15
- 5
-
-
作者
马海兵
刘永丹
王兰成
李荣陆
-
机构
南京政治学院上海分院
Autodesk公司
-
出处
《现代图书情报技术》
CSSCI
北大核心
2007年第4期43-47,共5页
-
基金
中国博士后基金资助项目"军队网络舆情分析系统"(项目编号:20060390952)
江苏省博士后科研资助项目(项目编号:0601029)的研究成果之一
-
文摘
研究并实现三种文档倾向性识别的方法:基于情感词加权的方法、基于语义模式分析的方法和基于文本分类的方法。第一种方法利用特征词汇的情感语义倾向性。第二种方法对自然语言的句法结构进行简化,以获取合适粒度的倾向性语义模式。第三种方法则直接利用传统的基于文本分类的方法。通过在网络舆情分析系统中的具体实现,探讨这三种方法各自的不足和优势。
-
关键词
自然语言处理
文本分类
倾向性识别
-
Keywords
Natural language process Text classification Semantic orientation recognition
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于分类规则树的频繁模式文本分类
被引量:19
- 6
-
-
作者
陈晓云
陈袆
王雷
李荣陆
胡运发
-
机构
复旦大学计算机与信息技术系
福州大学数学与计算机科学学院
-
出处
《软件学报》
EI
CSCD
北大核心
2006年第5期1017-1025,共9页
-
基金
国家自然科学基金
福建省教育厅科技基金~~
-
文摘
基于频繁模式的关联分类是近年来出现的一种分类方法,该方法利用各类别频繁出现的模式构造分类规则,并对新文本进行分类.但现有关联分类方法应用于文本分类时存在两方面不足:一方面,用以构造分类规则的频繁模式仅考虑特征词在文本中出现与否,从而忽视了出现频度;另一方面,当产生的规则数量较多时,为提高分类效率需要进行规则修剪,修剪后的分类准确性明显降低.为此,提出了基于分类规则树的带词频的频繁模式文本分类方法.研究结果表明,词频的引入可以提高关联分类的准确率;而采用分类规则树可使分类时间明显加快又确保不降低分类质量.这两方面的措施弥补了现有关联分类应用于文本分类的不足.与3种典型文本分类方法比较后发现,在低维特征空间中,关联分类的性能优于Bayes,kNN(knearestneighbor)和SVM(supportvectormachines),因此是一种很有应用前景的文本分类方法.
-
关键词
频繁模式
文本分类
词频
关联规则
分类规则
-
Keywords
frequent pattern
text categorization
term frequency
association rule
classification rule
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名层次化中文文档分类
被引量:6
- 7
-
-
作者
袁时金
李荣陆
周水庚
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《通信学报》
EI
CSCD
北大核心
2004年第11期55-63,共9页
-
基金
国家自然科学基金资助项目(60173027)
-
文摘
对层次化中文文档分类进行了研究。采用两种途径进行层次化中文文档分类:第一是按照文档类别的层次结构,将一个大的分类问题分化成若干个小的分类问题,用Bayes分类方法分别建立分类器;第二是将层次化分类问题看成是一个更普遍的多类别、多标注分类问题进行求解,分别利用KNN和基于Boosting的分类方法进行层次化中文文档分类。测试结果显示层次化分类比平面分类能够取得更好的分类效果。
-
关键词
文档分类
属性选择
层次分类
分类器
-
Keywords
document categorization
features selection
hierarchical categorization
classifier
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于多实例的自适应用户模型
被引量:4
- 8
-
-
作者
李荣陆
张永奎
-
机构
山西大学计算机科学系
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第5期92-93,104,共3页
-
基金
山西省自然科学基金项目(编号:991035)
山西省归国人员基金项目资助。
-
文摘
信息过滤中用户兴趣模型的表示是影响过滤精确度的最重要的因素之一。该文提出了一种基于多实例的自适应用户模型,它在一定程度上抑制了传统用户模型表示中同义现象对系统精确度的影响,并且使用户模型具有了关键词自动扩充和自适应能力。
-
关键词
信息过滤
遗传算法
自适应用户模型
实例
信息处理
计算机
-
Keywords
and adaptation.Keywords :Information filtering,User profile,Genetic Algorithms
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名使用最大熵模型进行文本分类
被引量:4
- 9
-
-
作者
陈雪天
李荣陆
-
机构
国防科技大学电子科学与工程学院
复旦大学计算机与信息技术系
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第35期78-79,195,共3页
-
文摘
最大熵模型是一种在广泛应用于自然语言处理中的概率估计方法。文中使用最大熵模型进行了文本分类的研究。通过实验,将其和Bayes、KNN、SVM三种典型的文本分类器进行了比较,并且考虑了不同特征数目和平滑技术对基于最大熵模型的文本分类器的影响。结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法。
-
关键词
文本分类
最大熵模型
特征
N-GRAM
-
Keywords
text classification,Maximum Entropy Model,features,N-Gram
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于中图分类法的用户兴趣模型研究
被引量:9
- 10
-
-
作者
邵志峰
李荣陆
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《计算机应用与软件》
CSCD
北大核心
2007年第8期85-86,108,共3页
-
文摘
提出一种基于中图分类法的用户兴趣模型,形式化地描述了用户兴趣模型的建立和学习过程。在建立用户兴趣模型时,需要对代表用户兴趣的中图分类号进行挖掘,由于传统的Apriori数据挖掘算法更适合于处理无序的集合,而中图分类号中的号码是有序的。提出了一种改进的算法来自动构建用户兴趣模型,并据此开发了一个科技文献过滤系统作为典型应用。
-
关键词
信息过滤
数据挖掘
用户兴趣模型
中图分类法
-
Keywords
Information filter Data mining User profile model Chinese library classification
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名评价情报检索系统性能的新方法—加权中值法
被引量:8
- 11
-
-
作者
杨立英
尚克聪
李荣陆
-
机构
山西大学信息管理系
山西大学计算机科学系
-
出处
《情报学报》
CSSCI
北大核心
2003年第1期32-35,共4页
-
文摘
查全率和查准率被大多数情报检索系统作为评价系统性能的方法,但人们已逐渐认识到它们的局限性.本文通过对三组情报检索系统用户相关性判断分布规律实验的数据分析,使用了一种基于用户相关性判断分布规律的方法--加权中值法,对情报检索系统的性能进行评价,并通过倾斜度的计算分析用户相关性判断的态度.
-
关键词
情报检索系统
加权中值法
性能评价
信息检索
查准率
查全率
-
分类号
G354.4
[文化科学—情报学]
-
-
题名基于《中国图书馆分类法》的用户兴趣建模方法
被引量:8
- 12
-
-
作者
马海兵
肖辉
李荣陆
王兰成
-
机构
南京政治学院上海分院
浙江大学宁波理工学院
Autodesk公司
-
出处
《图书情报工作》
CSSCI
北大核心
2007年第8期65-68,116,共5页
-
基金
中国博士后基金资助项目(项目编号:20060390952)
江苏省博士后科研资助项目(项目编号:0601029)研究成果之一
-
文摘
提出一种基于《中国图书馆分类法》的用户兴趣建模方法。通过《中国图书馆分类法》分类号确定用户初始兴趣模型,使用《中图分类主题词表》中词汇描述用户兴趣主题。对于用户模型的学习,提出一种通用的方法,将各种反馈信息融合统一。在上述思想的基础上,开发出一个科技文献推荐系统,使用户在尽可能少的参与下,完成用户模型的建立、学习和更新。
-
关键词
信息推送
用户兴趣模型
个性化
-
Keywords
information recommending system user interest model personalization
-
分类号
G254.1
[文化科学—图书馆学]
-
-
题名基于最小词频阈值的文档特征选择
被引量:7
- 13
-
-
作者
陈晓云
李荣陆
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2006年第4期531-537,共7页
-
基金
国家自然科学基金(No.60173027
60373077)
福建省科技三项重点项目(No.K04005)资助
-
文摘
为降低内容无关的特征词对文本分类系统的影响,在对与文本内容无关的特征词进行分析后发现:不相关特征词的词频普遍较低,利用最小词频阈值滤除低频特征可以明显降低无关特征的数量。为此,提出基于最小词频阈值的文档频评估函数。利用该函数选择特征可以有效减少与内容无关的噪声特征,改善分类质量。实验结果显示,几种基于最小词频阈值的文档频评估函数比基于普通文档频的评估函数的分类准确性有不同程度的改进,其中对互信息的改进最为显著,宏平均F_1值比词频方法提高40%,比普通文档频方法提高15%~30%。
-
关键词
文本分类
特征选择
信息增益
互信息
X^2统计
-
Keywords
Text Classification, Feature Selection, Information Gain, Mutual Information, X^2 Statistic
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于混淆矩阵的层次结构构造方法比较
被引量:6
- 14
-
-
作者
熊云波
李荣陆
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2007年第2期205-210,共6页
-
基金
国家自然科学基金(No.60173027)
-
文摘
根据混淆矩阵,采用层次聚类和混淆类别两种不同的策略构造文档类别层次结构,最后采用层次分类的方法进行实验.实验结果表明混淆类别策略优于层次聚类策略,对平面分类的查全率和查准率都有所提高.
-
关键词
混淆矩阵
层次结构
层次聚类
混淆类别
-
Keywords
Confusion Matrix , Hierarchical Structure , Hierarchical Clustering , Confusion Classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名自适应确定摘要长度
被引量:3
- 15
-
-
作者
王建会
胡运发
李荣陆
-
机构
复旦大学计算机与信息技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第3期399-406,共8页
-
基金
国家自然科学基金项目 ( 60 173 0 2 7)
-
文摘
随着信息技术的发展和信息量的大量增多 ,提出了很多自动摘要的算法 在这些众多的算法中 ,都有一个共同的现象———摘要的长度均需事先给定 然而 ,实际的情况是 ,随着信息样本的不同 ,该信息样本所包含的信息量也是不同的 为了能够全面地反映信息样本的主题思想 ,又不产生信息冗余 ,就要求根据具体信息样本 ,动态地确定与该样本信息量相适应的结果摘要长度 据此 ,提出了一种自适应于不同样本的、动态确定摘要长度的算法 ,从具体样本中循序渐进地抽取出其所包含的所有子主题 ,这些子主题的集合构成了该信息样本的主题思想 然后 ,再根据子主题的数量确定摘要的长度 ,既全面地反映了信息样本的内容 ,又不会产生信息冗余 另外 ,还提出了新的互依赖模型 ,使用该模型可以使切词的结果较为准确 ,并可有效地降维 。
-
关键词
自动摘要
互依赖
摘要长度
N-GRAM
-
Keywords
automatic summarization
mutual dependence
length of summarization
N gram
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种协调的科技文献分类方法
被引量:3
- 16
-
-
作者
陈鑫卿
张永奎
李荣陆
-
机构
山西大学计算机科学系
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第26期91-93,共3页
-
基金
山西省自然科学基金资助项目
-
文摘
科技文献之间的相互引证关系反映了一种科学交流活动,显示了科学文献之间(甚至是学科之间)的内在联系,而通过追溯文献之间的这种关系,可以改善和提高传统的基于内容的科技文献的分类的方法。论文利用有相互引证关系,有同引关系,以及有耦合关系的两篇文献一般是属于同一类的这一特点,提出了文献之间的引用相似度,同引相似度,耦合相似度这三个概念,再利用这三个概念生成了文献之间的“结构相似度”,并将它用于K-NN分类法中得出一种基于结构的分类法。最后,论文将这种基于结构的分类法和基于内容的NaveBayes分类法结合起来提出了一种新的协调分类法。
-
关键词
分类
科技文献
引用
同引
耦合
-
Keywords
Classification,scientific documents,citation,co-citation,coupling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于中图分类法的科技文献过滤系统的研究与实现
被引量:2
- 17
-
-
作者
张翼
李荣陆
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《计算机应用与软件》
CSCD
北大核心
2007年第2期72-74,78,共4页
-
文摘
提出了一种基于中图分类法的用户兴趣模型,形式化地描述了用户兴趣模型的建立和学习过程,并在此基础上开发了一种科技文献过滤系统。
-
关键词
信息过滤
用户兴趣模型
中图分类法
-
Keywords
Information filtering User profile Chinese library classification
-
分类号
TQ126.35
[化学工程—无机化工]
-
-
题名使用层次结构改善平面文本分类器的性能
- 18
-
-
作者
唐洋运
李荣陆
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《计算机应用与软件》
CSCD
北大核心
2007年第1期81-84,100,共5页
-
文摘
与以往的层次化分类不同,本文使用了一种本质为图的层次结构,利用这种层次结构解决平面分类问题,从而提高平面分类的查准率和查全率。在普通的类别层次结构中,同一父类的兄弟类别之间的混淆关系是对称的,但事实上类别之间的混淆关系不是对称的。本文从分类器的混淆矩阵入手,引入了混淆类别的概念。利用混淆类别构造的类别层次结构,从查准率和查全率的角度来考虑类别之间的关系,表达出了混淆关系的非对称性。实验结果显示,使用类别的混淆类别构建类别层次结构的方法,无论从宏观上还是微观上都可以提高分类的准确率。
-
关键词
文本分类
层次化分类
-
Keywords
Text classification Hierarchical classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名用模式增长方法挖掘嵌入式频繁子树
被引量:1
- 19
-
-
作者
马海兵
李荣陆
胡运发
-
机构
复旦大学计算机与信息技术系
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2006年第2期208-214,共7页
-
基金
国家自然科学基金(No.60473070)
国家863高技术研究发展计划基金
-
文摘
提出用模式增长方法在带标记有序树构成的森林中挖掘嵌入式频繁子树.算法利用最右路径扩展方法构造完整的模式增长空间,然后根据待增长模式的拓扑结构确定其增长点并构造相应投影库,从而将挖掘频繁子树问题转化为在各投影库中寻找频繁节点问题.这大大降低算法的复杂性.实验表明其具有较高的时空效率.
-
关键词
数据挖掘
频繁模式
模式增长
频繁子树
-
Keywords
Data Mining, Frequent Pattern, Pattern Growth, Frequent Sub-Tree
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名广谱抗病毒技术
- 20
-
-
作者
郑晋平
李荣陆
-
机构
太原理工大学
-
出处
《山西电子技术》
1997年第3期6-8,共3页
-
文摘
分别讨论了如何利用广谱抗病毒技术对传染引导程序和传染可执行文件的病毒进行检测和消除,并提出了一种对可执行文件进行“包裹”的方法,以使可执行文件自身具有一定的病毒检测能力.
-
关键词
病毒
广谱抗病毒技术
比较论
实证法
-
分类号
R373
[医药卫生—病原生物学]
-