期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于体裁的中文网页分类的特征选取 被引量:4
1
作者 黄臻臻 吴扬扬 《计算机工程与设计》 CSCD 北大核心 2007年第11期2743-2745,共3页
探讨基于体裁的中文网页分类的特征项选取问题。词汇特征方面,结合自动抽取和人工归纳的方式来获得.通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的... 探讨基于体裁的中文网页分类的特征项选取问题。词汇特征方面,结合自动抽取和人工归纳的方式来获得.通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的特征表达方式。此外,特征集中融入了文本的形式特征,并根据网页的特点,引入链接信息特征。实现了基于体裁的中文网页分类系统,结果表明分类效果得到了有效的改善。 展开更多
关键词 网页分类 体裁 特征选取 序列挖掘 模糊字符串模式
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部