文中探讨了汉语科技文献自动抽词标引的理论和技术问题,介绍了自动抽词系统SAET(System of Automatic Extracting Terms)的功能、结构以及采用的方法。给出了SAET系统对300篇机械工程领域的文摘进行处理所得出的数据,并对这些数据进行...文中探讨了汉语科技文献自动抽词标引的理论和技术问题,介绍了自动抽词系统SAET(System of Automatic Extracting Terms)的功能、结构以及采用的方法。给出了SAET系统对300篇机械工程领域的文摘进行处理所得出的数据,并对这些数据进行了分析。展开更多
Web文本特征获取是Web挖掘中重要而关键的前提工作,传统文本特征获取方法由于在确定文本词条的权重方面做得不够准确,从而直接影响了文本分类算法的精确度。为此,提出一种基于主题词典和遗传算法的文本特征获取方法(dic-tionary and GA-...Web文本特征获取是Web挖掘中重要而关键的前提工作,传统文本特征获取方法由于在确定文本词条的权重方面做得不够准确,从而直接影响了文本分类算法的精确度。为此,提出一种基于主题词典和遗传算法的文本特征获取方法(dic-tionary and GA-based feature selection algorithms,DGFSA),利用主题词典来调整词条权重,从而获取文本特征向量。实验结果表明,DGFSA比传统算法在文本分类的准确率和特征词的约简率方面分别提高了28.4%和16.3%。展开更多