数据质量影响了情报分析和知识发现的有效性,针对科技情报数据中异常数据所导致的分析准确率低和误检率高等问题,提出了一种基于代表性对象(Clustering Using Representatives,CURE)聚类算法的异常数据检测方法。通过信息采集与预处理...数据质量影响了情报分析和知识发现的有效性,针对科技情报数据中异常数据所导致的分析准确率低和误检率高等问题,提出了一种基于代表性对象(Clustering Using Representatives,CURE)聚类算法的异常数据检测方法。通过信息采集与预处理、文本处理和聚类分析三个阶段实现异常情报数据的识别和定位,为构造高质量情报数据集提供了参考。最后基于专利情报数据进行实验验证,验证结果表明,所提出的异常情报数据检测方法能够实现异常数据的精准定位,准确率高、误检率低,具有一定的可行性。展开更多
文摘数据质量影响了情报分析和知识发现的有效性,针对科技情报数据中异常数据所导致的分析准确率低和误检率高等问题,提出了一种基于代表性对象(Clustering Using Representatives,CURE)聚类算法的异常数据检测方法。通过信息采集与预处理、文本处理和聚类分析三个阶段实现异常情报数据的识别和定位,为构造高质量情报数据集提供了参考。最后基于专利情报数据进行实验验证,验证结果表明,所提出的异常情报数据检测方法能够实现异常数据的精准定位,准确率高、误检率低,具有一定的可行性。