【目的】严重的期刊影响因子操纵现象影响了影响因子客观性,这种不正当行为应该被严格禁止,识别受操纵期刊的有效方式亟待发掘。【方法】以Web of Science平台发布的历年JCR数据为研究对象,选取正常期刊和异常(因影响因子受操纵而被镇压...【目的】严重的期刊影响因子操纵现象影响了影响因子客观性,这种不正当行为应该被严格禁止,识别受操纵期刊的有效方式亟待发掘。【方法】以Web of Science平台发布的历年JCR数据为研究对象,选取正常期刊和异常(因影响因子受操纵而被镇压)期刊的14个文献计量学指标的历年数据,形成正常和异常2个期刊数据集。利用Python Scikit-learn库编写机器学习算法程序,对由正常、异常期刊数据集合并生成的训练集、验证集和测试集分别进行分类、训练、验证、测试。【结果】机器学习算法可以有效地对正常、异常期刊数据集进行分类,对验证集分类的准确率、精确率和召回率均达到98%以上,对算法最重要的5个特征的特征重要性为91.55%。部分算法对镇压后恢复正常期刊在镇压后第5年的数据的识别效果开始降低,所有编辑关注期刊均被分类为异常期刊,2021版JCR镇压期刊及镇压预警期刊均被准确分类为异常期刊。支持向量机算法具有最好的预测效果。【结论】机器学习算法在识别影响因子操纵期刊上具有天然的快速性和客观性优势。随着对影响因子的操纵手法及文献计量学指标不断增多,人工综合各种指标来识别、判定受操纵期刊的难度越来越大,各种机器学习算法的优势不断凸显。展开更多
文摘【目的】严重的期刊影响因子操纵现象影响了影响因子客观性,这种不正当行为应该被严格禁止,识别受操纵期刊的有效方式亟待发掘。【方法】以Web of Science平台发布的历年JCR数据为研究对象,选取正常期刊和异常(因影响因子受操纵而被镇压)期刊的14个文献计量学指标的历年数据,形成正常和异常2个期刊数据集。利用Python Scikit-learn库编写机器学习算法程序,对由正常、异常期刊数据集合并生成的训练集、验证集和测试集分别进行分类、训练、验证、测试。【结果】机器学习算法可以有效地对正常、异常期刊数据集进行分类,对验证集分类的准确率、精确率和召回率均达到98%以上,对算法最重要的5个特征的特征重要性为91.55%。部分算法对镇压后恢复正常期刊在镇压后第5年的数据的识别效果开始降低,所有编辑关注期刊均被分类为异常期刊,2021版JCR镇压期刊及镇压预警期刊均被准确分类为异常期刊。支持向量机算法具有最好的预测效果。【结论】机器学习算法在识别影响因子操纵期刊上具有天然的快速性和客观性优势。随着对影响因子的操纵手法及文献计量学指标不断增多,人工综合各种指标来识别、判定受操纵期刊的难度越来越大,各种机器学习算法的优势不断凸显。