目的利用自适应合成抽样(adaptive synthetic sampling,ADASYN)与类别逆比例加权法处理类别不平衡数据,结合分类器构建模型对阿尔茨海默病(alzheimer′s disease,AD)患者疾病进程进行分类预测。方法数据源自阿尔茨海默病神经影像学计划(...目的利用自适应合成抽样(adaptive synthetic sampling,ADASYN)与类别逆比例加权法处理类别不平衡数据,结合分类器构建模型对阿尔茨海默病(alzheimer′s disease,AD)患者疾病进程进行分类预测。方法数据源自阿尔茨海默病神经影像学计划(Alzheimer′s disease neuroimaging initiative,ADNI),经随机森林填补缺失值,弹性网络筛选特征子集后,利用ADASYN与类别逆比例加权法处理类别不平衡数据。分别结合随机森林(random forest,RF)、支持向量机(support vector machine,SVM)构建四种模型:ADASYN-RF、ADASYN-SVM、加权随机森林(weighted random forest,WRF)、加权支持向量机(weighted support vector machine,WSVM),与RF、SVM比较分类性能。模型评价指标为宏观平均精确率(macro-average of precision,macro-P)、宏观平均召回率(macro-average of recall,macro-R)、宏观平均F1值(macro-average of F1-score,macro-F1)、准确率(accuracy,ACC)、Kappa值和AUC(area under the ROC curve)。结果ADASYN-RF的分类性能最优(Kappa值为0.938,AUC为0.980),ADASYN-SVM次之。利用ADASYN-RF预测得到的重要分类特征分别为CDRSB、LDELTOTAL、MMSE,在临床上均可得到证实。结论ADASYN与类别逆比例加权法都能辅助提升分类器性能,但ADASYN算法更优。展开更多
互联网金融中的网络贷款用户数据具有类别不平衡的特性,严重影响传统分类器的性能。随机平衡采样算法在对原始数据集进行重采样的过程中,将所有样本同等考虑,本文在平衡采样的过程中充分考虑样本点的性能,将其分为3类样本:安全的、边界...互联网金融中的网络贷款用户数据具有类别不平衡的特性,严重影响传统分类器的性能。随机平衡采样算法在对原始数据集进行重采样的过程中,将所有样本同等考虑,本文在平衡采样的过程中充分考虑样本点的性能,将其分为3类样本:安全的、边界的、噪声的,针对不同类型的样本采用相应的采样方法,得到平衡的新数据集,然后对该数据集进行Bagging集成,提高算法的泛化性能,结果表明本文改进的随机平衡采样(Improved Random Balanced Sampling,IRBS) Bagging算法可以较好地对网络贷款用户进行分类。展开更多
高效和准确的场景文本(efficient and accuracy scene text,EAST)检测算法速度快且结构简单,但是由于文本结构的特殊性,导致在检测中尺寸较小的文本会被遗漏,而较长的文本则完整性较差。针对EAST算法存在的问题提出一种新的自然场景文...高效和准确的场景文本(efficient and accuracy scene text,EAST)检测算法速度快且结构简单,但是由于文本结构的特殊性,导致在检测中尺寸较小的文本会被遗漏,而较长的文本则完整性较差。针对EAST算法存在的问题提出一种新的自然场景文本检测模型。该方法利用自动架构搜索的特征金字塔网络(neural architecture search feature pyramid network,NAS-FPN)设计搜索空间,覆盖所有可能的跨尺度连接提取自然场景图像特征。针对输出层进行修改,一方面通过广义交并比(generalized intersection over union,GIOU)作为指标提升边界框的回归效果;另一方面通过对损失函数进行修改解决类别失衡问题。输出场景图像中任意方向的文本区域检测框。该方法在ICDAR2013和ICDAR2015数据集上都取得了较好的检测结果,与其他文本检测方法相比,检测效果也得到了明显提升。展开更多
事件要素识别是事件抽取任务的重点和难点,其研究具有广阔的应用前景和巨大的现实意义。针对当前事件要素识别任务中存在的类别不平衡、无法学习标注序列的约束条件等问题,该文提出了一种基于CSOT-BiLSTM-CRF的中文事件要素识别模型。...事件要素识别是事件抽取任务的重点和难点,其研究具有广阔的应用前景和巨大的现实意义。针对当前事件要素识别任务中存在的类别不平衡、无法学习标注序列的约束条件等问题,该文提出了一种基于CSOT-BiLSTM-CRF的中文事件要素识别模型。模型将双向长短期记忆网络(Bidirectional Long Short-term Memory,BiLSTM)与条件随机场(Conditional Random Field,CRF)结合,首先,在预处理阶段,提出一种CSOT(Combine Synonyms Over-sampling Technique)算法以解决类别不平衡问题;然后,利用BiLSTM神经网络从前向和后向提取文本的上下文特征;最后,通过CRF自动学习标注序列中隐藏的约束条件,并解码获取最终标注序列。实验结果表明:相较于现有的事件要素识别模型,CSOT-BiLSTM-CRF模型能有效提高要素识别的准确率。展开更多
文摘目的利用自适应合成抽样(adaptive synthetic sampling,ADASYN)与类别逆比例加权法处理类别不平衡数据,结合分类器构建模型对阿尔茨海默病(alzheimer′s disease,AD)患者疾病进程进行分类预测。方法数据源自阿尔茨海默病神经影像学计划(Alzheimer′s disease neuroimaging initiative,ADNI),经随机森林填补缺失值,弹性网络筛选特征子集后,利用ADASYN与类别逆比例加权法处理类别不平衡数据。分别结合随机森林(random forest,RF)、支持向量机(support vector machine,SVM)构建四种模型:ADASYN-RF、ADASYN-SVM、加权随机森林(weighted random forest,WRF)、加权支持向量机(weighted support vector machine,WSVM),与RF、SVM比较分类性能。模型评价指标为宏观平均精确率(macro-average of precision,macro-P)、宏观平均召回率(macro-average of recall,macro-R)、宏观平均F1值(macro-average of F1-score,macro-F1)、准确率(accuracy,ACC)、Kappa值和AUC(area under the ROC curve)。结果ADASYN-RF的分类性能最优(Kappa值为0.938,AUC为0.980),ADASYN-SVM次之。利用ADASYN-RF预测得到的重要分类特征分别为CDRSB、LDELTOTAL、MMSE,在临床上均可得到证实。结论ADASYN与类别逆比例加权法都能辅助提升分类器性能,但ADASYN算法更优。
文摘互联网金融中的网络贷款用户数据具有类别不平衡的特性,严重影响传统分类器的性能。随机平衡采样算法在对原始数据集进行重采样的过程中,将所有样本同等考虑,本文在平衡采样的过程中充分考虑样本点的性能,将其分为3类样本:安全的、边界的、噪声的,针对不同类型的样本采用相应的采样方法,得到平衡的新数据集,然后对该数据集进行Bagging集成,提高算法的泛化性能,结果表明本文改进的随机平衡采样(Improved Random Balanced Sampling,IRBS) Bagging算法可以较好地对网络贷款用户进行分类。
文摘高效和准确的场景文本(efficient and accuracy scene text,EAST)检测算法速度快且结构简单,但是由于文本结构的特殊性,导致在检测中尺寸较小的文本会被遗漏,而较长的文本则完整性较差。针对EAST算法存在的问题提出一种新的自然场景文本检测模型。该方法利用自动架构搜索的特征金字塔网络(neural architecture search feature pyramid network,NAS-FPN)设计搜索空间,覆盖所有可能的跨尺度连接提取自然场景图像特征。针对输出层进行修改,一方面通过广义交并比(generalized intersection over union,GIOU)作为指标提升边界框的回归效果;另一方面通过对损失函数进行修改解决类别失衡问题。输出场景图像中任意方向的文本区域检测框。该方法在ICDAR2013和ICDAR2015数据集上都取得了较好的检测结果,与其他文本检测方法相比,检测效果也得到了明显提升。
文摘事件要素识别是事件抽取任务的重点和难点,其研究具有广阔的应用前景和巨大的现实意义。针对当前事件要素识别任务中存在的类别不平衡、无法学习标注序列的约束条件等问题,该文提出了一种基于CSOT-BiLSTM-CRF的中文事件要素识别模型。模型将双向长短期记忆网络(Bidirectional Long Short-term Memory,BiLSTM)与条件随机场(Conditional Random Field,CRF)结合,首先,在预处理阶段,提出一种CSOT(Combine Synonyms Over-sampling Technique)算法以解决类别不平衡问题;然后,利用BiLSTM神经网络从前向和后向提取文本的上下文特征;最后,通过CRF自动学习标注序列中隐藏的约束条件,并解码获取最终标注序列。实验结果表明:相较于现有的事件要素识别模型,CSOT-BiLSTM-CRF模型能有效提高要素识别的准确率。