对雷达装备故障文本进行智能化分类,有助于提高雷达装备保障效率。针对雷达故障文本专业性强,样本量小且不平衡的问题,通过非核心词EDA进行类内数据增强,以实现在增加文本量的同时保持关键信息不变。针对非核心词EDA方法产生的新样本多...对雷达装备故障文本进行智能化分类,有助于提高雷达装备保障效率。针对雷达故障文本专业性强,样本量小且不平衡的问题,通过非核心词EDA进行类内数据增强,以实现在增加文本量的同时保持关键信息不变。针对非核心词EDA方法产生的新样本多样性不够的问题,增加SSMix(saliency-based span mixup for text classification),进行类间数据增强,通过对输入文本非线性的交叉融合来提升文本的多样性。实验证明,与现有的经典基线分类方法和典型数据增强分类方法相比,该方法在准确率上有较大幅度的提升。展开更多
近年来,使用机器学习算法从导游投诉文本数据中识别出导游违规行为,辅助旅游监管人员工作,为旅游监管提供依据,成为一个必然趋势。然而导游投诉文本存在着语料单一、难以获取等困难,如何对这些导游投诉文本进行文本增强以满足导游违规...近年来,使用机器学习算法从导游投诉文本数据中识别出导游违规行为,辅助旅游监管人员工作,为旅游监管提供依据,成为一个必然趋势。然而导游投诉文本存在着语料单一、难以获取等困难,如何对这些导游投诉文本进行文本增强以满足导游违规行为识别需要,是一个迫切需要解决的问题。针对这一问题,提出了一种基于EDA(easy data augmentation)和回译的导游投诉文本混合增强方法。从EDA和回译两个角度对导游投诉文本进行增强,将两种方法返回的增强投诉语料进行混合,得到最终的增强文本;并将该方法在实际的导游违规行为识别系统中进行了应用与验证。通过大量实验对该方法与传统的EDA文本增强方法、回译文本增强方法进行了分析与对比,实验数据表明,基于EDA和回译的导游投诉文本混合增强方法相对于其他两种传统文本增强方法具有更高的准确率和更优秀的文本增强效果,应用在实际的导游违规行为识别系统中得到了87.54%的准确率,相比原始数据集准确率提升了7.4%。展开更多
文摘对雷达装备故障文本进行智能化分类,有助于提高雷达装备保障效率。针对雷达故障文本专业性强,样本量小且不平衡的问题,通过非核心词EDA进行类内数据增强,以实现在增加文本量的同时保持关键信息不变。针对非核心词EDA方法产生的新样本多样性不够的问题,增加SSMix(saliency-based span mixup for text classification),进行类间数据增强,通过对输入文本非线性的交叉融合来提升文本的多样性。实验证明,与现有的经典基线分类方法和典型数据增强分类方法相比,该方法在准确率上有较大幅度的提升。
文摘近年来,使用机器学习算法从导游投诉文本数据中识别出导游违规行为,辅助旅游监管人员工作,为旅游监管提供依据,成为一个必然趋势。然而导游投诉文本存在着语料单一、难以获取等困难,如何对这些导游投诉文本进行文本增强以满足导游违规行为识别需要,是一个迫切需要解决的问题。针对这一问题,提出了一种基于EDA(easy data augmentation)和回译的导游投诉文本混合增强方法。从EDA和回译两个角度对导游投诉文本进行增强,将两种方法返回的增强投诉语料进行混合,得到最终的增强文本;并将该方法在实际的导游违规行为识别系统中进行了应用与验证。通过大量实验对该方法与传统的EDA文本增强方法、回译文本增强方法进行了分析与对比,实验数据表明,基于EDA和回译的导游投诉文本混合增强方法相对于其他两种传统文本增强方法具有更高的准确率和更优秀的文本增强效果,应用在实际的导游违规行为识别系统中得到了87.54%的准确率,相比原始数据集准确率提升了7.4%。