-
题名基于TRANSFORMER的文本情感分类方法研究
被引量:1
- 1
-
-
作者
杨宇帆
高定国
许泽洲
-
机构
西藏大学信息科学技术学院
-
出处
《中央民族大学学报(自然科学版)》
2022年第3期42-45,共4页
-
基金
2018年西藏自治区自然科学基金(XZ2018 ZR G-11)
青海省藏文信息处理与机器翻译重点实验室和藏文信息处理教育部重点实验室开放课题(2020Z001)。
-
文摘
情感分类是一种具有较大实用价值的分类技术,在一些现实场景如电影票房预测中有着广泛的应用,一直以来都备受关注。为探究目前主流深度学习方法在文本情感分类任务上的优缺点,该文对比评测了基于TRANSFORMER的几种主流方法,包括BERT与其改进模型RoBERTa、DistilBERT和MiniLM。在IMDB电影评论情感分类任务上实验后发现:目前的多语言预训练方式会降低BERT模型的分类性能;不同于视觉模型,蒸馏等手段精简后的语言模型,其分类能力会有轻微下降;RoBERTa的训练方法十分优异,值得深入研究。该文为BERT情感分类提供了进一步改进方向。
-
关键词
文本情感分类
TRANSFORMER
BERT
-
Keywords
sentiment classification
TRANSFORMER
BERT
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏文虚词知识融合的藏汉机器翻译方法研究
- 2
-
-
作者
严松思
珠杰
汪超
刘亚姗
许泽洲
徐泽辉
-
机构
西藏大学信息科学技术学院
省部共建西藏信息化协同创新中心
-
出处
《中央民族大学学报(自然科学版)》
2024年第1期20-27,共8页
-
基金
国家自然基金项目(62066042)
教育部人文社会科学研究项目(21YJCZH059)
+4 种基金
2021年西藏自治区高校人文社会科学研究项目(SK2021-24)
西藏大学提升计划项目(ZDTSJH21-07)
西藏大学培育计划项目(ZDCZJH21-10)
西藏大学珠峰学科建设计划项目(zf22002001)
西藏大学2020级高水平项目(2020-GSP-S176)。
-
文摘
针对藏文虚词的文法特点,设计了基于藏文虚词知识融合的方法,该方法能够提高藏汉翻译的效果。首先通过全部藏文虚词知识融合、过滤兼类虚词知识融合、单音节虚词知识融合和多音节虚词知识融合,得到四种对应语料,其次将其在Transformer模型和mBART模型上进行了实验,使用轮数集成和不同网络结构集成来提高最终模型的泛化能力。对比实验证明,藏文虚词知识融合算法与模型集成策略可以提升藏汉机器翻译的翻译效果,最高可以达到38.05个BLEU。
-
关键词
藏文虚词知识融合
机器翻译
模型集成
-
Keywords
knowledge fusion of Tibetan function words
machine translation
model integration
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名结合级联技术的藏文预训练命名实体识别模型
被引量:1
- 3
-
-
作者
徐泽辉
珠杰
许泽洲
汪超
严松思
刘亚姗
-
机构
西藏大学信息科学技术学院
省部共建西藏信息化协同创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2023年第11期23-28,共6页
-
基金
西藏大学提升计划项目(ZDTSJH21-07)
西藏大学培育计划项目(ZDCZJH21-10)
+3 种基金
西藏大学珠峰学科建设计划项目(zf22002001)
国家自然科学基金(62066042)
教育部人文社会科学研究项目(21YJCZH059)
2021年西藏自治区高校人文社会科学研究项目(SK2021-24)。
-
文摘
命名实体识别是藏文自然语言处理中的一项关键任务,该文提出了结合三种藏文预训练模型(Word2Vec、ELMo、ALBERT)的Casade-BiLSTM-CRF结构。级联技术(Cascade)将藏文命名实体识别划分为两个子任务(实体边界划分,实体类别判断)分阶段进行,简化了模型结构;使用藏文预训练模型,能更好地学习藏文先验知识。实验表明,Cascade-BiLSTM-CRF模型相比于BiLSTM-CRF模型训练一轮时间缩短了28.30%;而将级联技术与预训练技术相结合,在取得更好识别效果的同时还缩短了模型训练时间。
-
关键词
藏文命名实体识别
级联
预训练
-
Keywords
Tibetan NER
cascade
pre-training
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于图卷积网络的任意形状藏文文本检测方法研究
- 4
-
-
作者
珠杰
许泽洲
-
机构
西藏大学信息科学技术学院
西藏信息化省部共建协同创新中心
-
出处
《高原科学研究》
CSCD
2023年第3期94-101,共8页
-
基金
国家自然科学基金项目(62066042)
教育部人文社会科学研究项目(21YJCZH059)
+1 种基金
西藏大学培育计划项目(ZDCZJH21-10)
西藏大学珠峰学科建设计划项目(zf22002001)。
-
文摘
在文本检测领域,多形状文本检测一直是一个棘手的问题,对于藏文文本检测来说,这更是一个亟待解决的问题。文章构建了基于CC-Based思想的任意形状藏文文本检测模型,该模型首先使用卷积神经网络来获得文本构件预测,然后使用图卷积网络来进行关系推理。模型在藏文自然场景数据集与现代藏文书籍数据集上都取得了优良的实验结果。
-
关键词
文本检测
任意形状
藏文
图卷积网络
-
Keywords
text detection
arbitrary shape
Tibetan
GCN
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名妈妈的生日
- 5
-
-
作者
许泽洲
-
机构
湖南第一师范第二附属小学二年级
-
出处
《小学生导刊(低年级版)》
2004年第Z2期37-37,共1页
-
-
关键词
礼物
鲜花
水果
-
分类号
G624.2
[文化科学—教育学]
-