-
题名基于文本特征识别的电子档案自动归类系统研究
被引量:5
- 1
-
-
作者
王珺
-
机构
周口师范学院
-
出处
《现代电子技术》
北大核心
2019年第18期45-49,共5页
-
基金
国家自然科学基金(61801527)
河南省教育厅人文社会科学研究项目(2019-ZZJH-503)~~
-
文摘
传统归类方法采用自动标引主题词变换成分类号实现自动分类,该方法分类过程复杂,应用性差.因此,提出一种基于文本特征识别的电子档案自动归类系统.该系统采用电子档案语料库模块根据使用者需求挖掘语料,实现语料库构建、查询、清除和维护等操作;通过电子档案排版模块,基于内容映射的方式排版电子档案;在此基础上采用有限自动机选择法和组合特征选择法选取文本内特征词,识别电子档案文本特征后,通过SVM分类器和类别识别器两次归类过程,判断电子档案最终类别归属.封闭性归类测试和开放性归类测试结果表明,该系统的平均查全率和精度都高于95%,且不同信噪比环境下,系统平均中断概率为0.17%,低于对比系统.
-
关键词
电子档案
自动归类
特征识别
语料库模块
排版模块
归类测试
-
Keywords
electronic files
automatic classification
feature recognition
corpus module
typesetting module
classifica- tion test
-
分类号
TN912.34.34
[电子电信—通信与信息系统]
N945.12
[电子电信—信息与通信工程]
-
-
题名面向手语信息处理的维吾尔文本采集的研究
被引量:1
- 2
-
-
作者
艾山江·亚生
阿里甫·库尔班
张丹丹
-
机构
新疆大学信息科学与工程学院
新疆大学软件学院
-
出处
《现代电子技术》
北大核心
2019年第12期136-139,143,共5页
-
基金
国家自然科学基金资助项目(61163029)
国家自然科学基金资助项目(61562084)~~
-
文摘
从自然语言处理以及深度学习的基本理念、原则出发,为基于中国手语的维吾尔文本信息处理研究提供数据资源,为面向手语信息的手语合成研究,为手语新闻文本编辑研究提供科学依据,对维吾尔文本进行自动分词、自动分句研究,并利用Word2Vec方法进一步建立文本词元库,通过这样保证训练语料的多元化及通用性。最后,利用词干提取方法以及分割字母的方式将维吾尔文本信息转换成手语文本信息,并在此基础上初步采集面向手语信息处理的维吾尔文本信息。实验表明该研究达到了预期目标。
-
关键词
深度学习
Word2Vec方法
手语合成
文本词元库
词干提取
字母分割
-
Keywords
deep learning
Word2Vec method
sign language synthesis
text word element library
word stem extraction
letter segmentation
-
分类号
TN912.34.34
[电子电信—通信与信息系统]
TP311.1
[电子电信—信息与通信工程]
-