-
题名汉语文本中字母词语的使用与规范探讨
被引量:21
- 1
-
-
作者
杨建国
郑泽之
-
机构
北京语言大学DCC博士研究室
太原师范学院计算机系
-
出处
《语言文字应用》
CSSCI
北大核心
2005年第1期88-94,共7页
-
文摘
本文基于2002年《人民日报》的语料,对计算机自动提取出的字母词语块进行了考察分析;文章重点考察了字母词语和对应汉字词语或汉字词语和对应字母词语在专名中同现的情形,并就如何规范字母词语提出了两点思考。
-
关键词
字母词语
汉字词语
规范
专名
-
Keywords
Lettered words and phrases
Chinese word
Normalization
proper nouns
-
分类号
H102
[语言文字—汉语]
-
-
题名汉语真实文本字母词语考察
被引量:9
- 2
-
-
作者
郑泽之
张普
-
机构
厦门大学中文系
北京语言大学应用语言学研究所
-
出处
《语言科学》
2005年第6期65-74,共10页
-
基金
教育部"国家语言资源监测与研究中心"项目(04L2004-01-01-03)的资助
-
文摘
借助计算机自动提取,本文对2002年《人民日报》(网络版)全年真实文本中外文字母的使用情况进行了统计考察,给出了作者对字母词语中几个问题的分析讨论,包括对外文字母在该报纸语料中使用情况的分类、字母词语的工程界定(ELWP)、单字母ELWP、含数字ELWP的分类分析和并列结构ELWP处理等。希望对字母词语的规范和中文信息处理有所裨益。
-
关键词
ELWP
字母词语
单字母ELWP
含数字ELWP
并列结构
-
Keywords
ELWP
lettered-words
monoalphabetic ELWP
digital ELWP
paratactic structures
-
分类号
H136
[语言文字—汉语]
-
-
题名基于语料库的字母词语自动提取研究
被引量:10
- 3
-
-
作者
郑泽之
张普
杨建国
-
机构
太原师范学院计算机系
北京语言大学DCC博士研究室
-
出处
《中文信息学报》
CSCD
北大核心
2005年第2期78-85,共8页
-
基金
"国家语言资源监测与研究中心"项目资助 (0 4L2 0 0 4 - 0 1- 0 1- 0 3)
-
文摘
目前 ,很多最新的术语和专有名词 ,首先以字母词语的形式出现在汉语中 ,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词 ,其正确识别 ,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母词语进行先期考察的基础上 ,分析了字母词语组成情况的复杂特征和自动识别的难点 ,结合字母词语的各种统计特征和其独有的特点———字母串“锚点” ,提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法。并且对字母词语的双语同现问题进行了处理。算法简单 ,但有效。召回率为 10 0 % ,准确率在 80 %以上。
-
关键词
人工智能
自然语言处理
字母词语
自动提取
-
Keywords
artificial intelligence
natural language processing
lettered-word
automatic extracting
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名字母词语自动提取的几点分析
被引量:6
- 4
-
-
作者
郑泽之
张普
-
机构
太原师范学院计算机系
北京语言大学应用语言学研究所
-
出处
《语言文字应用》
CSSCI
北大核心
2005年第1期75-81,共7页
-
文摘
字母词语大多是术语和专名,也是汉语自动分词中的未登录词,其正确识别与否不仅关系到大规模中文文本自动分词和标注,也关系到信息检索、搜索引擎、机器翻译等应用软件的质量。本文对大规模真实文本中的字母词语的使用情况进行了考察,对其自动提取进行研究,并就汉语文本字母词语自动提取的难点进行了分析,给出了一些建议。
-
关键词
字母词语
自动提取
词汇
-
Keywords
Lettered words
auto-extracting
glossary
-
分类号
H08
[语言文字—语言学]
-
-
题名基于ASP的流行语投票系统
- 5
-
-
作者
郑泽之
-
机构
太原师范学院计算机系
-
出处
《太原师范学院学报(自然科学版)》
2002年第2期26-30,53,共6页
-
基金
国家语委规划项目
-
文摘
本文介绍了我们利用ASP可以直接在HTML文件中嵌入脚本命令用JavaScript或VBScript脚本语言编写程序以及ADO组件对任何与ODBC兼容的数据库或OLE DB数据源的高性能连接并结合数据库结构化查询语言(SQL)开发的一个流行语投票系统.
-
关键词
ASP
流行语投票系统
数据库
服务器
浏览器
源代码
Web页设计
ADO
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
C91
[自动化与计算机技术—计算机科学与技术]
-
-
题名一个基于ASP的流行语投票系统
被引量:4
- 6
-
-
作者
郑泽之
张普
-
机构
北京语言大学应用语言学研究所
太原师范学院计算机系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第17期11-12,48,共3页
-
基金
国家语委"十五"规划资助项目(YB105-63E)
-
文摘
利用ASP可以直接在HTML文件中嵌入用JavaScript或VBScript脚本语言编写的脚本命令和ADO组件,对任何与ODBC兼容的数据库或OLE DB数据源的高性能连接的优点,结合数据库结构化查询语言(SQL),构建了一个动态交互的投票系统,完成流行语的网上投票。该系统可以修改泛化应用于各种类型的网上投票或调查系统。
-
关键词
ASP
ADO
投票系统
WEB服务器
浏览器
-
Keywords
ASP
ADO
Voting system
Web server
Browser
-
分类号
TP274
[自动化与计算机技术—检测技术与自动化装置]
-