摘要
甲骨文因字形独特、年代久远,所以一直没能进行有效编码。本文吸取现代编码思想,采用模糊数学模型分析甲骨文的部件(字根)特点,对其进行模糊聚类,并使用32个字符(25个英文字母和7个阿拉伯数字)作为码元,与甲骨文中的500多个字根相对应,实现了一字一码的编码方案。在此基础上,运用信息论中的熵理论,分析了这种编码的效率和科学性,得出甲骨文编码的最佳码长大致接近于3,从而为5000多个甲骨文字进行科学编码提供理论基础。
This paper researches JiaGuWen symbol coding using the fuzzy Mathematical theory, and sets up a method for clustering JiaGuWen symbol code roots and coding JiaGuWen characters. Then on the basis, we use the entropy in informatics to analyze the efficiency and rationality, and thus provide theory foundation for coding scientifically for JiaGuWen characters.
出处
《中文信息学报》
CSCD
北大核心
2003年第5期60-65,共6页
Journal of Chinese Information Processing
基金
湖北省自然科学基金资助研究项目(98J077)
关键词
计算机应用
中文信息处理
甲骨文
字根
象形码
模糊聚类
熵
码长
computer application
Chinese information processing
JiaGuWen
code root
symbol code
fuzzy clustering
entropy
code length