-
题名句法复杂网络作为语体分类的知识源研究
被引量:6
- 1
-
-
作者
陈芯莹
刘海涛
-
机构
西安交通大学外国语学院
浙江大学语言行为模式中心
-
出处
《计算机工程与应用》
CSCD
2013年第8期32-36,共5页
-
基金
国家社会科学基金重大项目(No.11&ZD188)
-
文摘
基于6种语体的句法树库构建了6个依存句法网络,对这些网络的边数、节点数、节点平均度、聚类系数、平均最短路径长度、网络中心势、直径、节点度幂律分布的幂指数、度分布与幂律拟合的决定系数等整体特征进行了对比分析。以这些整体特征为变量,采用欧几里德的"最短距离"法,对这6种语体的句法网络进行了聚类分析。研究结果显示,通过一些网络的主要参数,即网络节点数、聚集系数、平均路径长度、中心势以及节点度幂律分布的幂指数,可以对所研究的文本进行分类。与传统的文本聚类方法相比,其结果更容易从语言学的角度进行合理的解释。
-
关键词
语体
文本分类
网络特征
语言网络
-
Keywords
style
text clustering
network characteristics
language networks
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-
-
题名语义、句法网络作为语体分类知识源的对比研究
被引量:2
- 2
-
-
作者
陈芯莹
刘海涛
-
机构
西安交通大学外国语学院
浙江大学语言行为模式中心
-
出处
《计算机工程与应用》
CSCD
2014年第2期10-14,43,共6页
-
基金
国家社会科学基金重大项目(No.11&ZD188)
-
文摘
基于6种语体的句法和语义树库分别构建了依存句法和语义网络,对这些网络的边数、节点数、节点平均度、聚类系数、平均最短路径长度、网络中心势、直径、节点度幂律分布的幂指数、度分布与幂律拟合的决定系数等整体特征进行了对比分析。以这些整体特征为变量,采用不同的聚类方法,对这6种语体的句法和语义网络进行了聚类分析。研究结果显示,同样是基于语言学原则构建起来的网络结构,依存句法网络和依存语义网络之间有明显差异。其参数的含义不尽相同,依据其各项参数所做的聚类实验的结果也不相同。采用语义网络的一些主要参数组合,可以获得相对合理的聚类结果,但不能很好地区分书面语体和口语体;通过句法网络的一些主要参数组合,可以很好地区分不同语体的文本,获得较为合理的文本聚类结果。
-
关键词
语体
文本分类
网络特征
-
Keywords
genre
text clustering
network features
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-