现当代文学作品的作者身份识别研究被引量：21

Research on authorship attribution of contemporary literature

下载PDF

导出

摘要主要利用了SVM统计机器学习模型对中国现当代文学八位代表人物的作品进行了作者身份识别研究,在识别过程中选取了以词汇为基础的多种统计量作为识别特征,并且采取了基于低密度多特征的训练方法,在跨文体的作品的作者身份识别中取得了非常优异的识别性能。 This paper uses the statistical model （SVM） for the identification of the author of contemporary Chinese literature works to eight representatives.In the identification process to select a vocabulary based on a variety of statistics as identifying features,and to take training methods based on the low-density and more features,having achieved better result in cross-style works of the author identification.

作者年洪东陈小荷王东波

机构地区南京师范大学文学院

出处《计算机工程与应用》 CSCD 北大核心 2010年第4期226-229,共4页 Computer Engineering and Applications

基金国家社会科学基金项目 No.07BYY050~~

关键词作者身份识别机器学习计算风格学现当代文学 authorship attribution machine learning computational stylistics contemporary literature

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Yule G U.On sentence length as a statistical characteristic of style in prose with application to two cases of disputed authorship[J]. Biometrika, 1938,30 : 363-390. 被引量：1
2Gani J.Literature and statistics[M]//Kotz S,Jonhnson N L.Encyclopedia of Statistics.[S.l.] : Wiley, 1985 : 90-95. 被引量：1
3Valenza R J.Are the Thisted-Efron authorship tests valid? [J].Computer and the Humanities,1991,25:27-46. 被引量：1
4Khmelev D,Tweedy F J.Using Markov chains for identification of Writers[J].Literary and Linguistic Computing,2001,16(4):299-307. 被引量：1
5De Vel O,Anderson A,Comey M,et al.Muhi-topic E-mail authorship attribution forensics[C]//Proc Workshop on Data Mining for Security Applications,8th ACM Conference on Computer Security, CCS'2001,2001. 被引量：1
6Short text authorship attribution via sequence kernels,Markov chains and author unmasking:An investigation[C]//Proceedings of International Conference on Empirical Methods in Natural Language Processing(EMNLP),Sydney, 2006:482-491. 被引量：1
7曾毅平,朱晓文.计算方法在汉语风格学研究中的应用[J].福建师范大学学报（哲学社会科学版）,2006(1):14-17. 被引量：21
8金明哲.中文文章的作者识别[R]..第二届中国社会语言学国际学术研讨会暨中国社会语言学会成立大会[C].澳门,2003年11月.. 被引量：3
9武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25
10钱锋,陈光磊.关于发展汉语计算风格学的献议[M]//胡裕树,宗廷虎.修辞学发凡与中国修辞学.上海:复旦大学出版社,1983. 被引量：2

二级参考文献27

1陈大康.从数理语言学看后四十回的作者——与陈炳藻先生商榷[J].红楼梦学刊,1987(1):293-318. 被引量：54
2李贤平.《红楼梦》成书新说[J].复旦学报（社会科学版）,1987,29(5):3-16. 被引量：66
3吴礼权.从统计分析看“简约”与“繁丰”的修辞特征及其风格建构的原则[J].修辞学习,2003(2):18-20. 被引量：4
4钱锋陈光磊.关于建立语体分类数学模型的构想[A]..语体论[C].合肥:安徽教育出版社,1987.. 被引量：2
5.[EB/OL].http: //www. 31390. com/public/reg_diseuss_p. jsp? to_id=7421&sd parent_id=0,. 被引量：1
6钱锋陈光磊.关于发展汉语计算风格学的献议[A]..修辞学发凡与中国修辞学[c].上海:复旦大学出版社,1983.. 被引量：1
7钱锋陈光磊.文学·数学·计算机[J].自然杂志,1981,(6). 被引量：1
8盛永生.论语言风格的内涵[A]..修辞·语体·风格[c].香港文化教育出版有限公司,2000.. 被引量：1
9丁金国.语言风格分析中的定性与定量[A]..修辞学论文集(第四集)[c].福州:福建人民出版社,1987.. 被引量：2
10金明哲.日本的定量文体研究的现状[R]..中国修辞学年会[C].昆明,2002年.. 被引量：1

共引文献44

1何琦.布斯曼统计公式在阿拉伯小说语言风格研究中的应用——以短篇小说《穆特瓦里大叔》为例[J].作家天地,2021(3):43-44.
2陈好修.基于语料库的作家作品词汇风格分析——以茅盾、巴金、老舍为例[J].语料库语言学,2019,6(2):50-63. 被引量：2
3张锦胜,林泽斐.数字人文视角下多日记人物关系联合挖掘及可视化研究——以西南联大相关日记为例[J].知识管理论坛,2023(3):171-182. 被引量：1
4曾毅平,朱晓文.计算方法在汉语风格学研究中的应用[J].福建师范大学学报（哲学社会科学版）,2006(1):14-17. 被引量：21
5陈晨,陈小莹,李永宏,于洪志.《仓央嘉措情歌》的用词风格统计研究[J].西北民族大学学报（自然科学版）,2009,30(1):46-50. 被引量：3
6张运良,朱礼军,乔晓东,张全.基于句类特征的作者写作风格分类研究[J].计算机工程与应用,2009,45(22):129-131. 被引量：19
7杜家利,于屏方.英日语料库语义接受度对比研究[J].计算机工程与应用,2009,45(24):146-149. 被引量：3
8王少康,董科军,阎保平.基于语句节奏特征的作者身份识别研究[J].计算机工程,2011,37(9):4-5. 被引量：10
9孙建文,杨宗凯,刘三(女牙),王佩.基于集成学习与遗传算法的网络书写纹识别研究[J].计算机科学,2011,38(6):242-245. 被引量：2
10杜家利,于屏方.计算语义学视角下的文本风格研究[J].计算机工程与应用,2011,47(30):123-126. 被引量：1

同被引文献376

1刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81. 被引量：39
2于舒娟,毛新涛,张昀,黄丽亚.基于词典和字形特征的中文命名实体识别[J].中文信息学报,2023,37(3):112-122. 被引量：2
3李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
4程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：22
5钱超峰,杜德斌.北宋官僚家族网络的空间结构及其演化:基于CBDB和CHGIS的考察[J].历史地理研究,2019,0(2):83-94. 被引量：6
6金敏.《管子·明法》与《韩非子·有度》比较[J].中外法学,1997,9(6):111-113. 被引量：2
7林兴宅.论系统科学方法论在文艺研究中的运用[J].文学评论,1986(1):48-56. 被引量：14
8王善忠.科学技术革命与文艺研究[J].学习与探索,1985(5):104-107. 被引量：2
9丁宁.系统研究:文艺理论跃迁的契机[J].文艺理论研究,1985(3):42-45. 被引量：2
10张经浩.重译《爱玛》有感[J].中国翻译,1999(3):39-41. 被引量：15

引证文献21

1赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：33
2张锦胜,林泽斐.数字人文视角下多日记人物关系联合挖掘及可视化研究——以西南联大相关日记为例[J].知识管理论坛,2023(3):171-182. 被引量：1
3郭金龙,许鑫,陆宇杰.人文社会科学研究中文本挖掘技术应用进展[J].图书情报工作,2012,56(8):10-17. 被引量：23
4陆宇杰,许鑫,郭金龙.文本挖掘在人文社会科学研究中的典型应用述评[J].图书情报工作,2012,56(8):18-25. 被引量：25
5郭金龙,许鑫.数字人文中的文本挖掘研究[J].大学图书馆学报,2012,30(3):11-18. 被引量：71
6罗琭昕.用统计的方法看“京派”与“海派”小说语言风格差异[J].现代语文（上旬．文学研究）,2012(4):137-141. 被引量：2
7罗红秀.文本作者鉴别初探——结合DIA理论分析[J].语文学刊（外语教育与教学）,2012(10):16-18. 被引量：1
8吕英杰,范静,刘景方.基于文体学的中文UGC作者身份识别研究[J].现代图书情报技术,2013(9):48-53. 被引量：11
9韩梦娟.红楼梦经济效应研究——基于列联表独立性检验的视角[J].经济与社会发展研究,2014,0(7):121-121.
10钱鹏,黄萱菁.中国古诗统计建模与宏观分析[J].江西师范大学学报（自然科学版）,2015,39(2):117-123. 被引量：4

二级引证文献225

1李树祥,褚淑贞,庄倩.我国药品注册法规体系的演变分析——基于文本挖掘方法[J].中国新药杂志,2020,29(1):1-8. 被引量：4
2夏翠娟.构建数智时代社会记忆的多重证据参照体系:理论与实践探索[J].中国图书馆学报,2022,48(5):86-102. 被引量：27
3郭平兴.数字人文视野下华人华侨史研究的迷思与进路——以《申报》相关数据库为例[J].印刷文化（中英文）,2021(1):133-144. 被引量：2
4赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：33
5陈琳.基于知识图谱的国内数字人文研究现状分析[J].图书馆学刊,2020,0(1):89-94. 被引量：2
6毕梦曦,张力元.机器学习方法对不明归属二程文献的判断[J].数字人文研究,2021,1(2):21-35. 被引量：1
7孙颖,冯晨旭.科学知识图谱对人文社会科学研究情报质量的优化——以基于CiteSpace的完美主义热点研究为例[J].图书情报工作,2013,57(S1):227-231. 被引量：3
8钱明霞,唐纯.实施素质教育与能力培养大力推进专业教改试点——工商企业管理专业(教改试点专业)毕业生调查及质量分析[J].常州工业技术学院学报,2000,13(1):78-82.
9叶增军,王江安,阮玉,邹勇华.基于光学设计的红外警戒系统虚警抑制[J].华中理工大学学报,2000,28(3):88-98. 被引量：2
10范佳.“数字人文”内涵与古籍数字化的深度开发[J].图书馆学研究,2013(3):29-32. 被引量：75

1李国强,李瑞芳,魏立峰.基于计算机的作者身份识别的研究[J].微计算机信息,2007,23(31):221-222.
2马建斌,滕桂法,常淑惠.基于作者身份识别的社会网络构建方法研究[J].河北农业大学学报,2011,34(5):118-120. 被引量：2
3郭旭,祁瑞华.作者身份识别中不规范文本特征选择方法的研究[J].现代图书情报技术,2016(11):27-33. 被引量：3
4祁瑞华,霍跃红,胡润波.文本作者身份识别研究综述[J].图书情报工作,2015,59(16):143-148. 被引量：1
5王少康,董科军,阎保平.基于语句节奏特征的作者身份识别研究[J].计算机工程,2011,37(9):4-5. 被引量：10
6祁瑞华,霍跃红,郭旭,刘彩虹.典籍英译作者身份识别研究[J].现代图书情报技术,2015(1):31-37. 被引量：2
7吕英杰,范静,刘景方.基于文体学的中文UGC作者身份识别研究[J].现代图书情报技术,2013(9):48-53. 被引量：11
8李晓军,刘怀亮,杜坤.一种基于复杂网络模型的作者身份识别方法[J].图书情报工作,2015,59(18):102-107. 被引量：9
9武晓春,黄萱菁,吴立德.基于语义分析的作者身份识别方法研究[J].中文信息学报,2006,20(6):61-68. 被引量：25
10张钰.现当代文学作品中称呼语变换所传递出的交际信息[J].文教资料,2012(23):30-32. 被引量：1

计算机工程与应用

2010年第4期

浏览历史

内容加载中请稍等...

现当代文学作品的作者身份识别研究被引量：21

参考文献11

二级参考文献27

共引文献44

同被引文献376

引证文献21

二级引证文献225

相关作者

相关机构

相关主题

浏览历史

现当代文学作品的作者身份识别研究 被引量：21

参考文献11

二级参考文献27

共引文献44

同被引文献376

引证文献21

二级引证文献225

相关作者

相关机构

相关主题

浏览历史

现当代文学作品的作者身份识别研究被引量：21