|
作文自动评分是指使用计算机作为评分员,自主对作文进行评分,这是备受关注的一种全新的作文评分方式。这种方法不仅能够提高评分效率,而且能从根本上消除作文评价的不一致,对于控制评分误差有重要意义。目前国外已经有很多作文自动评分系统,有些已经成功的运用到了实际考试中。虽然国外的研究成果颇丰,但是国内的汉语自动评分研究还处于起步阶段,主要为针对留学生、少数民族汉语作文等较低水平作文的研究,还很少有针对像高中生作文这类高水平汉语作文的自动评分研究。
一、国外研究概述
从20世纪的60年代起,研究者们开始进行以计算机代替人工来评价作文的研究探索[1]。目前国外已经成功地研究开发出了许多作文自动评分系统,其中一部分系统已经在实际考试中得到了大规模的应用[2],取得了很好的效果。
国外已有的作文自动评分系统很多,例如:PEG、E-rater、BETSY、IEA、IntelliMetric、Jess等。
PEG(Project Essay Grader)是由杜克大学的Page等人开发的,也是资格最老的作文自动评分软件系统。PEG主要对作文的形式进行分析,基于浅层的语法特征评分,针对行文质量而不是作文的内容。Page创造性地使用了“proxes”、“trins”[3]等概念来模仿人工评分。Page的理论假设就是:反映一篇作文好坏的依据是“trins”(例如一般写作能力),但是这些trins是潜在的,无法直接通过测量获得,只有通过一些外在因素——“proxes”来间接反映。因此,对于作文的评判工作的关键就在于找到最能够反映作文特性的“proxes”,并使用合适的模型表达“proxes”和作文得分之间的关系。PEG使用的主要的proxes包括[4]:(1)单词平均长度;(2)作文长度(总字数);(3)逗号的数量;(4)前置词的数量;(5)生僻字的数量。其中最后一个指标跟总分是负相关的。PEG完全依靠统计方法,没有考虑词汇的意义,它的假设就是作文的质量完全由可测量的proxes来反映。Page的最近一项研究表明PEG系统的评分结果和人工评分的相关系数达到0.87[5]。
E-rater (Electronic Essay Rater)是ETS开发的一套作文自动评分系统,从1999年2月开始用于GMAT,每年大约要评价36万份作文。不同于传统的、分析性的作文评分方式,E-rater采用的是整体评分(holistic scoring)[6]。这种评分方式依靠读者的总体印象。一般来说,如果某篇作文针对问题的论述有很好的组织结构、使用丰富多样的词汇、有较好的句法结构,那么就会得到高分。E-rater综合使用了统计方法和自然语言处理的技术来提取作文的语言特征。它识别的反映作文质量的特征是完全和人工评分的标准相一致的。通过75万份GMAT作文的评分结果比较,E-rater和人工评分的一致性(agreement)超过97%[6]。
长期以来,由于日本语是黏着性语言难以进行计算机分析处理,作文自动评分的研究进展相当缓慢。但是在90年代后期,报刊作文电子版本的普及以及自然语言处理系统的免费使用,为日语作文自动评分的研制提供了很大的便利。自1999年起,日本文部省大学入试中心开始研制日语作文自动评分系统Jess(Japanese Essay Scoring System),目的在于实现高考作文评分计算机化,以减少人工评分的成本,并从根本上解决评价者评分不一致的问题。Jess参照E-rater的评价标准,根据日语特点从三个方面来评价作文:(1)修辞、(2)逻辑结构、(3)内容,其配分比例是5:2:3[7]。
二、国内研究概述
1998年和1999年教育部考试中心先后邀请了美国ETS和英国剑桥大学考试委员会的专家来华,介绍他们网上评卷和软件及自动评卷系统,希望能够改进我国的自动评分现状[8]。
2002年,冯鑫等在《电子阅卷员在美国的发展及在我国应用的探讨》一文中以E-rater为例对电子阅卷员在美国的发展进行了详细的介绍,其中涉及发展简史、设计原理、语言学变量的获取、统计建模、结果分析、未来研究方向等多方面的问题;并从英语考试、中文考试、技术要求等诸多角度对电子阅卷员在我国应用的可行性与艰巨性进行了探讨[2]。
2005年张梅撰文介绍了E-rater的工作原理以及在美国的使用现状,讨论了在我国的大学英语四、六级考试中使用自动评分系统的可行性。认为在我国的大学英语四、六级考试中使用类似E-rater的英文作文自动评分系统可以减轻阅卷员的工作量,保证阅卷评分的客观性和准确性。同时该文指出由于作文自动评分系统需要通过分析大量经过两位以上的阅卷员的评分而建立评分模式,英语作文自动评分系统不可能在短期内完全取代教师阅卷[9]。
国内一些学者也开始了进行实证研究的尝试,如张晋军等提出了一个称为“汉语测试电子评分员”的研究设想,并进行了实践检验。在新疆、内蒙、延边3地随机选取的700份中国少数民族汉语水平等级考试(MHK)三级作文预测卷,由3位评分员严格按照MHK(三级)作文评分要求进行独立评分。然后选取了总字数、不重复字数、乙级字字数、丙级字字数、丁级字字数、乙丙丁、级字字数、乙级词数、丙级词数、丁级词数、乙丙级词数、丙丁级词数、乙丙丁、级词数、连、介、助动、助词数、副、形容词数、标点数、平均句长、句子数、语法错误数等18项量化指标作为评分因素,经过回归分析,选出了5项效应明显的指标,构建了一个5参数的回归模型,并编写出程序对这些作文进行评分,最后对人工评分和电子评分员的自动评分结果进行了比较,电子评分员与人工评分的评分一致性达到了较高的程度:电子评分员和评分员甲之间的相关达0.795;和评分员乙之间的相关达0.820;和评分员丙之间的相关达.772;和人工评分综合成绩的相关达0.842[10]。
台湾学者林素穗等人在关于非同步式网络教学评价的研究中,设计了一个汉语作文自动评分的程序。该程序基本上是从语法层面上进行作文评价,没有语意分析的成分,通过提取学生作文所采用的字词进行评价。整个评分过程分为两个阶段,第一个是训练阶段,首先对作文进行人工评分,将它们分为n个等级;然后将这n个等级的作文的答案合并成n个等级的答案库;从答案库中抽取出n个等级的关键词向量,最终由这n个等级的关键词向量建立评分规则资料库。第二个阶段是评分阶段。按照训练阶段的步骤将每一篇待评价的作文抽取出关键词向量,评分方法使用的是向量空间模型。但是未见到该文报道实验的进程和结果[11]。
[url=]曹亦薇和杨晨[/url]对高中生汉语作文进行了自动评分的探索。目的是通过使用不同方法进行自动评分,确定对高中生汉语作文进行自动评分的可行性和准确性,并检验这些方法在汉语作文自动评分中的适用性。[url=]他们[/url]使用202份高中汉语作文为研究材料,分别进行了人工评分和自动评分,并计算他们的相关和一致率来检验自动评分的效果。自动评分采用了三种方法,分别是:依据语言形态学特征,使用多元回归的方法进行自动评分;使用词频向量空间模型进行自动评分;依据词频、词频-逆文档、信息量的加权向量,使用潜语义分析方法进行的自动评分。研究结果表明三种方法都有效果;自动评分和人工评分的相关和国外同类研究相比处于中等水平;一致率达到同等水平。按照自动评分与人工评分的相关从大到小进行排序,所得到的顺序为:潜语义分析、向量空间模型、回归模型[12]。
三、展望未来
让计算机自主评价作文存在许多技术难题,许多人认为这是根本不可能实现的事情。国外的研究已经取得了丰硕的成果,[url=]但是[/url]在国内还没有针对汉语作文的自动评分系统出现,但是相关的研究已经逐渐增多。
实现汉语作文自动评分需要逐步突破三种关键技术,包括:
1.汉语作文人工评分标准;要求标准具有科学性,同时可操作性强;
传统的作文评价方式是由教师审阅整篇作文,然后根据自己的主观感受,给出一个整体分数或者评语。这种评价属于无指标评价方式,凭借的是阅读者的模糊印象,没有明确的、条分缕析的、可操作的评价标准。评价的准确性依赖于评价者的经验、态度、心情。这种评价方式具有很低的评分者一致性,不够科学客观,不适于标准化的考试。
现在的作文考试评价采用有指标的评价方式,通常会有一套评价方案,包括了详细的评价标准,以及相对应的分数。这样评价者就可以依据明确的参考标准,给出相对确切的分数。这种评价方式[url=]向对[/url]客观公正,便于操作,具有相对较好的评分者一致性。
但是模式化的操作意味着有规可循,这或许能够促进作文评价的科学化发展。特别是在计算机自动的作文评分中,更是要有一个是非分明的“尺度”,这样才可以让自动评价成为现实。
2.供计算机使用评分指标体系和计算方法;要求能够寻找出计算机可以识别的指标,容易量化,同时能够完美对应人工评分的科学性要求;
众所周知,使用计算机进行选择题、判断题等客观题型的自动评分很容易,因为这些题目具有标准答案,只要编写出程序,比较被试的回答是否和标准答案一样,就能够做出评判。但是对作文进行自动评分却很困难,因为作文测试没有标准答案,不能采用简单的“对比”模式。作文自动评分的原理就是依靠一些语言指标对作文质量进行间接评价。评价的过程体现了回归和分类的统计学思想,通过数学方法来完成这一过程。这种评分思路不同于人工评分,二者的区别在于评分过程中是否理解了评分标准。他们的评分逻辑的比较如图1。
根据作文自动评分的原理,可以得到计算机评分的工作机制:首先提取出反映写作水平的特征,然后利用这些特征和数学模型计算出分数。并且确保这个分数最大程度的接近人工评分的结果。
3.汉语的计算机自然语言处理技术;
汉语文字的计算机识别及加工[url=]能[/url]技术难题需要计算机领域的专家来攻克。很高兴最近汉语的计算机自然语言处理技术有了突飞猛进的发展。例如由于中文词语之间没有空格分割,使用计算机进行分词是进行自动评分研究需要解决的首要问题。随着中文自然语言处理研究的发展,目前这一困难基本得到解决。中国科学院计算技术研究所在多年研究基础上,研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统不仅完全具备了中文分词的功能,还有词性标注和未登录词识别的功能。ICTCLAS分词的正确率高达97.58%(最近的973专家组评测结果)[13]。另外北京大学、北京语言大学都[url=]有[/url]汉语自然语言处理工具成功开发,为汉语作文自动评分研究打下了基础。
自动评分很好地做到了作文评价的客观化,可以做到在不同的时间地点,在不同的计算机环境里面对于同一篇作文的评价结果完全相同。使用这些系统进行作文评分,不仅提高了作文评价效率、降低了人工成本,而且从根本上消除了评分者之间的不一致。
可以说,使用计算机进行自动评分是评价科学化发展的必由之路,是提高作文评分准确性和评分效率的最有效途径。在美国Erater已经成功的在ETS组织的托福等考试中应用,而日本Jess研制的目的就是处理日本大学入试的作文评分。最近台湾也研发出了一套“中文写作自动化评分系统”(ACES),该软件能自动分析初中基准测试考生的作文程度,并给于6个等级的评分[14]。相信像我国这样一个考生众多的考试大国,将来一定能够成功进行汉语作文自动评分,这不仅能改善评分准确性,还能大大节约人力成本。
参考文献:
[1] Rudner L., Phill G.. An overview of three approaches to scoring written essays by computer [EB/OL].http://PAREonline.net/getvn. asp?v=7&n=26 . 2005-9-20
[2]冯鑫,冯卉.电子阅卷员在美国的发展及在我国应用的探讨,考试研究(第二辑),天津人民出版社p55-67.
[3] Page E.B.Statistical and Linguistic Strategies in the Computer Grading of Essays[EB/OL].http://acl.ldc.upenn.edu/C/C67/C67-1032.pdf 2005-10-10
[4] Kukich K.. Beyond Automated Essay Scoring. In:Marti A.H. (Ed), The debate on automated essay grading. IEEE Intelligent systems, 27-31[EB/OL]. http://que.info-science.uiowa.ed ... autoGradingIEEE.pdf, 2005-6-30
[4] Salton,G.Automatic text processing:The transformation, analysis , and retrieval of information by computer. Readding , MA: Addison - Wesley.1989.
[5] Valenti S., Neri F., Cucchiarelli A. .An Overview of Current Research on Automated Essay Scoring[J]. Journal of Information Technology Education 2003,2.
[6] Bursein J.. The E-rater Scoring Engine: Automated Essay Scoring With Natural Language Processing[A]. in: Automated Essay Scoring: A Cross-Disciplinary Perspective.[C]Lawrence Erlbaum Associates Publishers,2003. 113-121
[7] 石岗 恒宪,龟田 雅之.日语小作文计算机自动评分系统[EB/OL]. 计算机统计学,2003,16(1) http://www.rd.dnc.ac.jp/`tunenori/doc/Jess_kt.pdf. 2005-12-21
[8] 刘力.一种崭新的科学的评卷方式——高考网上评卷[J].江西教育,2005, (6).25-26
[9] 张梅.英语作文自动评分系统探索[J].重庆大学学报(社会科学版),2005, 11,(3).95-97
[10] 张晋军,任杰.汉语测试电子评分员实验研究报告[EB/OL]. http:// www2.neea.edu.cn/qikanmulu/2004_10/wenzhang/0410Awenzhang3.asp 2004 -12-13
[11] 林素穗,游耿能,萧如渊,丁一贤.加强非同步式网页教学环境教学评量功能之探讨[EB/OL].http://www-users.cs.york.ac.uk/~derrick/document/papers/cyu2001,pdf .2005-12-25
[12] 曹亦薇;杨晨;;使用潜语义分析的汉语作文自动评分研究[J];考试研究;2007年01期.63-71
[13] 计算所汉语词法分析系统ICTCLAS[EB/OL]. http://www.nlp.org.cn/project/ project.php? proj_id=6,2006-2-8
[14]陈至中;台北报导,中国时报 2007.12.26;[EB/OL].http://news.chinatimes.com/2007C ... 7Cti-News-Content/0,4521,110501+112007122600089,00.html
作者简介:
杨 晨:深圳市海云天教育测评有限公司、教育学硕士(深圳,518057)
曹亦薇:深圳大学师范学院、教授、硕士生导师(深圳,518057)
发表于2012年第3期《中学语文教学》 发表时删节至3600字 |
|