iBT新托福作文评分E-Rater系统分析【无老师系列】
分析一个西方的评分系统,自然而然的要去找很多英文研究资料来进行分析。
在ETS的网站里面,比较权威的是这么几个资料:
1 Automated Essay Scoring With e-rater V.2
2 Automated scoring using a hybrid feature identification technique (PDF)
3 Benefits of modularity in an automated scoring system (PDF)
4 Enriching automated scoring using discourse marking (PDF)
5 Using lexical semantic techniques to classify free-responses (PDF)
这几个材料都可以在http://www.ets.org/research/erater.html下载得到。
从这些材料之中,我们可以发现有几个点是要因此我们注意的:
第一:人工评分依然存在,人工在托福考试评分的过程之中,起到的是对于内容的监督作用,而e-rater则是起到了对于逻辑,语法,以及连接词的识别。所谓语法,一个很简单的例子,你不能在复数名词前面加上不定冠词,类似于a/an之类的单词,这就是对于语法的检查,除此之外连接词也是重要的考察点,如果我们在托福考试之中多运用类似于however,and,whereas这样的单词,系统就会默认我们有很强的逻辑性,因此也会给我们相对更好的分数,因为这些单词的本身就代表逻辑吗。而且ETS为了防止有人利用这样的漏洞,他们为了防止有人写出“我妈妈很爱我,但是(however)我爸爸也很爱我”的这样的话,而依然坚持要一内容的部分是由人工来进行评分。
2 E-Rater也有自身的弱点,如果我们多用连词,而且语法没有任何瑕疵,自然会给E-Rater系统一个好印象,要知道E-Rater系统我们其实可以把它想象为一个身处糖果店的孩子,这个孩子对于你糖纸里面的糖果,其实一无所知,只要他们看好了你的糖纸,就会毫不犹豫的给你更多的分数,这里的语法和连词就是起到了糖纸的作用,至于糖果是否甜美,也就是是否言之有物则是由人工来进行评分的。总结来说就是:重语法,加连词。
3 在研究报告里还提到了“单词向量”,所谓单词向量,其实非常简单,指的就是,在相同意思的情况下,你后面换用的单词与前面相同意思的单词意思相匹配的程度,理论有一点抽象,我们举一个生动的例子,比如说我们都知道soil指的是“土地”的意思,那么我们就会知道earth这个单词与soil这个单词就是一个正项量,换句话说就是一个好的换用,但是continent“大陆”就与soil的意思,里的就比较远,就不是一个恰如其分的替换。因此在这里面也有一个小窍门就是:多背同义词。
4 总结很重要,我们再次把E-Rater当做一个小朋友,这次把它扔到京剧王国里,我们给他们看无数的京剧,然后问他们喜欢谁呀?E-Rater小朋友就晕了,但是我们如果告诉他,白脸的都是坏人,于是小朋友们就笑了,他们知道曹操啊,赵高啊,陈水扁啊,就都是坏人。^_^因此,我们要多总结,在每一个段落的开始都要标明First,All in all之类的,这是我们再告诉E-Rater小朋友,我们在干嘛,免得他一头雾水。这里的一个小窍门就是:必总结!我们也有了一个毕姥爷^_^,大家都能上春晚了。
因此想跟E-Rater小朋友搞好关系的话,就要记住这个口诀:重语法——加连词——多背同义词——大家都有毕姥爷!(无老师突然觉得自己好幼稚-_-!!!!!!)
接下来,我们还应该注意一些小细节,其实据国内媒体报道,国内在几年之前,也就是新托福刚刚进入国内的时候,已经有些机构引入了E-Rater这个评分系统,但是在这次“无老师”搜集资料的过程中发现这些国内提供E-Rater评分的系统,几乎全部都进入瘫痪,换句话说,这个评分系统,其实没有带来什么实质性的改变,也没有给我们带来什么价值,除了ETS这个E-Rater的老东家还对E-Rater情有独钟外,很少有这个系统报以兴趣的机构。好了为了打高分,再次让我们背一遍口诀:重语法——加连词——多背同义词——大家都有毕姥爷!(无老师确实觉得自己好幼稚-_-!!!!!!)