你的位置:首頁 >> 理論學(xué)習(xí)與思想教育 >> 正文
改進教育評價
談松華 黃曉婷
在我國目前的教育評價實踐中,對考試成績的解讀僅止于得到一些簡單的描述統(tǒng)計量(如原始分、平均分、排名等)。殊不知,這些數(shù)字貌似非常精確,容易統(tǒng)計,便于比較,但它完全不同于物理測量單位的直觀含義,糾纏其中實在是極大的謬誤。
我國的教育評價肩負著檢驗學(xué)生學(xué)業(yè)質(zhì)量,選拔人才,考核教師、學(xué)??冃У戎匾姑谶^去的幾十年中,積累了很多寶貴的經(jīng)驗,但仍然存在著一些弊端。
首先,各級各類大規(guī)模教育考試的成績被普遍用來作為評價學(xué)生、教師及學(xué)校教育成果的唯一標準,從而導(dǎo)致了對分數(shù)片面、盲目的追求。由于目前最主要的考試(如中考、高考等)都較側(cè)重書本知識,教學(xué)實踐往往受其影響,強調(diào)記憶性知識,而忽略其他能力素質(zhì)、實踐技能等,嚴重制約了學(xué)生全面、均衡的發(fā)展。
其次,在我國目前的教育評價實踐中,對考試成績的解讀僅止于得到一些簡單的描述統(tǒng)計量(如原始分、平均分、排名等)。殊不知,這些數(shù)字貌似非常精確,容易統(tǒng)計,便于比較,但它完全不同于物理測量單位的直觀含義,糾纏其中實在是極大的謬誤。例如,在同一次考試中,60分和70分的差距截然不同于90分和100分的差距。即使兩個考生的分數(shù)完全相等,也不能認為他們的知識、能力與學(xué)習(xí)成果完全相同,因為構(gòu)成總分數(shù)的各部分的具體分數(shù)可能存在差異。同理,某次考試的70分和另一次考試的80分也無從比較,因為試題內(nèi)容、難度等都可能存在較大差異。
同時,這些統(tǒng)計量與各學(xué)科預(yù)設(shè)的學(xué)業(yè)質(zhì)量標準缺乏聯(lián)系,使得我們無法從中解讀到如何取得進步的反饋信息。學(xué)生僅能看到自己依據(jù)本次考試在群組中的排名,但究竟哪些方面學(xué)好了,哪些方面欠缺了,是否取得進步,卻不能從考試結(jié)果中體現(xiàn)出來,更不用說客觀評價學(xué)生進步的程度了。這很容易造成學(xué)生死啃書本,卻收效甚微,逐漸失去自信,影響學(xué)生健康發(fā)展。
在對教師、學(xué)校評價時,很多地區(qū)會采用以單一考試(或升學(xué)率)為主要依據(jù)的評價方式。這不僅會使教學(xué)活動進入應(yīng)試教育的誤區(qū),并且由于這種做法不考慮學(xué)生入校時的基礎(chǔ)、學(xué)生的家庭背景等因素,還會對一些入學(xué)學(xué)生基礎(chǔ)較差的學(xué)校產(chǎn)生較嚴重的負面影響。我們對改進教育評價有三點建議:
一、政府對教師及學(xué)??冃Р捎酶鼮榭茖W(xué)、公平的增值性評價
現(xiàn)行的政府對學(xué)校的評價缺少體現(xiàn)教育規(guī)律的客觀標準,實際上是以單一的考試成績和升學(xué)率作為主要標準。這種評價標準和方法把擁有不同生源和條件的學(xué)校,以同一標準衡量學(xué)校工作的績效,使占有優(yōu)質(zhì)生源的學(xué)校始終處于優(yōu)勢地位,而那些生源和辦學(xué)條件差的學(xué)校則不能根據(jù)學(xué)校實際提高辦學(xué)績效。增值性評價的概念即評價學(xué)生在一段時間教育過程后的“成長”,以變化取代原來對學(xué)生在某一個特定時刻的狀態(tài)的關(guān)注。這種評價方式將學(xué)生原有的學(xué)術(shù)成績及家庭背景等多個因素考慮在內(nèi),提出一個合理增長的模型。它不光關(guān)注于學(xué)習(xí)過程的最后產(chǎn)出,更著重學(xué)習(xí)過程所帶來的增長,凸顯了“以人為本”、尊重每一個學(xué)生的教育思想。運用這種方法評價學(xué)校、教師績效,有利于促進學(xué)校和區(qū)域間的公平比較,有效激發(fā)生源質(zhì)量差的學(xué)校和區(qū)域促進學(xué)生學(xué)業(yè)進步的動力。
這種新的評價方法在世界上很多國家得到了關(guān)注和研究。特別是美國在2005年對《不讓一個孩子掉隊》法案作出重大調(diào)整后,政府要求各州建立基于學(xué)生水平增長的績效模型,增值性評價成為評價實踐和研究的熱點。一些州通過建立縱向鏈接的測量工具,將學(xué)生每一年的學(xué)業(yè)水平增長與該州的標準要求,學(xué)生歷史水平和學(xué)校歷史水平,其他學(xué)校增長情況等,進行多角度的跟蹤評價。
我國的增值性評價研究起步較晚,目前仍采用學(xué)校名次變化比較、標準分比較等較原始的評價指標。我們可以在此基礎(chǔ)上,加快步伐,使這一更科學(xué)的新方法得到長足運用。
二、改進評價技術(shù),科學(xué)解讀評價結(jié)果,為學(xué)生和教師提供信息反饋,提供發(fā)展性評價
在過去的評價中,成績主要用來將學(xué)生排序,很難了解成績背后每個學(xué)生的優(yōu)勢和不足。要全面細致地闡釋評價結(jié)果,從中了解學(xué)生個人及群體的能力結(jié)構(gòu),我們必須改進目前以原始分為依據(jù)的評價技術(shù),采用當(dāng)代教育測量理論及先進統(tǒng)計方法,結(jié)合課程設(shè)置、教學(xué)大綱等學(xué)業(yè)標準,深入細致地分析分數(shù)的“成分”和“含量”,并聯(lián)系各種背景信息,研究影響學(xué)業(yè)質(zhì)量的因素。這些反饋信息可以為學(xué)生彌補不足、促進均衡發(fā)展,以及發(fā)揮優(yōu)勢、培養(yǎng)個性化特長,提供有效依據(jù)。
在美國等教育評價發(fā)達地區(qū),專業(yè)評價機構(gòu)已常規(guī)性地向政府、地方教育機構(gòu)、學(xué)校乃至個人提供詳細書面反饋。以國際大型標準化考試PISA(“學(xué)生能力國際評價項目”)為例,組織方OECD(國際經(jīng)合組織)不僅公布收集到的各地學(xué)業(yè)水平、政府投入、學(xué)校組織、個人生長環(huán)境等方面的總體信息,還深入研究各種影響學(xué)業(yè)的因素,教育質(zhì)量發(fā)展的趨勢等。同時,還向各地提供分析該地區(qū)情況的分報告。此外,美國等國家還通過向在職教師提供教育評價知識培訓(xùn),幫助老師解讀和利用各類評價結(jié)果,因材施教,提高教學(xué)質(zhì)量。
三、改進教育評價的標準、內(nèi)容和方法,形成各種知識與能力并重的多元綜合評價
我們可以改進測試內(nèi)容,轉(zhuǎn)換命題思路。例如,近年來我國的高考正在不斷嘗試新的科目設(shè)置方案(如“3+2”,“3+X“等),力求在評價中強調(diào)學(xué)生全面發(fā)展。此外,我們還可以借鑒優(yōu)秀國際考試的寶貴經(jīng)驗,改進考試的內(nèi)容和命題的方法。如我國上海等部分地區(qū)參與的國際考試PISA,其測試內(nèi)容與學(xué)校課程并不直接相關(guān),而是關(guān)注運用知識技能應(yīng)對現(xiàn)實生活挑戰(zhàn)的能力,例如學(xué)生能否對書面信息的分析、比較、對比和評價;能否有效地交流思想與觀點等。PISA的命題往往通過需要運用或汲取知識和技能的情境來實現(xiàn)。
除了傳統(tǒng)的科目考試外,我們還應(yīng)該豐富評價方式,拓寬評價范圍。如通過成果展示等其他平臺,評價在傳統(tǒng)紙筆考試中無法顯現(xiàn)的技能或才藝。另外,學(xué)生的學(xué)習(xí)策略、學(xué)習(xí)興趣、心理健康等方面,也是一個全面、多元的評價體系應(yīng)當(dāng)囊括的內(nèi)容。
在評價標準方面,固定而僵化的準繩不利于培養(yǎng)學(xué)生的想象力和創(chuàng)造力。如何改進標準,在評價中向?qū)W生提供開放性問題,對科學(xué)創(chuàng)新的嘗試給予更多的權(quán)重等,正是目前評價研究開始探索的課題。