美國大學生學習成果標準化評估工具的分析研究
發布:悉尼協議研究院 點擊:
一、美國大學生學習成果標準化評估工具的發展背景
在高等教育問責和認證意識的推動下,美國聯邦和各州政府的政策制定以及社會公眾討論中的質量話語的不斷匯集都要求高等教育機構向社會提供證據以表明其“教育質量”。大學生學習成果成為美國高等教育機構自我改進及其向社會提供證據的主要依據。許多測量和評估大學生學習成果的工具由此產生。據統計,當前美國大學生學習成果的測量和評估工具大約有252個。從開發工具的主體和運行機制看,主要有學術性、商業性以及學術與商業相結合三類。這些工具中,有的用于大學新生,有的用于大四學生,還有的用于全體大學生,也有的用于不同學科和專業的學生;有的關注大學生的通識教育學習成果,有的關注大學生在校學習經驗和投入-產出,有的關注大學生在價值觀、態度和精神等方面的學習成果。從測量和評估的性質看,主要分為直接測量(標準化測試)和間接測量(問卷調查)兩類。它們在美國高等教育界都有相當大的影響。問卷性質的學習成果評估工具,如“大學生就讀經驗問卷”(College Student ExperienceQuestionnaire,CSEQ)和“大學學習投入問卷”(NationalSurveyofStudentEngagement,NSSE)等,都被相繼引進到中國。標準化的測試工具主要包括:美國大學考試中心(AmericanCollegeTestingProgram, ACT) 的“大學學業水平評估考試”(Collegiate AssessmentofAcademicProficiency,CAAP);美國教育考試服務處(EducationTestingService,ETS)的“能力測試”(ProficiencyProfile,EPP);美國教育資助委員會(CouncilforAidtoEducation,CAE)的“大學學習評估”(CollegiateLearningAssessment,CLA)。大學生學習成果標準化測試的發展是美國大學學習成果評估發展史最重要的組成部分。美國教育部將教育考試服務處的“能力測試”和教育資助委員會的“大學學習評估” 奉為眾多學生學習成果評估工具的典型,認為它們能夠為美國高中后教育提供有意義的學生學習成果的評估報告。
本文主要對CLA、CAAP和EPP的評估指標、評估形式與方法以及評估結果的運用等進行比較分析。研究文獻來源于這三個評估工具官方網站的相關材料和美國學術界的相關研究文獻。這三個評估工具植根于美國客觀化、標準化測試的發展歷史與傳統。1937 年開創的美國研究生入學考試 (Graduate Record Examination,GRE)是這三個工具的直接影響源。GRE 最初由卡耐基基金會承辦,1948年被移交給美國教育考試服務處。在教育考試服務處的管理之下,GRE發生了從測試學生對知識內容的掌握到測試學生一般推理能力的轉向。這一轉向影響了后來這三個工具重視學生思維能力和發展水平的測量傾向。這三個工具也得到了由美國公立及贈地大學協會(Associationof PublicandLand-grantUniversities)和美國州立學院和大學協會(American Association of State Colleges and Universities)聯合成立的美國自愿認證體系(Voluntary System ofAccountability,VSA)的認可和推薦。自2010年美國自愿認證體系成立之初,它就以這三個工具開展評估實踐及研究,并試圖將結果放到《大學詳解》(CollegePortrait)中去。
“大學生學業水平評估”(CAAP)的歷史可以追溯至20世紀70年代美國大學入學考試中心開發的“大學學習成果測量”(College Outcome Measures Program, COMP)。經歷20來年的發展后,美國大學入學考試中心根據高校在使用過程中的反饋對COMP進行了改進,使其在信息量增大的同時,也更為簡潔且易于實施,并將之改名為“大學生學業水平評估”。“能力測試”(EPP)最早可以追溯到1987年美國教育考試服務處推出的“大學生學術能力測試”(TheAcademicProfile Test)。2006年,該工具被更名為“學術熟練程度與進步測量”(MeasureofAcademicProficiencyandProgress, MAPP)。2009年8月,ETS將MAPP再次更名為EPP,但這次更名并沒有改變這個測評工具的形式和內容,而是沿用了2001年至2006年使用的版本。EPP與MAPP除了名稱的變更之外,沒有其他差異。“大學學習評估” (CLA)是美國教育資助委員會負責開發的,它于2000 年首次在美國高校發起評估。CLA在經歷了由美國教育資助委員會和蘭德公司共同管理的一段時期之后,于 2013年又由美國教育資助委員會獨立管理。CLA產生的時間雖然比CAAP和EPP要晚,但它具有后發優勢,其影響比CAAP和EPP更大。經濟合作與發展組織(Organization forEconomicCo-operationandDevelopment,OECD)在“高等教育學習成果評估”(AssessmentofHigherEducation LearningOutcomes,AHELO)項目的開發過程中,專門邀請開發和管理CLA的美國教育資助委員會的專家參與了AHELO的可行性研究。
二、CLA、CAAP和EPP三個評估工具的異同分析
(一)CLA、CAAP和EPP的共同關注點
盡管CLA、CAAP和EPP這三個評估工具產生于不同的時期,由不同的機構或組織開發和管理,但它們具有四個相同之處。
其一,三者都是從大學生通識能力的角度理解學習成果的概念。從目前的相關討論來看,大學生學習成果的定義主要有兩個視角。一是學科和專業素養的視角。該視角假設不同學科門類的知識有其自身的邊界,由這些知識組建起來的能力和素養也就有其自身特定的指向性。二是通識能力的視角。該視角認為,不論學生投身于何種學科門類和專業知識的學習,也不論學生將來從事何種專門工作,許多基本的、通識的能力對獲得成功是非常重要的。美國蘭德公司的研究人員發現,與學科有關的知識能力相比,通識能力恰恰是美國大學教育中普遍強調的目標之一,在大學生個人的職業生涯發展和生活中發揮著更加重要的作用。在高等院校為其所開課程安排的階段性的考試階段,美國大學生的學科和專業能力得以評估。CLA、 CAAP和EPP這三個評估工具則是通過標準化考試測評大學生的通識能力或一般綜合能力。
其二,三者都非常重視評估大學生的批判性思維能力。大學生批判性思維教育自20世紀80年代以來就受到美國高等教育界的重視,已成為美國各高校教育目標和預期的教育成果的重要方面。美國也因此產生了許多測評學生批判性思維能力的工具。例如,由恩尼斯(R.H.Ennis)和米爾曼(J.Millman)開創的康奈爾批判性思維測試(TheCornellCriticalThinkingTest),由斯滕伯格(R.Sternberg)主持編制的三元智能測驗(The TriarchicTestofIntellectualSkills),由費星(P.Facione)等人編制的加利福尼亞批判性思維技能測驗表(The CaliforniaCriticalThinkingSkillsTest)和加利福尼亞批判性思維傾向問卷(The California Critical Thinking DispositionInventory)。CLA、CAAP和EPP借鑒了這些測評工具的經驗。它們專門評估大學生的批判性思維能力,其測評題材主要取自大學課程學習和大學生活經驗。它們對批判性思維能力的測試主要考察被試是否以及在多大程度上能夠辨別一個說法的正確性、合理性并給予有力的闡釋和論證。CAAP的批判性思維評估主要選取大學課程中具有代表性的涉及常見話題的四篇文章,每篇文章都會陳述一個或多個觀點。在文章后面的單項選擇題中,要求學生闡述、分析、評價和擴展原文中的觀點。EPP也采用單項選擇題的形式,測試學生在人文科學、社會科學或自然科學方面的批判性思維能力。CLA采用主觀題測評批判性思維能力,通過情景式問題,要求學生運用已有知識和技能對所給信息進行分析、理解、辨識和遴選。在分析型任務中,CLA要求學生對所給觀點進行判斷、評價和論證。
其三,三者都重視測評大學生的寫作能力。CAAP 重視全面測評大學生的寫作能力,單獨開設了兩個寫作測試模塊。一個模塊包含6個散文段落,反映了學生經常遇到的各種修辭情境,通過單項選擇題的形式測試學生對于標點符號、語法、句子結構、文章結構、寫作技巧、風格等標準書面英語規范的掌握程度;另一個寫作模塊是直接測量寫作技能,要求學生根據簡短的情境提示在規定時間內創作兩篇獨立的作文。EPP 的寫作模塊采用單項選擇題的方式,測評學生在語法、句型結構、文章連貫性、修辭手法、句意理解等方面的能力。CLA全部采取主觀題:執行型任務試題要求學生在規定的時間內圍繞所給問題撰寫信件、備忘錄或類似題材的文書;分析型任務試題要求學生針對所給主題發表觀點或評論所給的觀點,通過這些主觀題來綜合測評學生的書面溝通和寫作能力。
其四,三者都采用“價值增值”(Value-added)的評估理念與方法。價值增值的核心思想是:研究者可以根據學生在前一段時期的測試分數預測學生在下一階段可能取得的成績。據此,價值增值評估能夠表明學生是否取得了預期的進步,抑或超出了預期的進步。通過價值增值的方法還能夠測量教師或學校對學生成就的長期影響。盡管美國學術界有不同的價值增值模式,但在高等教育評估領域,主要是以學生進入大學前或入學初和學生離開大學時這兩個時間段為參照點,觀察和評價學生在這段時期的變化和發展,以此判斷學校對學生學習和發展的影響程度。CLA 選取學生在高中階段的學術能力評估考試(SAT)或大學入學考試(ACT)的成績作為參照控制學生樣本的能力基礎,對比秋季入學的大一新生的CLA得分和春季畢業的大四學生的得分來測評學生在大學期間的價值增值。CAAP主要將它對大四學生的測評結果與學生在高中時參加大學入學考試的分數進行對比,以評估學生在大學期間的價值增值。EPP選擇一個能充分代表全部學生特征的學生群體樣本,在大學期間的不同時間點,對他們進行測試。
(二)CLA、CAAP和EPP的主要不同點
由于主辦機構和創辦初衷等方面的差異,CLA、 CAAP和EPP在評估對象、評估指標、評估內容、評估形式和結果報告等方面都各有不同。
其一,評估樣本的選取方法不同。CAAP建議院校選取那些參與ACT組織的大學入學考試的學生群體為評估對象。也有的院校在大一和大四兩個階段分別用 CAAP測試學生群體的發展趨勢,確定院校有待改進的方面并找到亟待學術指導和干預的學生。EPP根據測試對象的人數分為標準版和簡化版兩種:標準版對測試對象人數沒有要求;簡化版則由于時間短、題量少,為了提供科學的測評結果,僅僅用于測評至少由50名學生組成的群體的信息。EPP對測評對象的年級沒有限制,建議院校測試所有學生,或選擇一個能充分代表全部學生特征的學生群體樣本,在大學期間的不同時間點對他們進行測試。CLA選擇秋季入學的大一新生和春季畢業的大四學生這兩個群體進行測評,通過比較兩個群體的得分差異來測評一所高校的學生在大學期間的價值增值。
其二,除了測評批判性思維和寫作能力外,三個工具各有其獨特的評估指標。CAAP還測評學生在數學、閱讀和科學推理方面的能力。在數學測試模塊, CAAP通過35道單項選擇題測試學生解決基礎代數問題和大學代數問題的熟練程度以及大學數學課程中的定量推理能力。閱讀模塊由36道選擇題組成,所選文章為大學課程中常見的散文、小說、人文科學、社會科學和自然科學作品中的選段,要求學生概括意義、處理信息、進行比較和歸納并得出結論。科學推理模塊考查學生從大學入門科學課程中習得的科學推理能力,共有45道單選題,題干通常為研究數據代表、研究摘要或相互矛盾的觀點,要求學生理解所提供的資料、檢驗相互關系、概括和提煉出新的信息,進而得出結論或進行預測。
EPP還測評學生的閱讀能力和數學能力。閱讀測試模塊要求學生能夠理解關鍵詞匯的意義、辨識文章的主旨和大意、進行合理推斷以及把握文章的修辭方法。數學測試模塊也通過單選題測評學生在掌握數學術語、理解圖表、評價定理和公式、分析百分比率、認讀科學單位以及認識和運用數學公式與表述方式等方面的能力。
CLA的評估指標還包含分析推理、問題解決和書面溝通的能力。就出題方式而言,CLA并不像CAAP和 EPP那樣用獨立的試題模塊測量寫作能力、批判性思維能力等各項評估指標,而是遵循效標抽樣(criterion sampling)的測量原則,認為整體大于各個部分相加之和。因此,CLA的試題是圍繞復雜的現實生活情境開展的任務解決題型,要求學生綜合運用所學知識和技能去探索解決問題和完成任務的方法,通過分析學生對于一個復雜任務的完成程度,對其關注的能力維度進行判斷。
其三,評估的內容架構和試題形式不同。CAAP提供6個獨立的測試模塊,包括寫作能力測試、數學測試、批判性思維測試、作文測試、閱讀測試和科學測試。院校可以根據自身的需求自由選擇那些最能反映自身總體教育項目的目標和課程的測試模塊對學生進行測評。CAAP的測試模塊除了作文測試之外,均為一定數量的單項選擇題,采用筆試的形式,每個模塊均可在常見的50分鐘課堂之內完成。作文測試要求學生針對所給的情境,給出一個清晰的觀點,提出支持這一論斷的理由和證據,并創作一篇流暢的、符合邏輯的作文,以考查在限定的時間內、在不擬草稿的情況下,學生的臨場寫作能力如何。此外,院校還可以自主地按需增加最多9道基于本校的單項選擇題。
EPP包含批判性思維能力、閱讀能力、寫作能力和數學能力四個方面的試題。它的標準測試形式包含 108道單項選擇題,每一方面的題目為27道,測試時間為兩個小時。為了幫助院校節約時間和成本,EPP還推出了專門測評50名以上學生群體的簡化版能力測試。簡化版能力測試將108道標準形式的試題拆分為三個部分,每個部分包含36道試題,分別稱為“簡化形式 1”、“簡化形式2”和“簡化形式3”,分別由三分之一的學生作答。EPP在答題方式和考查內容上也給予高校個性化的空間:院校可以依據自身情況選擇筆試或在線考試;校方最多可以增加50道自主編寫的選擇題和一篇作文,以滿足其特定的評估需求。
CLA的試題全部為主觀題,分為執行型任務和分析型寫作。執行型任務的題材均來自現實生活的各個領域,要求學生在90分鐘內根據一個具體的情境撰寫信件、備忘錄或類似的文書給上司、同事或公司部門。試題包含一個放有若干文檔的文件夾,其中有圖表和數據,但是可信度和相關程度不等,有些信息甚至可能相互矛盾。學生應先閱讀和評估所提供的信息,然后整理出有效的證據,綜合歸納出結論,進而給出有說服力的解決方案。分析型寫作包括兩個題型———討論型任務和評論型任務。討論型任務要求學生在45分鐘內根據題干所給的話題陳述和擴展自己的觀點并進行論證;評論型任務讓學生在30分鐘內從所給的一段文字中辨識和描述其中的邏輯錯誤,并給出自己的理由。由于每個題型的作答時間較長,CLA采取矩陣抽樣(MatrixSampling)的作答方法。每個學生并不是作答全部題型,而是抽取一道執行型任務試題或兩道分析型寫作試題。CLA的題目盡管是主觀題,但采用機考的形式。整個評估過程都通過一個互動的網絡平臺完成,實現了無紙化的電腦管理。其中,分析型寫作任務的答案由自然語言處理軟件來評分,執行型任務由訓練有素的人工讀者進行網絡在線評估。
其四,評估的信息和結果的報告形式不同。CAAP 用累積百分比報告學生個人與同一學校同一時期的其他考生相比的成績水平。它還會為每個測試模塊提供一個總分。由于單項得分有助于更準確地反映出教學計劃的長處和短處,寫作能力測試(用法/結構和修辭技巧)、閱讀測試(藝術/文學和社會研究/科學)以及數學測試(基礎和大學代數)還提供各能力次級指標的單項得分。EPP為高校提供多個常模參照量表分數,包括總分、單項技能得分(批判性思維、閱讀、寫作和數學能力)以及單項領域得分(人文科學、社會科學和自然科學)。此外,EPP還提供按照能力分類的標準參照分數,測量學生對于數學、閱讀和寫作三方面技能的熟練掌握程度。分數報告兼具圖形和數據,顯示學生在各自水平段的百分比。CLA向院校提供總分和兩個題型各自的分數。在計算總分時,執行型任務占50% 的比重,分析型寫作中的評論型任務和討論型任務各占25% 的比重。而分析型寫作單獨的分數則取評論型任務和討論型任務的平均得分。CLA通過比較大一新生和大四畢業生的測試成績,可以計算出高校學生學習成果的價值增值得分。
三、CLA、CAAP和EPP的應用、影響及存在的問題
CAAP、EPP和CLA是當前美國評估大學生學習成果最有影響力的直接測量工具。目前,全美約有400 所高校使用CAAP,其中包括公立和私立的兩年制和四年制大學、技校和職業學校。EPP則擁有全美范圍內 500多所高校、超過550,000名學生的測試結果。CLA的應用范圍更為廣泛,在全美和國際范圍內,有700多所高校采用CLA來測量大學生的價值增值,并將結果和其他院校的水平進行對比。美國高等教育機構采用 CAAP、CLA或EPP能力測試來滿足自身的需要,如了解大學生的學習效果、整體評估本校的通識教育項目、滿足認證和績效撥款的要求以及改進課程大綱和教學等。
這三種評估工具在美國高校的影響主要得益于它們在實踐運作中經受住了信度和效度的檢驗。美國高校教育改進基金會(Fund forthe Improvementof PostsecondaryEducation,FIPSE)于2009年組織測評專家對三者進行測試效度研究,得出三點結論:其一,在學生個人層面,CAAP和EPP設置的客觀題在同等測試時間內比CLA采用的主觀題對單個學生能力的測量更加可靠和高效。其二,在院校層面,盡管CAAP、CLA和 EPP的測評方式不同,但均表現出較高的信效度,都能夠有效測出大學生在校期間達到的能力水平。其三,高校在選擇適合自身的測評工具時,應該綜合考慮學生、教職員工、管理者和決策部門對各個工具的接受程度,權衡測評的成本、執行的順暢程度和測評的具體目的及需求,這樣才能有效地達到提高教學質量的最終目標。不過,我們對CLA、CAAP和EPP的發展歷史和運作機制的考察發現,它們的影響力根源于數量統計和計算機技術、大學生學習和發展的理論研究以及專業組織這三者的有機結合。
然而,這三種評估工具在實際運行的過程中也面臨一些障礙。高校普遍反映,學生按自愿原則參與測試往往導致測試學生人數無法滿足測試樣本的大小。由于這些工具對學生的收益考慮得并不是很多,學生參與這類評估的動機不強、積極性不高,導致無法進行測試或者是測試結果缺乏代表性和可靠性。此外,有的高校在測評報告中反映,本科生和監考老師的日程安排、課外時間和測試考場及設備都需要妥善安排和調度,才能保證測評的順利開展,但是不少高校的現實條件往往很難充分滿足這些需求。除了高校本身在測評的推行過程中遇到的各種現實困難之外,從事大學生學習成果測量的學者對這些評估工具也提出了一些質疑和批評。例如:庫(Kuh)對 CLA的信度和實用性表示擔憂,他認為CLA的執行型任務題沒有明確而直接的標準答案和評分基準,缺少衡量學生個人成績的結構效度。班塔(Banta)和派克(Pike)對價值增值的適當性提出了質疑。他們指出,在一些精英機構中,學生的學習進步受到天花板效應的制約。與那些招收能力較低的學生的院校相比,價值增值的評估方法將令招收精英學生的院校在評估中處于不利地位。2010年出版的《EPP使用指南》指出,雖然EPP具有足夠的信度來用于學生的咨詢服務和辨識在個別能力方面存在困難的學生,但若基于這些分數做出高風險的決定(如分配獎學金),則不夠可靠。
四、對中國開展大學生學習成果評估的啟示
隨著本科教育質量意識的凸顯,對大學生學習經驗、學習投入和學習成果的調查與研究成為中國高等教育界的焦點和熱點。只有對大學生的學習經驗、投入和成果進行系統的調查研究,才能充分發揮它們對于本科教育質量的診斷作用。其中,評估大學生的學習成果尤為關鍵。通過對美國大學生學習成果評估的三種標準化測評工具的分析和研究,我們得到如下啟示:
其一,構建中國大學生學習成果的內涵是開展學習成果評估的首要前提。怎樣才算是一個受過高等教育的人?中國高等教育體系對于大學生的學習成果有什么樣的預期,又應該有什么樣的預期?這些都是很難找到標準答案卻又不得不去探索的問題。否則,提高本科教育質量就失去了方向。實際上,自有教育始,這些問題就被納入到哲學家、思想家和民眾的頭腦中去了。“培養完整的人”,“培養德、智、體、美全面發展的人”,“培養創新型人才”,諸如此類的關于高等教育目的的表述見諸于學者的論著和演講以及國家的教育方針與政策之中。然而,這些表述還過于凝練和抽象。美國高等教育評估界主要從認知、情感和技能三個方面去理解大學生的學習成果。雖然他們對這三個方面學習成果的描述有不同的觀點,但是對于學生認知、情感和技能都涉及哪些方面的發展的描述都是非常具體的。CLA、CAAP和EPP這三種測量工具從個體通識能力的角度理解大學生學習成果的內涵,抓住批判性思維能力和寫作能力這兩個美國社會對高等教育以及美國高等教育對學生共同的、最重要的期待;與此同時,三者又各有自己對大學生學習成果的獨特理解之處。當然,這三種工具對大學生學習成果的理解并不完整,它們主要從認知和技能的角度理解大學生學習成果,而忽略了情感和價值觀的角度。作為旨在培養“完整的人”、“全面發展的人”的高等教育,不應忽略學生的情感和價值觀發展。
其二,自主開發既具有世界視野也切合中國高等教育實際和中國大學生特點的多樣化的學習成果評估工具。學生的學習成果主要分為認知、技能和情感三個主要方面,它們分別表現在學生的心理和行為之中。學生在認知和技能方面的成果相對容易被觀察,在情感上的發展則相對難以判定。學生的行為變化相對容易被捕捉,但追蹤學生的心理發展卻并非易事。在這種背景下,設計出一個或多個適當的工具來科學地搜集學生學習成果的數據和資料顯得相當重要。評估工具的開發需要充足的經費、人員和機構等方面的支持和保障。CLA、CAAP和EPP這三個測量工具能夠發展起來,與它們背后的機構、經費和專業研究團隊的保障不無關系。盡管中國當前在引進國外相關評估工具時進行了本土化的改進,但工具隱含的理論和文化之根仍然屬于他國,這些工具對于提出創新人才培養目標的中國高等教育體系和實踐的適應性仍需不斷調整和改進。在美國,對大學生學習成果的標準化測試工具和問卷調查形式的間接評估工具各有其優勢和劣勢。正是由于這些評估工具的多樣化存在,它們之間能夠相互取長補短。不過,評估工具的多樣化也增加了美國高校在工具選擇過程中的時間、人力和物力成本,給高校的管理帶來一定程度的困擾。在中國開展大學生學習成果評估,既應提倡多樣化的評估工具,也應避免美國出現過的問題,使多樣化的評估工具能夠和諧共生。
其三,發展成熟的評估和數據分析方法。數據能否得以客觀、科學地呈現,從而服務于學生學習成果評估的目的,關鍵在于以何種評估方法為指導來進行數據分析。CLA、CAAP和EPP這三種測量工具都是以 “價值增值”的評估理念和方法進行數據分析。國內學界對“價值增值”這一概念早有所聞,但還很少有人運用這一評估理念和方法來開展大學生學習成果的評估研究和實踐。在美國高等教育評估領域,存在不同的價值增值模式。不論何種模式,都涉及如何計算價值增值的系數問題。[19]本文研究的三個評估工具價值增值系數的計算方法對中國開展大學生學習成果評估具有重要的參考價值。
綜上所述,當前在中國推動大學生學習成果評估,除了要調整評估的制度和政策導向等問題外,還要根據中國社會經濟文化背景明確大學生學習成果的內涵,設計開發本土化的評估工具,發展更成熟的評估和數據分析方法。在引進和應用其他國家的評估工具時,尤應注意這些工具的文化背景和理論基礎,汲取它們在實踐運用中的正反兩方面經驗,如此方能為提升中國本科教育質量做出切實貢獻。