加拿大語言基準評量的開發

在這篇文章中，作者描述了一個將會在加拿大各地用來把成年移民歸到適合他們英語程度的教育課程之新語言評量工具的開發過程，這個工具的開發代表了政府和基層在建立一個可用以描述及評鑑以英語為第二外語之成年移民的一般性架構的漫長過程中初步行動其中一步。這篇文章的作者，也就是這個測驗的開發者，介紹了這個被稱為加拿大語言基準評量（Canadian Language Benchmarks Assessment, CLBA）的工具開發過程，他們描述了這個專案的歷史和他們在測驗開發過程中面臨的挑戰，此外，他們敘述了這工具是如何現場測試、小規模檢驗及評分的，最後作者以一個和正在持續進行中的這項工具驗證努力有關之簡短討論作結。

介紹

加拿大語言基準評量（CLBA）的開發代表了中央及地區在建立一個用以描述及評鑑以英語為第二外語之成年移民的一般性架構的漫長過程中初步行動其中一步，兩個開發加拿大語言基準評量的原因在〈語言基準：成年人以英語為第二外語（Language Benchmarks: English as a Second Language for Adults）〉這份文件中有提到（出處：加拿大公民及移民部［CIC ），年代不詳，頁1）。

不同的課程會使用不同名稱來描述同樣的程度，在一個課程中一種程度可能被稱為「中等」，在另一個課程中同樣程度可能被稱為「第七級」或是「高級」，並沒有個一致的方式來描述這些程度。
一個語言課程通常不會承認另一個語言課程頒發的英語作為第二外語證書，因為英語作為第二外語的課程並沒有一個一致的修辭來敘述學生學到了什麼。

在這篇文章中我們首先描述了這個專案的歷史和政府下的測驗開發指令，然後我們會討論我們在試圖解決政府指令中相互矛盾的要求時所面臨到的挑戰，接著會比較詳細地描述測驗工具以及現場測試和小規模檢驗的步驟。然後我們會敘述這些工具是如何被使用及評分的，結論探討的是現在正在持續進行中的對於加拿大語言基準評量的驗證工作。

由於加拿大語言基準評量專案的涵蓋範圍，有三篇文章可作為本文的必要補充，第一篇文章－〈語言基準：成年人以英語為第二外語（Language Benchmarks: English as a Second Language for Adults）〉（出處：CIC，年代不詳）是原先當成加拿大語言基準評量裡考試規格的草稿文件，我們接到的指令是要根據這文件來開發加拿大語言基準評量，因為安全的考量，我們不方便提供我們開發的試題範例，讀者可參考這篇加拿大語言基準評量（CLB）的草稿文件以見範例考題。第二篇文章是〈加拿大語言基準：成年人以英語為第二外語／以英語為第二外語的有讀寫能力學習者之工作文件（Canadian Language Benchmarks: English as a Second Language for Adults/English as a Second Language for Literacy Learners Working Document）〉（CIC, 1996），這文件是加拿大語言基準草稿文件的修改版本，有介紹加拿大語言基準、其中採用的理論方法和加拿大語言基準的測驗指標。第三篇文章－〈加拿大語言基準評量測驗開發的技術層面（A Report on the Technical Aspects of Test Development of the Canadian Language Benchmarks Assessment）〉（Nagy, 1996）（註1）詳細敘述了有關閱讀評量、寫作評量以及最後得到結果之小規模檢驗的設計和原理，也包含了簡短的聽力／口說工具評鑑。

專案歷史

在1991年對國會的年度報告中，加拿大就業及移民辦事處（現為加拿大公民及移民部）表明了它想藉著改善語言評量慣例及轉介程序來改進提供給成年移民的語言訓練之意圖（Immigration Canada, 1991），就像Rogers（1993）指出的：在宣布它新的移民語言訓練政策時，加拿大就業及移民辦事處強調說一個可能發展出最有效訓練的關鍵在於清楚地把訓練和考生的個別需求相互連結，為了這麼做，必須有有效的工具可依正規語言能力標準來測量考生的語言技能。以中央資助的訓練而言，這意味著考生真正的語言需求可以被達成，考生也將可得到具有同等類型與結果的語言訓練之管道－不論他們住在加拿大何處。（第1頁）

這個新政策的一個重要創新是強調了中央政府及地方性組織在移民語言訓練（Rogers, 1994）方面的合作關係，加拿大公民及移民部憑著這樣的精神在1992年組織了一些諮詢工作坊，以考量要是有一套國家語言基準可提供給英語為第二外語（ESL）的學習者、老師、行政單位和移民服務機構的話將帶來什麼潛在優點。在1993年3月，中央政府創立了語言基準國內工作小組（Taborek, 1993）來監督可用來描述一個「學習者能使用英語來達成任務的能力」之語言基準文件的開發（出處：CIC，年代不詳，頁3），這個小組由來自國內各地的利益攸關者組成（見附錄A），在加拿大語言基準草稿文件的開發過程中定時開會討論。對這文件開發影響很大的兩個資源是澳洲出版的《口說及寫作英文證書（The Certificate in Spoken and Written English）》（Hagan et al., 1993）和在安大略大學體系中開發英語為第二外語課程基準的大學標準及評鑑中心試驗專案（CSAC）（CSAC, 1993），在1995年這加拿大語言基準的草稿文件被全國各地的利益攸關者廣泛地現場測試（Crawford, 1995），在那之後，修改過的加拿大語言基準文件（出處：CIC，1996），如上面所述，就產生了。這份文件定義了十二個描述學習者在聽／說、閱讀和寫作這三個個別技能領域中表現的基準。

1995年3月，安大略密西沙加的皮爾區教育局被承包來開發與加拿大語言基準草稿文件相符的評量工具（Calleja, 1995），專案小組包括了兩個測驗開發者－Bonny Norton Peirce（英屬哥倫比亞大學）及Gail Steward（多倫多大學）和兩位皮爾區代表－Tony da Silva（專案經理）及Mary Bergin（專案協調者）。測驗開發者由測試顧問Philip Nagy（安大略教育研究所／多倫多大學）、首席顧問Alister Cumming（安大略教育研究所／多倫多大學）和一整個團隊的評量專家（註2）來協助，測驗工具從1995年4月開發到1996年4月。

由於評量工具開發的合約和加拿大語言基準草稿文件的現場測試合約是同時進行，所以被用來決定測驗開發最初規格的是這份文件，而非修改過的加拿大語言基準文件。當加拿大語言基準評量的考題被開發時，就被帶到現場並與加拿大語言基準草稿文件裡的指標做比較，如此一來就能讓測驗開發的考題撰寫階段對測驗規格的改良有所影響（Lynch & Davidson, 1994），因此加拿大語言基準草稿文件的測驗開發及修訂變成了一個反覆式過程，最後成品為修改後的加拿大語言基準文件。

我們接到的指令是要以加拿大語言基準草稿文件開發出一個可以清楚解釋在那三個個別的英語為第二外語能力領域裡一到八個基準的任務導向評量工具，這評量企圖達到的目的是把學習者放置到最適合他們需求的英語為第二外語課程中，我們也簽了合約要開發一個結果工具來評量學習者在英語為第二外語課程中的進步，然而，值得注意的是這結果工具只有在英語為第二外語課程與加拿大語言基準的目標一致時才會有效－但這是在我們專案範圍之外的議題。利益攸關者指出這些工具需要夠有彈性才能應用在不同的課程安置情況－從統整型教室到個別技能教學應用，由於這個緣故，能發展出個別探討那三個技能領域以及提供教育者使用的診斷性資訊之工具被視為是很重要的事。

每個加拿大語言基準評量配套都包括以下文件：〈加拿大語言基準評量介紹（Introduction to the CLBA）〉（Bergin, da Silva, Peirce, &Stewart, 1996）、〈聽力／口說評量手冊（Listening/Speaking Assessment Manual）〉（Stewart & Peirce, 1996）、〈閱讀和寫作評量手冊（Reading and Writing Assessment Manual）〉（Peirce & Stewart，1996a）、一份加拿大語言基準評量考生檔案表格、一卷聽力／口說評量錄影帶、一則相片影片、五張照片、一份聽力／口說評量指南以及一張聽力／口說評量表格。每個配套又包含了八張原始評量表：四張用在閱讀、四張用在寫作，分別分成階段一和二、安置及結果四類。

測驗開發挑戰

加拿大語言基準評量必須要包含能夠代表加拿大語言基準草稿文件中各個階段所列出的目的以及活動的考題，這些考題涵蓋了成年人每天要成功在加拿大社會生存所需完成的任務，考題對大部分學習者而言必須表現出不同難度並且讓來自各種文化背景的人都能理解，此外，加拿大語言基準評量必須讓使用者容易實施，也就是說，測驗工具必須被設計成可以有效率、可靠，並能節省成本地使用及評分。而且它必須要對英語為第二外語的學習者和老師負責。

測驗開發過程的一個首要任務是開發跨文化理解考題，以這方面來說，任務取向的評量就像雙刃劍，它很吸引人，因為測驗的考題被視為與學習者的需求有關聯，並且具有真實的溝通意圖（Canale & Swain, 1980）。從另一方面來說，任務取向的評量可能會很有挑戰性，因為很多與生活相關的任務可能牽扯到一些受試者不熟悉的文化習慣知識。的確，所有的語言評量工具或多或少都假定學習者具有某種文化性知識，不論這知識是有關評量慣例、應試狀況、考題格式，或背景資料。有關文化的知識會牽扯到學科內容的知識（Courchêne, 1996）和社會關係及結構的知識（Sauvé, 1996），我們想確保大部分的學習者都能理解各種考題任務，然而，把評量內容剝離文化背景不僅是不可能而且也是不當的，這麼做只會與加拿大語言基準草稿文件背道而馳，而且只會產生對加拿大國內以英語為第二外語學習者而言無意義且無關聯的平淡、不真實的考題內容。因此我們測驗開發的重點是放在開發跨文化理解的考題，不是「缺乏」文化層面的考題，而且我們也擔心若想依加拿大語言基準草稿文件裡指明的一樣把語言技能分成三個不同的能力領域（聽力／口說、閱讀，及寫作）將會不符合任務取向評量的中心精神－語言能力的整體學習法（Brindley, 1995; McNamara, 1995; Wesche, 1987），這是我們在整個測驗開發過程中都必須一直面臨的掙扎，因為這個領域表明了個別技能的評量是很重要的，所以我們用各種方法來推動一個不會因在一個語言技能領域表現不利就影響到在另一個技能領域表現結果的語言表達法。

另一個測驗開發的重要考量是圍繞著行政現況，因為大部分的學習者會被要求在同一天應考這三個測驗，限時變成了一個關鍵的考量，重要的是測驗的三個部份都必須夠長才能確保可靠的程度安置，但又不能太長以致於耗盡考生的精力和測驗中心的資源。此外，考題必須被設計成方便在各種測驗情形實施，從大型的測驗中心到臨時的測驗環境。

最後，我們希望能在整個測驗開發過程裡都盡可能地負責，在這方面，考題真實性及文化多樣性仍然是主要的挑戰（Peirce & Stewart, 1996b）。我們體認到必須從加拿大語言基準評量的主要利益攸關者尋求回饋的重要性，尤其是來自不同文化背景的學習者、英語為第二外語教師、教師訓練者、社區利益關係人、語言基準國內工作小組以及加拿大公民及移民部，我們當責的方法論是受到《加拿大教育公平的學生評量慣例之原則（Principles of Fair Student Assessment Practices for Education in Canada）》（Wilson, 1996）這本書以及當今有關語言測驗問責制的文獻啟發（Cumming, 1994; Elson, 1992; Lacelle-Peterson & Rivera, 1994; Moore，付梓中; Peirce & Stein, 1995; Shohamy, 1993）。

在解決這些測驗開發中的挑戰時，我們從各種不同的利益攸關者和我們的測驗專家團隊那裏得到了寶貴的回饋，在現場試驗階段，考題是給這些測驗專家過目以提供意見和評論，並定時和語言基準國內工作小組（National Working Group on Language Benchmarks, NWGLB）召開會議。此外，在皮爾區成立了一個文化顧問團體，由服務機構、移民輔導員、在開發階段幫忙審查測驗工具及教材和給予回饋寶貴的英語老師組成。而且我們為了增加學習者能表現出最好能力的機會，在每個工具裡都包含了各類考題和試題題型。

測驗工具的開發

加拿大語言基準評量有三項個別的測驗：一項聽力／口說測驗、一項包含兩個同等形式的閱讀測驗和一項包含兩個同等形式的寫作測驗，閱讀及寫作的同等形式分別是為了課程安置和課程結果而存在，這三個測驗工具都有第一和第二階段的測驗，第二階段的評量比第一階段更複雜且要求更嚴（Nagy, 1996），第一階段的考題相對來說比較短，且和私人層面的資訊有關，而第二階段的考題較長、在認知思考方面較困難並和社區層面的資訊相關。不管在什麼情況下，學習者都必須在階段一被安置到高階才有資格晉級到階段二。與加拿大語言基準文件精神一致的是，第二階段的考題形式等同於第一階段的考題。

在開發聽力／口說評量時，我們優先考慮的是考生的心理感覺及互動情形，為此我們推行一對一的面談，引導學習者從簡單、熟悉的內容進行到比較有挑戰性的考題。每當必要時我們就會帶進主導的要素，這樣學習者就可以把對話導向她／他認為比較相關的方向。在努力製作會讓來自不同背景的各種學習者感到有趣及能夠理解的考題時，我們有向學習者、講師及不同文化機構的代表諮詢，以決定哪些主題和話題是最恰當的。

聽力／口說評量的提示說明含有一位現場對談者（評量者身兼輔導者）的幾個口頭問題及指示、照片、一則相片影片、錄影教材、和聽力教材，在製作攝影的規格時，我們檢視了能有效利用視覺提示說明的初始A-LING評量（Tegenfeldt & Monk, 1992），拍了超過兩百張照片，這些照片有被英語為第二外語學習者、講師及文化顧問小組成員檢視清晰度、易理解度和相關性，影像和聽力的提示說明是經過專業錄製、有被測試在學習者身上、被英語為第二外語專業人士審查，再依照他們的意見而修改。在修改過的加拿大語言基準文件中被描述地較詳細的聽力／口說考題概述如下：

階段一聽力／口說考題

A類型考題：能遵照並回應簡單招呼語及指示；

B類型考題：能遵照並回應有關基本個人資訊的問題；

C類型考題：能參與與個人經驗相關的非正式簡短對話；

D類型考題：能描述獲得重要物品和服務的過程。

階段二聽力／口說考題

A類型考題：能理解並告知影像中介的指示；

B類型考題：能理解並告知語音中介的指示；

C類型考題：能討論熟悉話題中的具體資訊；

D類型考題：能理解並整合熟悉話題中的抽像概念。

在最初開發閱讀和寫作評量時，有一組出題者與我們一起根據加拿大語言基準草稿文件的規格創建一個考題庫，出題者為Enid Jorsling（皮爾區教育局）、Donna Leeming（皮爾區教育局）、Kathleen Troy（莫哈克學院）及Howard Zuckernick（多倫多大學），出題者被指示要研讀加拿大語言基準草稿文件，並創造出與新到移民生活相關、長度及難度適中，且讓在國內不同地區來自各種背景的學習者能夠理解的考題。

在出題階段末期產生了160個原創考題，80個閱讀、80個寫作，很多的利益攸關者都有回應原創考題的格式及內容，有的考題因此在現場測試前被刪除或修改，在現場測試的程序之後，考題被組合成不同形式以做小規模檢驗，這樣一來就能蒐集並分析心理計量資料了。在修改過的加拿大語言基準文件中被描述地較詳細的閱讀和寫作評量概述如下：

階段一閱讀考題

A類型考題：能閱讀簡單的說明性文章；

B類型考題：能閱讀簡單的格式完整文章；

C類型考題：能閱讀簡單的格式不完整文章；

D類型考題：能閱讀簡單的訊息性文章。

階段二閱讀考題

A類型考題：能閱讀複雜的說明性文章；

B類型考題：能閱讀複雜的格式完整文章；

C類型考題：能閱讀複雜的格式不完整文章；

D類型考題：能閱讀複雜的訊息性文章。

階段一寫作考題

A類型考題：能拷貝資訊；

B類型考題：能填簡單的表格；

C類型考題：能描述個人狀況；

D類型考題：能表達簡單的想法。

階段二寫作考題

A類型考題：能複製資訊；

B類型考題：能填複雜的表格；

C類型考題：能傳達正式的訊息；

D類型考題：能表達複雜的想法。

現場測試及小規模檢驗

在開發加拿大語言基準評量時，我們區分了「現場測試」與「小規模檢驗」。在實行為小規模檢驗暖身的現場測試時，考題需先進行試用，讓我們可盡量減少考題弱點、改善考題說明並評估學習者需要完成試題的時間。在小規模檢驗時，我們試圖從各種不同背景的學習者身上搜集資料，以致於能達到測量和分析的目的。

在皮爾區我們有現場測試聽力／口說評量工具，並與兩位有經驗的評量者－Carolyn Cohen及Audrey Bennett－密切合作，有二十二位不同英語程度的學習者接受訪談，訪談全都被錄影下來並詳細分析。此外，我們在多倫多大學的進修推廣學院以團體方式現場測試了階段二的聽力考題，有一些提示說明透過這過程被修改或是刪除了、評分步驟也被改善了，建議未來的研究可包含一個較完善的聽力／口說評量工具小規模測試（見這篇文章的結論）。

我們現場測試聽力／口說的目的是要判斷測驗格式及內容可以幫助學習者產生最佳語言樣本到什麼程度，我們想得知測驗的編排是否會讓學習者更自在且讓他們能充分利用他們的背景及知識，此外，在現場測試過程中，我們也改進考題間的連接，以讓學習者能把對話視為是自然的演進過程而非是一系列互不相關的考題。

我們讓所有參與現場測試的學習者都從階段一評量的第一個考題開始，再逐步進行對話，直到到達他們的極限為止。極限由評量者認定為是當學習者的語言開始崩解的那個時間點，在那時候，之前有自信的學習者會逐漸失去信心，而且有時候會開始為他們的表達道歉，在現場測試時我們要求評量者把考生逐步引導到他們的極限，這樣我們才能確定我們對於提示說明的漸進式難度之假定是合理的。而在一般評量時，評量者把學習者帶到他們的極限後，只稍微再逼迫他們一下來確定他們正面臨掙扎，就很快地把對話帶回到讓學習者感到自在的難度，評量最後總是以幽默輕鬆及安心的氣氛作結。

在聽力／口說評量的開發之後進行了一項研究，參與者是十七位評量者，要回應關於測驗工具的效度及品質的陳述，研究共含有三十條陳述，有多餘空位供參與者填入評論，參與者的回應是以五點量表來評分，5代表的是對測驗工具最滿意的分數，回應數據由我們的測量顧問進行分析，研究中的每條陳述都有算出平均分數，平均分最低為3.18、最高是4.35分，以下是對於一些重要陳述的回應平均分數：「加拿大語言基準評量的聽力／口說測驗提供給考生足夠展現聽力／口說能力的機會（4.06）」；「加拿大語言基準評量的訪談對考生來說是漸進式地增加挑戰性（4.06）」；「考題與加拿大的成年移民生活相關（3.94）」。因為得到的這些回饋，我們才能更進一步改良聽力／口說測驗。

閱讀及寫作測驗分別經歷了現場測試及小規模檢驗，在閱讀及寫作的現場測試階段，我們從各種來源蒐集有關考題的文化理解程度、需要完成考題的平均時間、指示說明的清晰度及簡易度和施行測驗簡便度的回應，來源包含學習者、講師、評量者和行政人員。為此我們把考題帶到現場，並從老師及學習者身上蒐集質性回饋，也從學習者的表現中蒐集了量化資料，我們採用的一個策略是提供老師一個圖表，他們可以在上面記錄學習者在現場做考題的表現，舉例來說，若一個考生表現出他／她不了解某個字或某個說明，老師就會把這紀錄下來，並為學生的疑惑提供解釋。

參與小規模檢驗過程的機構有迪協布朗社區中心（多倫多）、哈利法克斯移民學習中心、渥太華教育局、皮爾區教育局和溫哥華社區學院，總共有十二個小規模檢驗形式：六個用在閱讀、六個用在寫作，因為我們希望最後的成品分別在閱讀及寫作的階段一和二包含兩個同等形式（一個用於安置、一個用於結果），以下的分類對小檢驗過程來說是必要的：閱讀階段一：三個形式；閱讀階段二：三個形式；寫作階段一：三個形式；寫作階段二：三個形式。藉著檢驗三個而非兩個形式，我們留給自己磨損的空間，檢驗過程中共有1,140位參與者，施行了總共2,280個測驗形式。

閱讀及寫作的小規模檢驗是由我們的測驗顧問來設計、分析及解釋結果（Nagy, 1996），小規模檢驗的主要目的是評斷每一個階段的三個形式是否有相等難度，為此，檢驗過程裡的每位參與者都得對閱讀或是寫作包含的兩個形式表示看法，然後我們選擇最類似的兩個形式（分別對於閱讀及寫作，也分別對階段一和二）當成前置和結果評量，而且在評分小組－David Progosh（多倫多大學）和Howard Zuckernick（多倫多大學）－的建議下，我們改寫了部分的寫作提示說明、簡化了單字，並讓考題的目的顯得更清楚。

因此目前加拿大語言基準評量共包含八個形式：四個用在閱讀、四個用在寫作，在每個個別技能中的四個形式裡，兩個由前置測驗組成、兩個由結果測驗組成，在兩個前置測驗中，一個是階段一評量、一個是階段二評量，同樣地，在兩個結果測驗中，一個是階段一評量、一個是階段二評量，在Nagy（1996）的研究中，他提到以下這段話：

最後的測驗非常可靠，在四點[基準]量表中，約有90%的學生（閱讀稍微高一點、寫作稍微低一些）是假如兩個（前置及結果）測驗都有做的話，得到了類似的分數或是兩個相差不到一分的分數。（第21頁）

在一個低風險的前置測驗裡，這些結果會被視為是令人滿意的，但假設這是個高風險測驗，像大學入學檢定測驗、工作空缺測驗或是移民測驗，我們就不應該感到滿意。

施行及評分步驟

加拿大語言基準草稿文件中隱含了一個假定，就是語言考題可以以難易度的順序來排列，舉例來說，一個基準三的考題會被定義成比起基準四的考題更容易，雖然我們試圖要寫出同等複雜、對於大約70%的考生都有效度的聽力／口說、閱讀和寫作考題（Nagy, 1996），我們擔心以難易度順序來排列的考題不能對百分之百的學習者「達到最佳偏差」（Swain，1984），舉例來說，在像是信件寫作（據說是個有挑戰性的考題）的考題表現良好的學習者們可能沒什麼填表格的經驗（據說是個較簡單的考題），他們可能會會分到某個不能真正反映出他們寫作能力範圍的基準程度。我們選擇要達到最佳偏差，並不想懲罰那些可能因各種社會、文化及歷史緣故所以語言能力不適合以難易度來編排的考題的那些學習者，因為這個原因，我們根據學習者在不同階段的各種考題表現上給予肯定，並以一個能反映出他們在某個階段所有考題之表現的綜合分數為基礎來進行他們的基準安置。

一對一施行的聽力／口說評量可能花到10至30分鐘，評量者也就是訪談者／輔導者，評分是在測驗工具實施時同時進行，為此我們必須發明一個系統是可以可靠地及不受注意地讓受過訓練的評量者被在與學習者進行訪談時使用，評量者在整個訪談過程中用的是兩個文件─一張評量表和一份評量指南。因為所有加拿大語言基準評量的評量者都接受過全面性的訓練和考驗，他們想必是對於訪談程序方式很熟悉，然而，評量指南還是擺在桌上方便他們拿到的地方，當成是一個提醒施測步驟、指示說明、關鍵決定及評分步驟的東西，在評量表上，評量者紀錄有關學習者表現的資訊，並記下診斷性筆記以便安置和教學之用。

在評量時，評量者讓學習者忙著進行對話，並提示他們要對不同的考題給與個別回答，評量者試著評判學習者能夠「講出一次長的對話句子」或者主導對話到什麼程度，當學習者很明顯地在與我們所謂的「語言產品」掙扎時，評量者就透過一連串的指示說明來協助表達，並繼續提示考生直到他們到達能力的極限，那時候訪談就會結束了，也會依照語言指南中包含的八個基準指標分派給一個考生基準。

閱讀和寫作評量可以一對一也可以以團體方式施測，學習者在閱讀和寫作評量都可能會有四十五分鐘完成階段一的測驗、一小時完成階段二的測驗，但很多學習者是花比規定少很多的時間就完成考題了。

在閱讀測驗裡，考生回答多種考題，每種都包含幾項試題，每個階段的總考題種類是四，第一階段的總試題數是三十、第二階段的總試題數是三十二，對每種考題來說，全部的正確試題回答（試題分數）都被轉換成數字1、2或3的表現指標，分數1是表示學習者在試題回答上的成功有限；分數2是表示些許成功；分數3表示表現很成功，這個轉換是由我們的測量顧問創制的，是為了保持個別考題的相對權重並確保安置及結果工具的同等化，表現指標最後被相加成一個綜合分數，從最低4分到最高12分，然後再轉換成一個基準。

在寫作測驗中，我們檢視了能反映出參與研究學習者全部能力範圍的寫作樣本，並且在能成功回答考題這樣的概念上區分主要和次要目標。我們把主要目標定義為是那些有觸及到考題提示說明之任務取向性質的目標，這些包含了作者有顧及到考題目的、考題範圍以及預設讀者群的程度。次要目標包含的是寫作的人能充分掌握文法、拼字及寫作技術性細節的程度，學習者對每個考題的回答都會被給予數字1、2、3或4的表現指標，4代表的是有成功答對考題，每個考題都有一組標準來指引決策過程，也有針對每種被評量考題的一組四個範本，四個範本示範的就是在四種考題得到表現指標1、2、3、4。和閱讀評量一樣，寫作評量的表現指標會相加起來得到一個綜合分數（以這情況來說是最低4分、最高16分），然後再被轉換成一個基準，因為在安置及結果測驗工具施行的每個階段都有四種考題（即總共十六種考題），我們需要從小規模檢驗中選出六十四個範本，再把這些放入《閱讀和寫作評量手冊（Reading and Writing Assessment Manual）》裡。

結論

加拿大語言基準評量和修改過的加拿大語言基準文件一樣，仍然是一件進行中的低風險事務，代表的是一個對於國家在試圖改善加拿大新移民的學習機會與融合的努力上之貢獻，這是由很多學習者、教師、行政人員、中央及地方官員還有加拿大各地的評量專家共同合作的結果。加拿大英語教學委員會在1996年11月25日通過的一項議案代表了加拿大語言基準評量這個正在開啟的故事書之另一個章節（McMichael，個人通訊，11月26日，1996年），議案如下。

加拿大英語教學委員會支持加拿大國內的語言訓練機構以及訓練師採用加拿大語言基準評量，加拿大英語教學委員會會長謹此告知掌管加拿大公民及移民部之中央部長和負責所有英語教學訓練的地方官員。

加拿大語言基準評量與它生成過程一樣具有效力，但仍需很多努力來增加它的效度及信度，在這方面，Nagy（1996）提到了以下這段話。這個專案在測驗開發方面是個好的開始，我們已經討論過測驗裡同等形式的相似度議題，也討論了基準能力的難易度特性，需再進一步論述的優先議題包括了評分者間信度的檢視，尤其是寫作考題裡必要的主觀決定，加上閱讀、寫作、聽力／口說能力間關係的調查，還有對於聽力／口說測驗中學生資料之蒐集與分析。（第22頁）

皮爾區教育局正在國內各個地方訓練評量者來有效率及成功地使用加拿大語言基準評量，也已經開始進行有關寫作評量中施測者間信度的研究（C. Cohen和T. DA Silva，個人通訊，10月24日，1996年），此外，為那些需求無法被加拿大語言基準評量達成的學習者開發讀寫評量的努力也已經開始，隨著時間過去，在持續研究下，加拿大語言基準評量很可能會達到da Silva（1996）的期望：

我們希望加拿大語言基準評量…會導致這個國家在第二外語訓練方面的整合與一致，推而廣之能讓學習者盡可能有效率地逐步完成訓練和教育課程。（第1頁）

附註

¹這份研究可以向密西加沙ON L4Z 1H8 Robert Speck 第二大道3樓300號房的語言訓練與評量中心主任Tony da Silva取得。

²這些測驗專家是Margaret des Brisay（渥太華大學）、Helen Tegenfeldt（溫哥華社區學院）、Marian Tyacke（多倫多大學）和Mari Wesche（渥太華大學）。

感謝

我們要感謝加拿大各地數百位對於加拿大語言基準評量不吝貢獻的學習者和教師。與語言基準國內工作小組成員間進行的討論對我們來說非常寶貴。Geoff Brindley及Helen Moore提供我們得到實用澳洲資源的管道。我們感謝Caroline Clapham、Alister Cumming及三位加拿大英語教學委員會的匿名審稿者對於這文章先前草稿的深具見解評論。也向加拿大公民及移民部的支持表達感激。

參考文獻

Bergin, M., da Silva, T., Peirce, B.N., & Stewart, G. (1996). Introduction to the Canadian Language Benchmarks Assessment. Mississauga, ON: Peel Board of Education.
Brindley, G. (Ed.). (1995). Language assessment in action. Sydney: National Centre for English Language Teaching and Research.
Calleja, F. (1995, April 7). Board to devise English skills test. Toronto Star, p. A7.
Canale, M., & Swain, M. (1980). Theoretical bases of communicative approaches to second language teaching and testing. Applied Linguistics, 1(1), 1-47.
Citizenship and Immigration Canada. (1996). Canadian Language Benchmarks: English as a second language for adults/English as a second language for literacy learners. Working Document. Ottawa, ON: Minister of Supply and Services Canada.
College Standards and Accreditation Council (CSAC), Ontario. (1993). ESL Benchmarks, pilot project (by Dianne Coons and Pat Parnell). Toronto: Author.
Courchene, R. (1996). Teaching Canadian culture: Teacher preparation. TESL Canada Journal, 13(2), 1-16.
Crawford, K. (1995). Language Benchmarks report on field testing: Issues and recommendations. Unpublished manuscript.
Cumming. A. (1994). Does language assessment facilitate recent immigrants' participation in Canadian society? TESL Canada Journal, 11(2), 117-133. da Silva, T. (1996). Preface. In M. Bergin, T. da Silva, BN. Peirce, & G. Stewart (Eds.), Introduction to the Canadian Language Benchmarks Assessment (p. 1). Mississauga, ON: Peel Board of Education.
Elson, N. (1992). The failure of tests: Language tests and post-secondary admissions of ESL students. In B. Burnaby & A. Cumming (Eds.), Socio-political aspects of ESL in Canada. Toronto, ON: OISE Press.
Hagan, P., Hood, S., Jackson, E., Jones, M., Joyce, H., & Manilis, M. (1993). Certificate in spoken and written English (2nd ed.). Sydney, Australia: NSW Adult Migrant English Service and National Centre for English Language Testing and Research (NCELTR).
Immigration Canada. (1991). Annual report to parliament, immigration plan for 1991-1995, year two. Ottawa, ON: Employment and Immigration Canada.
Lacelle-Peterson, M., & Rivera, C. (1994). Is it real for all kids? A framework for equitable assessment policies for English language learners. Harvard Educational Review, 64, 55-75.
Lynch, B.K., & Davidson, F. (1994). Criterion-referenced language test development: Linking curricula, teachers, and tests. TESOL Quarterly, 28, 727-743.
Moore, H. (in press). Telling what is real: Competing views in assessing ESL development. Linguistics and Education.
McNamara, T.F. (1995). Modelling performance: Opening Pandora's box. Applied Linguistics, 16,159-179.
Nagy, P. (1996, April). A report on technical aspects of test development for the Canadian Language Benchmarks Assessment. Unpublished manuscript.
Peirce, BN., & Stewart, G. (1996a). The Canadian Language Benchmarks Assessment reading and writing manual. Mississauga, ON: Peel Board of Education.
Peirce, BN., & Stewart, G. (1996b, August). Accountability in assessment: Challenges of authenticity and cultural diversity. Paper presented at the 18th annual Language Testing Research Colloquium, Tampere,Finland.
Peirce, B.N., & Stein, P. (1995). Why the "Monkeys Passage" bombed: Tests, genres, and teaching. Harvard Educational Review, 65(1), 50-65.
Rogers, E. (1993, April). National working group on language benchmarks meets. TESL Canada Bulletin, p. 1-2. Rogers, E. (1994). Canadian federal language policy and the Benchmarks project. TESOL Matters, 3(6), pp. 1,5.
Sauve, V. (1996). Working with cultures of Canada in the ESL classroom: A response to Robert Courchene.TESL Canada Journal,13(2), 17-23.
Shohamy, E. (1993). The power of tests: The impact of language tests on teaching and learning. Washington, DC: NFLC Occasional Papers.
Stewart, G., & Peirce, B.N. (1996). The Canadian Language Benchmarks Assessment listening/speaking manual. Mississauga, ON: Peel Board of Education.
Swain, M. (1984). Teaching and testing communicatively. TESL Talk, 15, 7-18.
Taborek, E. (1993, fall-winter). The national working group on language benchmarks. TESL Toronto Newsletter, pp. 10-II.
Tegenfeldt, H., & Monk, V. (1992). Assessment interview: Language instruction for newcomers to Canada. Vancouver, BC: Vancouver Community College.
Wesche, M. (1987). Second language performance testing: The Ontario test of ESL as an example. Language Testing, 4（1） 28-47.
Wilson, RJ. (1996). Assessing students in classrooms and schools. Scarborough, ON: Allyn and Bacon.