人機對話測評:理論、方法及其問題

一、人機對話：人才測評領域中的新變革
信息化是一場革命。它帶來人與人之間交往方式的改變和人類思維方式的轉換。因為“社會（不管其形式如何）究竟是什麼呢？是人們交往的產物。”信息社會、網路社會、虛擬空間的興起，加強了人們之間多方面的交往，促進了人們豐富的社會關係的形成，對於人的發展有極大的影響：信息化創造的“虛擬實在”環境為人們的角色實踐提供了絕好場所，人們可以在其中進行“角色換位”，把自己假定成不同的角色，體會不同角色的需求和情感並按自己理解的角色規範進行角色實踐，並通過網路社會的信息反饋驗證自己的角色行為，把握自己在現實生活中扮演各種角色的尺度。概言之，信息化帶來交往方式、生存方式、教育方式等多方面的變革，為人格、能力的提升提供了進一步發展的可能性，也帶來人才測評理論與方法範式的重大轉換。

信息化表現在人力資源管理領域，就是HR流程的“e”化。各類人才測評軟體的開發與運用，是其中的一道道風景線。這些建構在人工智慧、信息技術、高級程式語言、多媒體技術等基礎之上的測評工具，不僅將一般的測評手段“e”化，更使之得以建築在強大的技術平台之上，大大提升了一般人才測評方法的套用範圍。直截地說，人機對話就是一般人才測評的理論與方法在計算機和網路中的實現，這一再現，具有重大的現實意義：當信息技術取代人的操作時，它使測評任務或流程自動化；當信息技術拓展人的工作時，它使測評任務或流程信息化；當利用信息技術進行重組時，它使測評任務或流程發生根本變化。

一般的人才測評，需要在一種真實、身臨其境的刺激－反應條件下實現。然而，在實際的人才測評中，這往往是可望而不可即。因為現實中的許多情景可遇而不可求。比如地震、山洪暴發等突發事件對個人應急能力的考驗，就具有不可預料性。有些情景即使能夠刻意製造，也代價甚高且會對測試雙方構成威脅，比如針對飛行員的培訓和測試。這些局限性在其他領域中同樣存在，並促使人們發展現實模擬情景的新途徑。計算機技術的發展，使得這一歷程能夠在虛擬空間大行其道。人機對話測評，正是對信息化對測評傳統理論與方法挑戰的回響。它不僅能夠使得受測對象獲得自我認知，還可以使之在對話過程中獲得學習經驗；它不僅僅是一個測評的過程，還是一個學習的過程。由於人機對話具備眾多其它測評方式所難以具備的優點，故而獲得了各方面的普遍認同。這從網路測評的風行可以窺出，它折射了大眾對人機對話測評的認同和參與。近年來，人才測評界推出了眾多針對不同測評對象的測評軟體。測評技術中的心理測驗、專業筆試、系統仿真及人工智慧專家系統等，都在人機對話中得到初步實現。所有這些，都昭示著人機對話在測評中運用的廣泛前景。

二、人機對話：對一般人才測評方法的提升
一個常有的誤解是：人機對話不過是把人才測評的方法搬到計算機上罷了，看起來似乎和一般人才測評方法的運用（以人與人之間的互動為基礎）沒有什麼不同。的確，以往人才測評各方法的運用，多以人與人之間的直接互動為基礎，即使是紙筆測評等貌似間接互動的測評，也不過是藉助一種或幾種中介物來進行“刺激－反應”式測評。這種測評的直接互動基礎從哲學的角度——尤其是馬克思關於人類社會發展的廣義劃分類型看，是有其局限性的。因為傳統社會的根本特徵是以人與人之間的依賴關係為基礎，在這種社會，通過直接的人——人互動的鏡子，確實能夠較準確地反映“鏡中之我”。但在信息化時代的市場經濟條件下，社會的本質特徵轉化為以人對物的依賴為基礎。在這種社會，人與人之間的關係在某種程度上以物——人——物的互動為基礎。從表面看它反映的是物與物之間的關係，但其實更深刻地折射出人——人之間的社會關係。這是一個否定之否定。在信息社會，這面鏡子就是“虛擬實在”（錢學森稱之為一面“靈鏡”）。表現在測評手段的變化上，就是以網路化、信息化為基礎的人機對話測評方式的崛起。不過在人機對話的背後，人機關係的背後，依然是人與人之間的社會關係在作祟，只是這種社會關係通過虛擬空間表現出來而已。

無論是從設計過程、運作程式，數據的收集和處理、測評結果解釋、解釋的話語系統等外在方面進行比較，或是從測評的理論依據與技術基礎審視，不難看出：相對於一般的人才測評方法，“人機對話”方法並不是一種特定的測評方法，而是諸多人才測評方法在計算機上的再現。它能夠實現對一般人才測評方法的綜合，並為之提供更廣闊的施展舞台。這種再現憑籍的並非純粹的技術，而是出於對新的社會互動基礎趨勢的把握，出於對一般測評方法的優點和缺點在資訊時代應有的改造。一般的測評方法如面試、公文處理等，固然各有相對的優勢和適用的領域，但也有著共同的缺點，而人機對話，則正好能夠從各個方面對之予以提升：

其一，經濟上的制約。有些測評方法之所以被認為是適用於“高級人才”測評，不僅僅在於它是多么科學、典雅、可靠，而常常出於一個很現實的考慮：經濟原因。例如，評價中心技術集無小組討論、公文處理、結構化面試等測評方法於一體，整個實施過程要耗費很多人力、物力和時間，且對施測方的要求很高。簡言之，經濟因素決定了許多人才測評方法實施的難度，制約了其適用的範圍。而人機對話則在某種程度上能夠化解類似的窘況。人機對話測評系統由於具有強大的數據處理和情景模擬能力，能夠模擬現實中的諸多測評方法，使測評能夠隨時隨地大規模進行。規模效應首先帶來的是測評經濟成本的節約和機會成本的降低。

其二，人為因素的干擾。人才測評的客觀性、科學性，從某種程度上取決於測評方法的適當選擇及正確運用。不過，有些人為因素的干擾和方法本身無關，卻只和方法所運作的技術平台相關聯。譬如，人才測評追求信度、效度的努力一直都在進行。如何在測評中最大限度地做到價值中立、過程客觀、程式公平，往往令人頭疼。一個典型的例子是聯考錄取。其間的制度措施不可謂不多，但往往難盡人意。自實行網路遠程錄取和網上錄取公示制度後，那些曾經傷心的故事就很少發生了。人機對話對許多測評方法的境界提升，就表現在這裡。它能夠在事先充分考慮人為因素的干擾，採取技術手段予以禁止和排除，並“逼迫”整個測評的理念與制度發生變革；而另一個關鍵好處是：它即使不能夠完全排除人為因素的干擾，至少也能夠明確測評的信度與效度究竟如何，該怎樣不斷改進。一句話，在不可避免的謬誤面前，人機對話能夠使我們比較容易地明白：錯誤的幅度有多大，犯錯誤的機率有多大，規避的關鍵措施在那裡。而這些，都曾不同程度地困擾著一般人才測評方法。

其三，作坊式運作的尷尬。一般的人才測評，即使是對眾多測評方法的組合運用，往往擺脫不了作坊氣息。這是因為：從根本上說一般的人才測評方法無法不建立在經驗、直覺的判斷基礎之上。經驗和直覺是很重要的，但又是遠遠不夠的。譬如，一個老農民通過嘴巴品嘗出哪種玉米是土玉米哪種玉米是雜交玉米，和一個研究者通過基因測試對這兩種玉米品種的鑑別，結果似乎是差不多，他們都鑑別出了玉米的品種，前者的過程或許還更快更直接。但其中科技含量是不一樣的。因為這些測評基本上不能夠獲得準確而詳盡的數據，更不用說建立測評研究的資料庫了。這就決定了傳統測評的實施不能夠循序漸進，測評各方法之間的組合常常貌合神離，難以獲得整體合力。表現在測評領域，就是測評各行業間各自為政，老死不相往來；各類人才測評的常模難以建立；種種測評獲得的寶貴數據閒置而不能夠共享；人才測評在各性別、各年齡、各地區、各行業之間缺乏定量比較……。由於沒有強大的人才測評數據平台的支持，作坊式測評年復一日，難以和國際接軌，不能和國際交流、競爭。譬如，幾個著名的西方測評諮詢機構之所以能夠所向披靡，很大程度在於其實踐的背後各有長期積累的數據平台的支撐。而反觀國內，分割式測評、單一化測評、遊戲式測評，比比皆是。這種現狀制約了測評事業的可持續發展。“人機對話”測評方式的運用則可能逐步擺脫這種傷感的局面。因為它能夠不斷地收集測評數據，形成強大的測評資料庫；它能夠實現網上測評數據的交換，為測評提供數據支撐，使測評從間斷流程轉換為連續流程……。一言以蔽之，人機對話是使作坊式測評邁向數字測評時代的前奏。

其四，應對時代召喚的困惑。信息化社會的到來，為人才測評提出了新視角、新思維，也帶來了測評方法的新問題、新思考。例如，網上辦公的流行，數位化社區的建成，信息化政府的建設等，已經對人們的觀念產生了巨大衝擊。它呼喚著測評方法、內容、形式的新發展。人機對話則為回響這一挑戰提供了新思路。一般的人才測評方法，尤其是心理測驗的方法，在人機對話中的運用是很廣泛的。這不僅是因為心理測驗的量表比較容易實現人機對話，還在於心理變遷作為現代社會高速變遷的折射，常常在人自己身上反映得更深刻。在一個轉型的社會，最深刻的變化莫過於人的變化。人才測評要抓住根本，就要看到：人的根本就是人自身。信息社會的人才測評需要適應人自身的深刻變化，就必須對測評的動態性、追蹤性、人性化、服務性、便捷性、簡捷性、長期性、指導性等作出回響。而這諸多的新要求，恰恰是一般測評方法捉襟見肘，難以應對的。人機對話及其技術的發展，則為測評領域中這些難題的解決提供了部分答案。網路交往的動態性、人機對話的互動性、人機界面的日漸人性化、計算機數據處理及仿真模擬能力的日益強大等，使得一般的測評方法在人機對話中不斷獲得新內涵、新形式。譬如，針對領導人才素質測評而運用的公文處理測驗，就應該而且可以在網上實現。因為許多政府機關已經實行了無紙化辦公，它和傳統的公文處理有很多不同之處。從長遠看，這就不僅僅是改變測評內容所能夠勝任的了，它必須轉向人機對話這種測評方式。

三、人機對話：理論依據及其特點
人機對話不僅僅是一種純粹的技術表現，它同樣有自己發展中的理論依據。認識到這一點，對於正確認識人機對話測評的相對優勢及其可能的缺點，不無裨益。在一般人才測評方法的理論假設之外，人機對話所憑籍的理論依據還包括：

認識心理學理論。認識主義心理學靠造行為主義心理學的反起家，帶來了心理測驗理論的新發展。它使心理學和計算機結合，產生人工智慧這一全新的領域；它用信息加工的觀點來解釋人的心理過程，較行為主義心理學的假設已經是大大前進了一步，使測評的假設由“刺激??反應式”轉化為“產生式”；它借用了資訊理論、控制論和計算機、仿生學等新興學科的理論，將人才測評置於更前沿、更科學的領域；它使心理測驗回歸到被遺忘的語義闡釋的傳統當中，重新審視傳統的測評觀點並將其在計算機上“復活”……。認識心理學理論在人機對話測評中的套用，拓寬了測評的視界，更新了測評的方式，是對實證主義測評範式的揚棄。所有這些，使人機對話作為一種測評方式的轉向，具備了堅實的理論基礎。

非智力理論。人才測評發展的新趨勢是越來越注重對非智力因素的測評。實踐智力概念的提出，就是顯例。按照斯騰伯格提出的三種類型的智力理論，人的智力有三種類型，即：①合成智力。即在一個有結構的和定義完好的上下文中解釋信息的能力；②經驗智力。即從不同角度看待問題、從變化的情景中解釋信息以及解決實際問題的能力；③情景智力。即適應變化環境的能力及操縱談判系統的能力。非智力理論為人機對話的運用提供的理論支持在於：一般的測評方法只能夠在簡單的文字、圖片上假設情景，局限於合成智力及經驗智力的測評，而人機對話則使非智力因素的再現和測試成為可能，使得人才測評具備更廣的維度，更富層次性，更有針對性。

項目反應理論。為實現最優測評設計，項目反應理論的做法和經典測量理論是不同的。它能夠事先估計好所測能力範圍內的估計標準誤和擬編測驗的信息函式，然後從題庫中選擇所測能力水平的題目。這為人機對話實現測評的個性化奠定了理論基礎。計算機替代手工自動控制測評的測驗精度，平衡題目內容和題目類型，調整測驗篇幅，實現題目的自動選擇；人機對話能夠快捷地達到測評的最最佳化目標：測驗篇幅最短；測驗信息函式最大；測驗離差最小；測驗時間最短；測驗信度最高；實得分數分布與目標分數的分布的擬合度最好。人機對話的許多優點奠定在項目反應理論之上。譬如，它能夠實現計算機化的適應性測評，隨時使得後面的測評題目的呈現依據前面答題的反應情況來決定（傳統的適應性測驗的做法是改變起止點，極其笨拙）；它可以根據不同的測評對象確立不同的常模等等。項目反應理論使得人機對話更具科學性和實用性。

人機互動作用理論。人機對話中的測評主體和客體能夠相互學習，它很大程度上得益於人機互動作用。人機對話的一個重要特點就是利用人??機互動作用的沉浸性，根據測評客體的反應不斷學習和選擇不同的模擬情景，有針對性地施加測試項目。仿真、實時、主動型的計算機三維動態圖像、聲音使得測試成為動態的互動作用，給予測評客體逼真的效果；測評能夠實現自助，實時監控，適應自助式開放訓練教室的要求，自行選擇時間進行自助訓練，消除測評客體的精神負擔，提高測評質量。人機互動作用理論消解了那種認為只有直接的面對面的測評才是可靠和可信的偏見，為人機對話的合法性提供了新依據與新辯護。

人機對話所依賴的技術特點從某種程度上決定了測評的特點。不過，人機對話的特點遠遠超越了純粹技術的範疇。信息技術的迅速發展使得人機對話處於不斷的變化之中。測評理論和技術的進步正朝著情景化的方向發展，有著濃厚的現實導向和實踐導向，力圖測評人在真實環境中的面貌。人機對話的特點，也圍繞這個方向展開。具體來說，人機對話測評方式的特點表現為：

（1）測評的形象性。專家人工智慧裝置、模擬系統的運用使得人機對話測評生動、直觀，提高了人才參加測評、考核的興趣和熱情，克服了因測評主體的差異所帶來的影響。（2）測評的簡易性。人機對話測評可以提煉出最簡捷的測評項目，最大限度地涵蓋測評要素，特別是仿真模擬裝置可以將複雜的測評要素、項目經過科學提煉、歸納，使之簡單化、科學化，更容易操作化和評價，實現測評設計的複雜性與測評結果的簡潔性的統一。（3）測評的安全性。人機對話測評的量表、測評的項目建立在大量的題庫之上，測評的數據具有層級的保密性；測評能夠加入測謊內容，並註明測評結果的適用範圍和應當注意的事項；（4）測評的科學性。人機對話測評，能夠隨時檢測測評的信度和效度，確保測評數據的科學性與準確性，可以排除人為因素，使測評成績真實可靠，作到公開、公正、公平，提高測評和診斷的質量。人機對話獲得的大量數據，為以後測評的不斷完善打下基礎，使測評保持連續性。（5）測評的經濟性。人機對話測評可以節省大量人力物力，節約培訓時間，降低成本。（6）測評的實效性。人機對話測評能夠在人機的互動中實現雙方的學習。它既可以集測評與評價與一體，在測評之後能夠馬上列印測評結果；又能夠實現測評與評價的分離，將測評結果交於專家進行點評，保證測評結果的合理合法運用。

四、人機對話：應當注意的問題
人機對話不是萬能的。人機對話本身所依據的理論基礎與技術手段的不完善、人機對話測評的局限性、人機模擬與實踐的差異、人??機系統中人的因素依然占主導地位等諸多因素，決定了人機對話還存在諸多問題：

其一，信息化是一面雙面刃。首先，計算機自適應測驗雖然使測評過程化繁為簡，化重為輕，化多為少，卻也使得越來越多的工作轉化為數位化、符號化的選擇與圈點。測評越來越變成對圖表等符號的解讀和解釋，測評的世界越來越為這些物化的數字元號所制約、消融，測評雙方的互動隱退於這些數字元號背後，所有這些很可能造成對測評主體的語言能力、思維創造能力乃至道德判斷與選擇力等不同程度的誤讀。此外，在自由的電子網路空間中與現實生活中的人格的不一致，在同一電子網路空間中這種人格和那種人格的不一致，這種人格的“自我同一性”在人機對話測評中可能被打破、被分裂、被扭曲的現實，可能引發測評中的多重人格和人格分裂現象，導致測評的紊亂。

其二，信息淹沒和排擠測評。人機對話能夠產生大量的數據。倘若不能對這些數據進行嫻熟的專業處理，往往會產生信息迷亂。表現在人機對話中，就是過度的測評信息淹沒和排擠測評主體與客體，測評的手段消解了測評目的。用羅斯扎克的話說，就是：“信息，到處是信息，唯獨沒有思考的頭腦……信息太多，反而會排擠思想，使人在空洞零散的一堆事實面前眼花繚亂、六神無主、無所適從”。這時，信息“拜物教”、電腦“拜物教”產生了，信息作為主體異己力量與主體對立起來。信息化測評很容易使人們過於沉溺於測評的技術，忽略、迴避測評雙方在生活世界的感受與交流，混淆“人機關係”和“人際關係”，混同“現實實踐”與“虛擬實踐”兩種不同的檢驗標準，造成測評目的與手段的二律背反。

鑒於人機對話在套用中存在一些誤區，端正對人機對話的態度已成為當務之急：

其一，要重視測評軟體本身可能表現出來的問題。人機對話測評離不開測驗軟體的運用。軟體的設計成熟與否決定了人機對話的成熟度。當前很多測評軟體尤其是心理測評軟體是從西方引進的，其理論和方法大都以西方心理學為中心。問題是，連著名的美國心理學史家G.墨菲也不得不承認：西方心理學的大多數問題只有在西方歷史??西方地理的、經濟的、軍事的、科學的背景??的範圍內才是有意義的問題。據統計，西方人才測評軟體的多達15000種之多。如果不在本土化的基礎上加以修訂就直接運用，往往會出現問題。即使是自主開發的測評軟體，也因為測試的原因，往往存在不好用、格式不統一等問題；至於設計思路上的問題，更會在人機對話中間接表現出來。據調查，現有各單位開發的測評軟體在即時幫助、個人答題系統、團體數據處理系統和數據篩選系統等軟體易用性的條目上，大多未能完全實現，測評報告不完善、功能模組不完整、保密性不強等問題，亟待解決。

其二，要防止過分迷信測評軟體的傾向。任何測評軟體都是基於一定的理論架構和特定的技術，不可能至善至美。所謂“智者溺於所聞”，人機對話在對“傳統”測評方法予以超越的同時，也就埋下了局限的種子。如：忽略對面對面互動種種細節和處世態度的把握；迷信軟體的程式而忽視測評主體和客體雙方能動性的刻板思維；跨越了紙筆測驗中的“語言陷阱”卻有陷入“人機關係”陷阱的危險；網路模擬的沉浸性使得測評雙方可能“夢裡不知身是客，錯把他鄉作故鄉”；偏信計算機得出的測評結果，執著於人機對話得出的數據而置測評常識於不顧……。所有這些傾向，都是值得警惕的。

其三，要防範過度的商業化取向。人機對話系統開發周期長、技術要求高，由於種種原因，目前人機對話的實施回報率很低，測驗製作者或修訂者得不到合理的經濟利益，著作權往往也受到很大程度上的侵害，得不到必要的法律保護。這樣，不得不過度依賴人機對話軟體及其測評來贏利，這卻會吞噬其科學性與信譽，使人機對話測評急功近利，難以形成一個良好的外部環境，難以引導測評工作朝更廣更深的方向發展。化用馬克思的話講，就是：過度的商業化傾向在給人機對話帶來過多利潤的同時，也為它蒙上了太多的恥辱。如何在人機對話的專業性、易用性、規範性及商業性方面謀求平衡，尚有待繼續深入研究。

H.艾賓浩斯的名言佳句“心理學有一長期的過去，但只有一短期的歷史”。倘若用來形容人機對話測評在人才測評中的運用，是同樣貼切的。人機對話為人才測評註入了新形式和新內容，但這並不意味著一般的人才測評方法就“過時”了。恰恰是一般的人才測評方法，為人機對話的使用限定了範圍。特別是現階段，人機對話的套用需要和普通測評方法結合起來，借鑑其現實經驗教訓，才能夠相得益彰，共同推進測評事業的發展。(申林劉建洲)

第2頁第3頁第4頁第5頁