動物的事。響片訓練 : 該不該使用NRM，爭議何在？

引用或轉貼請註明譯文出處，請尊重著作權

該不該使用NRM，爭議何在？

（Should You Use No Reward Markers? Examining the Debate）

原文出處： http://www.clickertraining.com/node/2848

作者：美國KPA講師Laura VanArendo寫於 04/01/2010

譯者：黃薇菁（Vicki）

譯文出處：動物的事‧響片訓練部落格

留心

　什麼是無奬勵標定訊號（NRM），它是有用的工具或是糟糕的錯誤？

　好的響片訓練者應該使用NRM嗎？何時應用？

　它一直都在，伺機著。有時你覺得它就在背後跟著你，當有人問道：「你為什麼不告訴狗牠做錯了？」，它終於冒了出來。

　NRM的爭議再度開啟。

　這個爭議週期性會出現，不過你下次就有準備了，不管它多麼祕密地進行。

到底什麼是NRM？

　表面看來，NRM相當簡單明瞭，不過有時它的真正本質引起相當爭議，它通常被描述為「制約消弱」（conditioned extinction），因為它的目的是告知學習者他所考慮選擇的路不會有增強物等著他，最為人所知的NRM例子之一是「冷熱」兒童遊戲，藉由「越來越熱」的回饋引導遊戲者接近標的物件，「越來越冷」指示遊戲者應該試試走另一條路徑。

　乍看之下，它看來像是善加利用了持續回饋，然而，仔細檢視後顯示「冷」的回饋其實沒有必要，熟悉遊戲的人一開始會先轉圈圈直到他們聽到有人說「熱」，他們不會浪費時間在房間四處亂走做實驗，看看會獲得多少「冷」的反應，事實上，沒有聽見「熱」的反應即等於聽見了「冷」的反應，任何玩過塑形遊戲的人都可以作證，在響片訓練者的「冷熱遊戲」版本裡，冷熱分別是沒響片聲和響片聲的回饋，在兒童遊戲版本和響片版本裡，告知「冷」或沒按響片──都沒有提供進一步資訊。

制約消弱或厭惡刺激？

　然而，這不只是NRM的爭議而已，當心囉，因為我將會冒犯到一些人。

　等到NRM對訓練對象出現真正的意義時，它已成為正處罰。

　NRM可能是象徵開始消弱的訊號，但是這麼做時它也象徵喪失機會，獲取增強的機會已然結束，如果訓練對象為了避免NRM而改變行為──亦即NRM的使用目的──那麼NRM在定義上看來就是厭惡刺激，它可能是輕度厭惡刺激或可能是重度，依對象感受而異，但是它是個訓練對象積極設法避免的刺激。由於訓練者在訓練對象出錯時給予NRM（給予能改變行為的厭惡刺激），NRM成了正處罰。

　NRM一定邪惡嗎？或許不是，但許多人主張它是完全中性的刺激，這並不然，處罰程度可從相當輕度至極重度，而且任何處罰的嚴重度都得由訓練對象解讀，如果訓練者希望避免使用正處罰，他應該明白處罰的所有形式，包括NRM。

　去觀察一下答題比賽節目的參賽者，當他回答問題後聽到錯誤嗶聲響起，他的肢體語言顯示鈴聲是中性刺激，只提供有用資訊嗎？當然不是如此，失望的參賽者可能出現垂頭喪氣的姿勢、挫折轉向行為，甚至爆粗口──－即使他不會喪失點數或金錢，只喪失獲取更多點數或金錢的機會。對於一心只想要對的人，錯了令人相當厭惡（不在乎對錯的學習者面臨的是動機問題，不是提供何種資訊的問題，NRM對此沒有幫助，甚至可能妨礙動機發展）

違約

　有些訓練者不只利用NRM塑形新行為，而且也用來指示學習者犯下的任何錯，包括對訊號反應不當（沒反應或錯誤反應），例如，如果訓練者要狗從一堆東西中選出有氣味的物件，而狗兒取錯了，訓練者可能在狗咬起錯誤物件時說：　「嗚布茲！（譯註：事出差錯時的美國口語）」。

　雖然表面上這看來是相關資訊，它卻可能破壞精心的訓練，正向訓練的訊號是第三級增強物（暫譯，tertiary reinforcers），沒有達成訊號行為時所給予的NRM打破了增強的約定，在第三級增強物出現後予以正處罰，並冒著極可能毒害該訊號的風險──此訊號未來在連鎖行為中將毫無用處

（註：如果你發現自己給訊號後使用NRM，重新檢視該訊號為何出錯？搞不好這裡的問題根本不在於NRM！）

　許多動物（和人類）在挑戰情境中出現緊迫，牠們不只因為面臨的任務而緊迫，也因為增強時制改變及處罰機率提高而緊迫，狗兒是真的覺得氣味辨識極為困難──或者，牠是對學習的情境感到挫折？

這個資訊有必要嗎？

　支持者主張NRM單純對學習者告知資訊，他們說讓狗兒自己猜測不公平，告訴牠做什麼沒有用較為人道。

　為何要告訴狗兒牠沒成功？這個問題通常以較哲學的方式提問，但我的用意非常實際，如果狗兒需要NRM才能明白牠不會被增強，訓練者早就嚴重搞砸訓練。狗兒怎會還不明白？響片訓練的對和錯相當清楚，如果訓練的設計讓狗兒無法分辨何時已成功而需要輔助資訊，一定有哪裡出錯了！

它有用處嗎？

　那麼，標定不增強的行為一定不對嗎？請牢記，永遠不能以一概全。有些資訊性的訊號可稱為NRM，因為它們代表不會有獲得增強的可能──是個紅燈而不是較常見的綠燈訊號：我的狗已學會如果我在電腦前說：「休！」，我就沒法與牠玩，其他時候牠用鼻子頂我可能會引起我的注意，在這種情況之下，「休！」是個代表提供行為將不獲增強的訊號（多數寵物飼主會發現我們的寵物知道很多這類訊號，多半是非口頭訊號。）　

　然而，多數時候我看到NRM被用來輔助拖泥帶水又缺乏準確度的初期訓練，訓練者犯錯的包袱交由學習者承擔，而學習者從一開頭就沒有接收到足夠資訊，現在還必須在額外訊號、刺激和挫折當中摸索。絕大多數時候，適當留意訓練基本要素（抓好時間點、適當的要求標準和高增強頻率）可避開使用NRM的「需要」。

　我認為NRM有一個應用情境──當響片或無響片的意義對訓練對象不明時，但這種情境少之又少，多數訓練者不會碰上這種情境，於是為了「不時之需」訓練NRM是白費力氣，從一開始就把時間花在讓訓練更乾淨俐落，你永遠不需要NRM。

什麼可以替代具處罰性質的NRM

　所以，學習者犯錯時，訓練者該怎麼做？有許多替代方法可以取代NRM這種非刻意的處罰訊號，『暫停』（timeout，通常是移除訓練者的關注或機會）是負處罰而非正處罰，『最低增強刺激』（暫譯，least-reinforcing stimulus，LRS，訓練者或環境完全不提供反應）是真正的消弱──而且通常是針對錯誤的最佳反應。訓練節奏良好的訓練者可能只為LRS暫停一秒鐘，然後接著練習，不過這麼做已足以提醒那個錯和它的後果（或者說缺乏後果）。

不利用厭惡刺激的訓練

　即使可能很有用的工具或許會有害，尤其用來輔助胡亂使用的偏好工具。《動物訓練：成功以正增強進行動物管理》（Animal Training: Successful Animal Management Through Positive Reinforcement）作者Ken Ramirez說：「我常勸阻［新手］訓練師，甚至不要他們制約『不行！』口令，因為如果沒有一個代表不行的訊號，它就不會被人過度使用。」

　撰寫本文的過程中，雖然我主張反對使用NRM，我發現自己在訓練當中用了更多NRM──腦袋裡想著NRM使得我更常使用它，即使我明知不好！

　雖然事實上，許多學習者能透過NRM學習，但許多學習者無法這麼做（而且許多學習者不用NRM會更好），它對訓練者是很難破除的習慣。有了NRM的使用選擇可製造機會或甚至需要，如同寫歌人Jonathan Coulton：「因為我們能夠，所以我們會去做我們必須要做的事。」為了避免在訓練中使用厭惡刺激，你要明白它的各種形式，也要計畫因應。

註一：以人類測試NRM

　在美國芝加哥Shedd水族館的訓練講座上，訓練主任Ken Ramirez帶著我們透過不同訓練遊戲發展抓準時間點、添加訊號、訓練連鎖行為等技巧。幾天後，他給了我們一個新挑戰：利用制約增強物和一個NRM訓練人類依訊號出現三個簡單行為。在訓練的對象能夠成功出現三個行為，知道我們使用什麼刺激當成NRM，也能予以定義時，我們的任務才算大功告成。

　成果很驚人，雖然我們近期才討論過NRM，對它的概念記憶猶新（我們訓練的動物通常則不同），15名訓練對象當中只有一位猜到了某個多餘的刺激就是理應提供有用資訊的NRM。

　同時，每個訓練對象出現了挫折，偶而甚至出現攻擊性（有時以玩笑話掩飾過去，有時則不然），約一半訓練對象沒有在規定時間內完成任務，雖然他們玩其他遊戲時極為成功。

　以我自己的訓練對象來說，我看到了訊號倒置（cue inversion，對於NRM的挫折和混淆導致其他地方也出現混淆），而且大致上喪失了參與意願，雖然我儘可能使一切簡單明瞭──對正確反應準確按下響片，也以同樣準確度標定她的錯誤，並且設法馬上讓她在錯誤後有成功的機會──我看得出來她的態度越來越糟。

　然而，整體來說，我們這群人表現不錯，這是Ken教學多年以來首度沒有人在NRM挑戰中氣得衝出教室的第一班。

　這次經驗鞏固了我目前對於NRM的看法，了解NRM概念的人類尚且出現這種程度的混淆和挫折，何必冒險讓無法與我們討論的動物出現這些感受呢？

註二：不用NRM也能修正行為

　塑形我家狗莎士比亞把頭探入水桶裡的示範正進行得順利（觀看訓練影片請點選原文網址http://www.clickertraining.com/node/2848），直到我不小心在這隻愛舉腳的狗探入水桶裡時增強到牠的舉腳行為，幾秒內我的狗很確信我希望牠把右腳放入水桶裡！雖然許多訓練者可能會採用NRM阻止舉腳行為，我選擇只利用抓準時間點和留意增強物的位置來修正這項行為。

　莎士比亞起初對於低成功率很挫折，如果我當時告訴牠牠做錯了，牠的態度會有改善嗎？NRM會有助讓牠了解到底該怎麼朝著我要的方向改變行為嗎？或者NRM會讓牠聯想到對水桶的反應？為了修正行為，我把時間點抓得更準，暫時降低要求，有了大增的增強頻率，學習者很快了解我想要的是什麼，並且保持行為。過程中舉腳的迷信動作持續著，然後在大幅增強所要行為之下，舉腳動作逐漸消失。

動物的事。響片訓練

2010/04/22

該不該使用NRM，爭議何在？

沒有留言:

張貼留言

「動物的事‧響片訓練」部落格重新開張！！！