The Noise
雜訊
人 類 判 斷 的 缺 陷
作者:Daniel Kahneman (2002 Nobel Laureate)
Olivier Sibony, Cass R. Sunstein
台灣天下文化出版
Johnson CHEN 202212 1
Johnson CHEN 202212 2
「我們經常是處在客觀的無知狀態之中。」
Daniel Kahneman 本書作者
2002年諾貝爾經濟學獎得主
康納曼親自現身說法,拆解雜訊與偏誤 ─ 天下文化
• 認知偏誤與快速直覺判斷(Heuristics,一種簡化的思考方式,又稱捷思法),是關聯在一
起的概念,之所以產生認知偏誤,有時是來自快速的直覺判斷風格。這種思考風格不一定就
會產生錯誤,也具有演化上的利益,如動物在野外求生,若不能發展出這種快速的直覺判斷
與反應,則很容易在天擇過程中出局。
• 在人類特別是現代社會做較複雜決策或在較不確定狀態下,並沒有要求一定要做快速反應,
也有資料可供研判,但這種思考風格卻似乎早已經在我們的基因裡,令我們經常不由自主的
發生,以致產生認知誤差。
• 誤差則是由偏誤和雜訊兩者的總合。「偏誤」比較廣為人知,例如損失趨避、錨定效應和從
眾效應…等;「雜訊」則不容易被人察覺,像是不同的專家對同一件事情意見分歧的程度,
遠超過人們常理的預測程度。但是,雜訊卻無處不在,影響也不比偏誤小,只有使用統計學
來觀察的時候能讓它現形。
Johnson CHEN 202212 3
人類判斷出錯的兩大來源:
認知偏誤與雜訊
雜訊與偏誤可以在概念與統計上分離
• 雜訊 (Noise Error) 與偏誤 (Bias) 其
實是統計學中,兩個很基本的機率
分配屬性,可以在概念上完全分開,
也是互相獨立的,
• 雜訊係指誤差分配的離散程度,越
分散雜訊越多,這是統計學中的標
準差(或變異數)概念.
• 偏誤 (Bias)則是實際分配平均數偏
離零誤差多少的概念。
Johnson CHEN 202212 4
偏 誤 vs 雜 訊
• 人類的思考基因是擅長連結因果說故事,但卻不擅長統計數字的。
• 在過去幾十年,已經有很多人注意到偏誤的問題。人類判斷令人驚異,而且人類心靈
締造很多了不起的成就。但在某些情況之下,偏誤會造成系統性的誤差。如果人過於
樂觀,就會出現偏誤。同樣的,若是太重視短期,就會忽略長期(這就是「現時偏
誤」)。很多人會顯現樂觀偏誤和現時偏誤,雖然這樣的偏誤可能是有用的(如果你
很樂觀,也許會比較願意勇於嘗試),但這也可能造成嚴重錯誤,因此產生大問題。
• 但是我們卻沒有看到,有關同等重要的『雜訊』(Noise),對我們決定的影響的研
究與報告。我們把雜訊定義為我們不樂見,甚至討厭的判斷變異。如果一位醫師說,
病人的心臟有問題,不過另一位醫師說,病人只是壓力大,這時就有雜訊了。若是一
位安檢人員說,某個工作場所安全無虞,但另一位安檢人員卻說那個工作場所很危險,
顯然這就是雜訊。
• 從很多方面來看,雜訊是個未知的國度,一個尚未被發現的世界。如何從單一決定找
出變數?這是一個嚴重的問題,世人卻視若無睹。雜訊會造成嚴重的不公平,在某些
情況下,應該被視為一種暴行,甚至是一種醜聞。而且在很多情況下,雜訊會付出高
昂的成本,企業、員工、消費者、投資人及其他許多人也會受到傷害。
• 只要是判斷,就會有雜訊,而且雜訊比我們每一個人想像的要多很多。
Johnson CHEN 202212 5
偏誤:明顯的缺陷
• 偏誤(Bias)指的是人們「偏向同
一個方向的平均誤差」,也是心理
學上面最廣為人知的研究領域。例
如「規劃謬誤」偏誤,就是指人們
總是低估完成一件事情所需要的時
間,像是經理人總是低估專案完成
的時間。「從眾效應」偏誤,就是
指人們傾向相信很多人相信的事,
像是董事會討論一個併購案的時候,
董事們會被比較多數人相信的事影
響了最後的決定。
• 從事後諸葛的角度,偏誤很明顯可
以用因果的方式來解釋,這也是我們
人們善用和習慣的思考方式.
Johnson CHEN 202212 6
雜訊:隱形的缺陷
• 「雜訊」(noise)指的是人們「彼此判斷的方
向不同、意見分歧的程度」,但只有從統計學的
角度才看得到雜訊。像是一般的專業人士,例如
經驗資深的保險核保人員,往往對自己的判斷很
有信心,也不會去質疑同事的判斷跟自己有很大
的差異。但是一旦把統計的資料攤在桌上,才會
發現這些判斷的差異不但很大,甚至常常有不同
的專業人士對同一件事情有完全相反的判斷
• 因此統計學和經濟學家常說, 在因果關係裡,雜
訊不見蹤跡;在統計世界裡,雜訊無所不在。
Johnson CHEN 202212 7
現實世界充滿雜訊
醫療診斷充滿雜訊
預測充滿雜訊
政治議題充滿雜訊
人事決定充滿雜訊
司法判決充滿雜訊
面對相同的病人,不同醫師對於各
種病人情況的診斷和判斷往往大不
相同,往往給病人和家屬帶來更多
的壓力和焦慮。
經濟學家對於新產品,新季度景氣,
失業率等看法也有很大的分歧。
不同政治立場的選民對於一些客觀
的事實,選情判斷,民調結果等有
著不同的解讀
不同面試官對於同一個面試者或績
效考核的評價可能天差地遠。
被告是否有罪無罪?可不可以獲得保
釋?往往因為有的法官比較寬容,有
的比較嚴格而有所不同。太多的不確
定會令人對正義和司法感到擔心
• 說來遺憾,很多組織都飽受偏誤和雜訊的困擾。只要是人類的
判斷,就不免有雜訊。而這些重大的社會和太過於依賴個人決
定的不確定令人不安。為了提升判斷和決定的品質,除了偏誤
之外,我們還必須要克服雜訊的問題。
Johnson CHEN 202212 8
雜 訊 的 問 題
Johnson CHEN 202212 9
• 社會充斥很多不合理的情況,像是不同法官對同一個案件卻有截然不同的判決、
不同醫師對同一個病人的診斷有很大的差異、不同選民對於客觀民調的解讀,
同一個員工的績效考核有不同的結果。至就連同一個法官、醫師與面試官在不
同的時間也會做出不同的判斷。為什麼會這樣?
• 因為,只要有判斷,就會有「雜訊」,而且在日常生活中,雜訊比你以為的還
要多。科學家發現,在經營管理、醫學、法律、經濟預測、法醫鑑識、保釋、
兒童保護、策略、績效評估、個人選擇等領域,都看得到雜訊,但是一般人和
組織都沒有意識到這個問題,結果是付出高昂的代價、企業有更大的隱藏成本、
公共安全與衛生受到影響、社會還會出現極端不公平的情況。
雜訊與偏誤一樣,都是人類必須迫切正視的問題
唯有正視雜訊與偏誤的存在,並做好決策保健工作
才能迎向決策錯誤更少、更公平、更健康的社會
Johnson CHEN 202212 10
人類判斷的三種錯誤
假設有一群朋友去射擊場打敗,
他們分成四隊,這是他們的成績
• A 隊是最接近理想的一對,所有著彈
點都靠近靶心,B 隊有偏誤(Bias),
C隊有雜訊,D隊又有雜訊又偏誤
但是當我們翻轉到標靶的背面,只有看到著彈點
痕跡的時候,我們可能繼續判斷或 C,D 兩隊可能
有雜訊,但是我們也同時落入以為B隊都也是正中
目標的偏差判斷。
為了避免判斷的錯誤,我們不但要避免思
考上的偏誤(Bias),同時還要理解雜訊
(Noise),還有它們之間的關聯關係
系統性雜訊
Systematic Noise
• 凡是由從一群同等資格的人當中隨機挑選人出來做判
斷的地方,雜訊就會是問題。很多組織都飽受系統雜
訊的困擾:你去醫院接受哪位醫師的診治、在法庭上
由哪位法官審理你的案子、哪位專利審查員審查你的
申請案、哪位客服專員聽你投訴等,往往是隨機指派
的。在這些判斷當中,不必要的變異可能會造成嚴重
的問題,包括金錢損失,以及層出不窮的不公平。
• 對於判斷當中不必要的變異,常會出現一種誤解,認
為這種變異並不重要,因為隨機錯誤應該會互相抵消。
當然關於同一個案件所做的判斷,正負誤差往往會互
相抵消,然而事實上,一個充滿雜訊的系統不會對同
一個案件做出多個判斷,而是對不同的案件做出『有
干擾』的判斷。如果一家保險公司的一份保單報價太
高,另一份報價過低,兩者的平均值似乎是適當的,
但其實這家保險公司還是犯了兩個代價高昂的錯誤。
• 在充滿雜訊的系統裡,錯誤不會互相抵消,只會相加。
11
犯罪與量刑的雜訊
• 長久以來,全世界的法官在量刑時都有自由裁量權。在很多國
家,法學專家無不讚許這種自由裁量權,認為這種做法既公正,
又合乎人道。這些專家認為刑事判決應該依據很多因素,不只
是罪行的種類,還必須考量被告的性格與情況。因此,「刑罰
個別化」的裁量方式成為主流。如果法官受到規則的約束,罪
犯就會受到不人道的待遇,他們不被視為個體,特殊情況也無
法納入考量。在很多人看來,「正當法律程序」似乎意味著
『法官的自由裁量權』(或所謂自由心證)是司法制度不可動
搖的基石。
• 然而,如果有一個人因為搶劫銀行而被定罪,在美國的刑法裡,
他有可能最高可能會被判處25年有期徒刑。這意味被告坐牢
的時間從0到25年都有可能。於是,刑期長短並非完全取決於
案件或被告,很有可能要看審理法官,也就是受法官的觀點、
偏好與偏誤所影響。因此,同樣的案件、同一個被告,可能因
為審理法官的不同,出現迥然不同的判決。
• 於是,我們的法律制度『需要一套客觀,放諸四海皆準的規則,
對於法官和所有人都有約束力』-Hn. Marvin Frankel (1973)
Johnson CHEN 202212 12
司法判決裡遇到的雜訊問題
Johnson CHEN 202212 13
• 1970年代,世人對自由裁量權不再那麼熱衷。原因很簡單:量刑雜
訊多到令人震驚。1973年,美國著名的法官法蘭科(Marvin
Frankel,1920-2002)引發大眾對這個問題的關注。法蘭科在成
為法官之前,是一個捍衛言論自由的鬥士,積極倡導人權,協助創
立人權律師委員會。法蘭科是捍衛人權的悍將,而且對刑事司法體
系的雜訊問題感到憤怒
• 法蘭科描述法官專斷造成的種種冤罪案件,呼籲國會終止這種「歧
視」。他所說的「歧視」,主要是指雜訊,也就是莫名其妙的量刑
差異。但是,他也關心偏誤,也就是種族和社經地位造成的不平等。
為了消除雜訊和偏誤,他認為『…刑事被告不該受到差別待遇,除
非可以透過夠客觀的相關測試,確保判決結果不是單純官員、法官
等個人發布的敕令(Idiosyncratic Ukases)』
• 此外,法蘭科更主張,透過「詳細的個人資料或因素檢查清單,盡
可能包括數字或其他客觀評分」來減少雜訊。
保險行業裡的系統雜訊-1
Johnson CHEN 202212 14
• 對於在像保險公司一樣的營利組織來說,雜訊的問題可能
非常嚴重。充滿雜訊的決策可能會對於公司和組織造成很
大的損失。
• 在任何大公司,很多專業人員在公司授權下所做的判斷,
與公司利益息息相關。例如,保險公司雇用很多核保人員,
他們會依據財務風險提出保費的報價給投保人,例如銀行
擔心因為詐欺或魔鬼交易(rogue trading)*而導致巨額
虧損,因此向保險公司投保。保險公司也雇用理賠人員來
計算未來的理賠成本,並與申請理賠者交涉。
• 保險公司的主管總是在衡量「促進判斷達到一致」(亦即減少雜訊)的潛在價
值。他們希望代表公司的人員在做出重要的財務決策時,盡可能意見一致。每
一個人都認為這樣的一致性是好的。然而,每一個人也都同意,他們的判斷不
可能完全一致,因為判斷並非制式,而且含有主觀的成分,因此雜訊是無可避
免的。
保險行業裡的系統雜訊-2
Johnson CHEN 202212 15
• 保費確切的金額對公司有重大影響。如果保費高,客戶也願意接受的話,對公司來說是有利
的。但保費高也有將業務拱手讓給競爭對手的風險。保費低的話,客戶的接受度會比較高,
但對公司也比較不利。
• 以任何風險而言,都有所謂的「金髮姑娘價格」(Goldilocks price),也就是剛剛好,既不
會太高,也不會太低。一大群專業人士判斷出來的平均價格,可能和金髮姑娘價格相差無幾。
不管高於或低於這個價格都得付出代價,這就是為何判斷充滿雜訊,判斷的差異會損害公司
利益。、
• 早估價很重要,因為這為理賠人員未來與申請人的協商設定
一個隱性目標。在法律上,保險公司有義務為每一筆理賠案
件預留預計成本(有足夠的現金支付保險承諾的賠償)。
• 同樣的,從公司的角度來看,理賠金額最好符合金髮姑娘原
則。保險公司提出的理賠金額不一定會被申請人接受。如果
保險公司提出的給付金額太少,申請人可能會延請律師,將
保險公司告上法院。反之,如果理賠準備金過多,理賠人員
可能會輕易同意請求人的要求。因此,理賠人員的判斷對公
司來說很重要,而且期的對申請人而言甚至更重要。
保險理賠抽籤制度創造的雜訊
Johnson CHEN 202212
16
• 在多數的理賠申請的的時候,保險公司往往只是指派一名理賠人員負責這個案子,就像指派
核保人員一樣,因為這個理賠人員正好有空,所以承辦此案。在保險公司的正常運作中,一
名專業人員被指派負責某一個案件,沒有人知道如果換另一個人會有什麼樣的結果。
• 理賠人員蒐集關於案件的事實證據,估算最後的理賠金額。同一名理賠人員也必須負責與理
賠申請人的代理人進行協商,確保申請人獲得保單條款承諾的理賠給付,同時也得保護公司,
讓公司不會付出過多的理賠金。
• 與法官判決一樣,研究人員發現保險公司在進行的雜訊審查
發現的差異要大得多。根據計算,核保人員的中位數差異為
55%,約為大多數人(包括該保險公司主管)預期的五倍。
這樣的結果意味著,如果一個核保人員核定的保費為9500美
元,另一個人提出的核保金額不是1萬500,而是1萬6700美
元。至於理賠人員的中位數差異則為43%。
• 很明顯的,龐大的雜訊量讓保險公司付出昂貴的代價。一位
資深主管估計,公司核保雜訊的年度成本可能高達幾億美元,
這些成本包括報價太高的業務流失,以及報價太低帶來的損
失。更由於沒有人知道每一個案件的『金髮姑娘價格』因此
沒有人能夠指出有多少錯誤或偏誤
延伸閱讀:金髮姑娘價格 Goldilock Price
Johnson CHEN 202212 17
• 所謂『金髮女孩經濟』就是指「經濟溫和成
長,低通膨、低利率」的恰到好處的理想狀
態。這種環境確實是投資市場最舒服的階段。
消費的價格和市場自動產生的價格之間,消
費的價格應該貼近平均值。然而,讓人戒慎
恐懼的是,以上三個條件,何時改變、或是
還可以維持多久?這個擔心,也是讓市場充
滿波動性,以及經濟學家和政策制定者最大
的挑戰。
• 金髮女孩(Goldilocks)這個隱喻,來自於童話故事「金髮女孩與三隻
熊」。小女孩誤闖三隻熊的房子,房子裡有三碗粥、三張床,小女孩都嘗
試過後,選了最小碗的粥、最小的床睡覺,因為那最適合她。
不必要的變異 vs 有利的多樣性
Johnson CHEN 202212
18
• 判斷的差異往往代表著某種程度的多樣性,不但應該在做決定的時候考慮進去,
同時也是一件好事。只是系統雜訊的一個關鍵特性是,這是不必要的雜訊,也
是我們希望避免或消除的
• 舉例來說,如果十位影評人看同一部電影、十位品酒師品評同一支酒、十位讀
者讀同一本小說,我們不會認為他們有相同的意見。畢竟人各有所好,這是很
自然的,也是我們完全可以預料到的。如果在一個世界裡,每一個人的好惡完
全相同,那麼沒有人願意活在這樣的世界。
• 但是,如果個人品味被誤認為專業判斷,品味差異也
可能造成錯誤。如果一個電影製片人決定以一個很不
尋常的主題拍片,只是因為他『很喜歡這個劇本』,
要是其他人都不喜歡的話,他可能就犯了重大偏見和
錯誤,這是我們希望在評價系統裡所避免和排除的,
也是希望能夠和所謂『多樣性』差異有所區分的。
意見一致的錯覺-1
Johnson CHEN 202212 19
• 還在不久前,沒有人預期或關注雜訊的數量會那麼大。然而也沒有人質疑這個雜
訊審查結果的可信度和接受度。但雜訊的問題,以及因為雜訊帶來的巨大代價,
對組織而言似乎是個新問題。雜訊就像地下室漏水一樣。我們會容忍這個問題不
是因為這是可以接受的,只是因為一直沒有注意到這個問題的存在。
• 這個錯覺的根源來自於,對大多數的人而言,我
們大抵有個深信不疑的信念,認為這個世界看起
來這樣,是因為本來就是這樣。接著,也很容易
相信:「我這樣看世界,別人應該也是這樣看。」
這種信念就是所謂的天真的現實主義,這對於我
們與其他人共享的現實感受很重要。我們極少質
疑這種信念。不管任何時候我們都對周遭的世界
抱持著簡單,天真的單一解釋,更糟糕的是我們
也覺得這樣的解釋就足夠,就是正確了的,不會
去想像其他可能。
意見一致的錯覺-2
• 以專業判斷而言,我們相信別人的看法跟我們
大抵相同,這種信念會透過多種方式強化。首
先,我們跟同事有著相同的語言,也有同樣的
思考規則,知道在做決定時何種考量是重要的。
• 經驗也告訴我們,與其他人意見一致是對的,
如果有人違反規則,就會做出荒謬的判斷。我
們偶爾會把和同事的意見分歧看作是他們的判
斷失誤。我們很少有機會注意到我們一致同意
的規則是模糊的,足以消除一些可能性,卻無
法一起積極的對某種情況做出反應。
• 我們喜歡待在與同事意見一致的舒適圈,未曾
注意到他們看到的世界其實和我們不一樣。
• 大多數的組織文化也是偏好共識與和諧,討厭
異議和衝突。即便是在檢視雜訊的相關會議和
討論裡,做法似乎是想盡量減少意見相左發生
的頻率,真的發生意見不一時,則找理由來掩
飾問題。
Johnson CHEN 202212 20
單一決策 vs 重複決策
Johnson CHEN 202212 21
• 重複的決策可以透過收集結果和雜訊審查顯露出來。例如針對類似案件但是透過
執行,專業人員,法官的互換系統或機制,於是就很容易可以被定義和測量出不
必要的和系統雜訊本身所產出來的變異。但是單一決策(沒有前例可循的場景)
就相對來說困難許多。
• 只做一次的決策,例如如歐巴馬總統對伊波拉疫情的因
應措施,是單一決策,因為這樣的決策不是個人或團體
常常必須做出的決定,沒有預先準備好的因應措施,它
們具有真正獨特的特質,也沒有真正的前例可以借鑑。
• 公司領導人常常必須做一些對他們來說似乎獨一無二的
決定:例如是否推動可能帶來巨大變革的創新計畫?在
疫情進入全球大流行階段是否關閉店面?是否在外國開
設辦事處?等等….
• 重要的政治決策往往是單一決策最好的例子,軍事指揮
官做出攸關命運的抉擇也是如此。能夠過濾掉雜訊而針
對問題核心來解決,也就成為這些決策的重點關注
單一決策的雜訊- 當作只做一次的重複決策
22
Johnson
CHEN
202212
• 單一決策的重複決策不同。重複決策的分析通常傾向利用統計學和社會科學統計
來評斷。而『高風險的單一決策』則是歷史學家和管理大師的研究範圍。
• 這兩種決策的研究方法截然不同。社會科學家也會評估很多類似決策,以辨識模
式、規律性,並衡量準確性。然而,單一決策的討論通常會採用因果關係的觀點,
而且是在事情發生之後才檢視,把焦點放在找出事情發生的原因和歷史分析。
• 單一決策的本質,為雜訊研究帶來一個重要
的問題。雖然我們定義雜訊是在判斷同一個
問題時出現不想要的變異。由於單一問題永
遠不會重複出現,因此這樣的定義並不適用
在單一決策上,
• 然而,從減少雜訊的角度來看,單一決策可
以被認為是只發生一次的重複決策。所以不
管你的決策只做一次,或是做一百次,都該
以減少偏誤和雜訊為目標。減少錯誤的做法,
對獨一無二的決策及重複決策應該同樣有效。
延伸閱讀:COVID 抗疫政策與雜訊
Johnson CHEN 202212 23
• 2020年的 COVID 新冠並對,就是一個我們對抗雜訊的單一決策社
會實驗。面對同樣的病毒,世界各國五花八門的政策多樣,讓我們
見識到不同政策如何影響傳染病的傳播和應對。在這期間,許多國
家誤判這個冠狀病毒的傳播力,以及染疫的嚴重性,導致醫療崩潰
而造成大量人民死亡。
• 即使像台灣初期防疫有成,但後來也因一些的判斷失誤而近乎封城
了幾個月。同時疫苗採購的時間和選擇上也是備受諸多批評。
• 到了疫情的第三年,病毒也歷經了多次的變異。我們也慢慢的有一
些共識一些防疫成功的必要條件。然而,時即使是到了今天不缺疫
苗的時間節點,但仍有不少人拒絕接種而染疫,重症和病死。於是
完整沒有雜音的正確訊息,便是我們人類抗疫,甚至生存所面臨的
一個重要課題。
• 判斷可以被描述為由人的頭腦作為儀器的一種測量。測量的概
念隱含追求準確的目的:盡可能接近真實數值,而且把錯誤降
到最低。
• 判斷的目的不是為了給人留下印象、不是為了表態,也不是為
了說服別人。同時,做出準確的判斷不等於擁有良好的判斷力。
判斷-Judgement
Johnson CHEN 202212 24
• 雖然準確是目標,要百分之百達成這個目標是不可能的,即
使是科學測量也做不到,更別提判斷了。有誤差是難免的,
有些誤差是偏誤,有些誤差則是雜訊。
• 特別是當人們認為自己在做判斷時,所展
現出思考的複雜性,並增添細微的考量。
但這種複雜性和微妙性往往只會弄巧成拙,
不會提高簡單模型的準確性。
誤差的測量
• 在所有類型的專業判斷中,計算整體誤差時,『偏誤』
(Bias)和『雜訊』(Noise)會扮演相同的角色。在某
些情況下,偏誤是造成誤差最主要的因素,在另外的情況
下,則是雜訊造成主要的誤差結果。
• 雜訊會產生代價很高的錯誤。如果一個經理人經常預測專
案所需時間是實際完成時間的一半,偶爾預測所需時間為
實際完成時間的兩倍,說這個經理人的「平均預測時間」
是對的,一點幫助也沒有。在研究雜訊的理論裡,我們必
須要記得,不同的錯誤會相加,不會互相抵消。
延伸閱讀 均方誤差 Mean-Square Error
Carl Fredrich Gauss,1795
均方誤差(MSE)是我們在做預測性判斷,包括
預測和估計裡,準確度(accuracy)最高(偏誤
最小)和精確度(precision)最高(雜訊最小)
下接近真正平均的數值。
Johnson CHEN 202212 27
系統雜訊分析
• 水準誤差 Level Error- i.e 不同法官判斷平均水準的差異
• 型態雜訊 Pattern Noise-i.e. 法官對特定案件反應的差異
• 隨機雜訊 Random Error i.e 場合雜訊-不相干的戰士成份
場合雜訊-不相干的暫時成分
• 測量場合雜訊並不容易。基於這個原因,只要
案例讓人印象深刻,場合雜訊就很難直接測量
出來。
• 就像是一位醫師在不同日子(天氣、心情)對
於同一個診療案件的診斷不同。或者是某一位
法官他支持的球隊昨天獲勝了,所以今天的判
刑變得比較寬容。這種雜訊會隨著時間和場合
改變。
• 例如你給一位核保人員或刑事法官看他們承辦
過的案件,他們也許會記得那個案件,然後做
出相同的判斷。曾經有研究檢視專業判斷的變
異(技術上稱為再測信度〔test-retest
reliability〕,或簡稱信度〔reliability〕),
要求專家(或法官)在同一個期間針對同一件
事進行兩次判斷。結果並不令人意外,他們往
往會同意自己的意見。所以很難從相同的測信
度和稱信度來判定雜訊。 Johnson CHEN 202212 28
場合雜訊的來源
• 情緒
• 道德束縛
• 潛意識
• 天氣
• 排列順序
• ………
Johnson CHEN 202212 29
「判斷就像罰球:無論我們多麼想精準
呈現這個動作,沒有兩次罰球是完全相
同的。」
Johnson CHEN 202212 30
我們認知的限制和預防捷思謬誤
• 我們必須要理解人類大腦在認知上的
限制並預防我們捷思陷阱的基因:
• 相關性不代表因果關係,但我們可以從
因果關係找到相關性。
• 大多數正常事件不在我們意料之中,也
不會令人驚訝,也不需要解釋。
• 人們有對自己預測有過度的自信的傾向。
然而事實是,儘管我們自認為了解這裡
發生的事情,但我們同時卻不能夠能預
測到事情的發生,直到事情發生以後。
延伸閱讀:一群人在一起,會變笨還是變聰明?
Johnson CHEN 202212
31
• 1950年代,哈佛心理學家艾許(Solomon Asch)研究證明,人常常會採用多數人的看法,
就算顯然是錯的、違背自己的直覺時依舊如此。同一時期的美國加州大學學者圖登罕(Read
Tuddenham)也發現,如果學生認為大家都選擇了某個答案,就會選擇同一個答案,就算
這個答案非常離譜也一樣。這個發現與我們所謂的「群眾的智慧」(wisdom of crowds)
指透過積聚大量人群的智慧,提供比獨自一人更正確的預測或答案的傳統思維截然不同
Johnson CHEN 202212 32
• 『群眾的智慧』(The Wisdom of The Crowd) 是說,
只要集合群體的資訊,做出的決策常常會比個別成員
做出的決定要好。
• 然而事實是,「從眾的智慧」門檻很高,往往要在群
體成員要都要能夠『獨立』做出判斷時才會發生,而
且在群眾具有多樣性時,效果也最好。
• 另一方面,在共享單一認同的一致性群體中,團結一
致的重要性高過一切。我們反而會有不理性的決定的
傾向。
• 現在很多人開始用這個理論反思我們現代社會對於社
群網路和軟件的依賴,因而產生的群體極化(Group
Polarization)。「我們認為網路是資訊的超高速公路,
其實不是,那是條偏見的超高速公路。推特和臉書很
適合分享資訊,但如果我們分享的是偏見,社群網站
可能會讓我們變笨。」
O92
Johnson CHEN 202212 33
降低雜訊的方法:決策保健程序
「以總體誤差而言,雜訊和偏誤是互相獨立的。
不管偏誤有多少,減少雜訊的好處都是一樣的。」
-Daniel Kahneman
降低雜訊的方法-1
Johnson CHEN 202212 34
1. 判斷的目標是準確,而非個人特質的表現
• 為了避免穩定型態雜訊,讓不同的專業人士對同一件事情有相近的判斷,我們
可以把要判斷的程度先定義清楚,而不是給一張空白畫布讓人隨意發揮。最激
進的做法是利用電腦演算法,以規則來代替判斷
2. 要有統計思維,用外部觀點來看待案件
• 把我們要判斷的事情,當成是一群類似案件裡面的其中一個案件,而非每次都
把案件當作全新的事件。當我們引入外部的數值,例如,評估一個執行長的留
任期間長短,就要先看業界平均期間是多少,再對目前的判斷做出調整。
3. 將判斷結構化,拆解成幾個部分
• 因為當不同的人看到不同的條件,都會在心裡編織起自己的故事。就像是不同
的面試官可能會給同一個面試者截然不同的評價。這個方式可以打破人們過度
追求連貫性的心理機制,在過程中針對各個獨立的特質進行評分,而不是等到
一連串的評估結束後才一口氣評分做判斷。
降低雜訊的方法-2
Johnson CHEN 202212 35
4. 抗拒太早出現的直覺的誘惑
• 如果我們在第一時間就用直覺來判斷事情,那麼後續我們找的資料跟佐證,很可
能都只是為了證明我們自己的觀點,落入了對自己過度自信的幻覺。好的做法是
延續上一步,把各自獨立的評估都進行完成之後,然後才使用直覺進行最終判斷。
5. 從多位判斷者取得獨立判斷,然後考慮將這些判斷總合起來
• 作者們透過許多實驗說明,將獨立的判斷加以平均,可以保證系統雜訊減少。因
為不同的判斷者各自的技能和觀點會互補,增加資料的樣本數可以提高準確性,
例如 Google 在招募人才就會參考四位面試者的判斷。
6. 偏向相對判斷,相對尺度和應用基準比較(Benchmark)
• 人類在絕對值上面的判斷,都有各自截然不同的解讀。例如我們要替一個團隊打
績效,不同的主管給每個員工的絕對分數,差異一定很大。但如果改成用排序的
方式,不同的主管給出的排序反而都非常相近。採取案例量表來做判斷,會比給
絕對分數來得好。
36
課題與啟發:降低影響公平的雜訊
• 當 政府或組織過於依賴所謂『平均值』和『統
計數字』制定某一個社會政策,結果造成極端的
影響,這就就代表了某個人因為有可能被不同的
雜訊所被「不公平對待」了。而這種不公平對待,
該檢討的不是個人,而是個人所身處的「系統」。
• 政策數字上的『偏誤』(Bias) 是一個人對件事常
有的各種偏見,犯錯是在個人,在民主社會裡或
許還有些救濟機制。而雜訊 (Noise) 卻是錯在系
統,系統沒有調控機制,導致一群專家,會針對
同一件事,做出截然不同的判斷。而這個影響卻
是深遠而實際衝擊到人民的生活的很多層面。
• 我們只有正視雜訊的存在,致力於改善系統,才
能朝向一個決策更正確、更公平、更健康的社會。
Johnson CHEN 202212 37
延伸閱讀: 假設檢定的型一錯誤 vs 型二錯誤
Hypothesis Testing Type I and Type II Error
Johnson
CHEN
202212
• 型一錯誤(Type I Error)
• 倘若虛無假說事實上成立,但計算出來的檢定統計量落在拒絕區域,使其拒絕虛無假設,該種錯
誤即為型一錯誤。其發生的機率以 α 表示,或稱顯著水準 (significant level)。
• 時常被提起的例子就是法官的判決。如果犯人無罪,卻判決有罪,就是典型的型一錯誤。
• 型二錯誤 (Type II Error)
• 倘若虛無假設事實上不成立,但計算出來的的檢定統計量沒有落在拒絕區域,也就是落在接受區
域,使其不拒絕虛無假設。其發生的機率以 β 表示。另外,統計上常稱 1−β 為檢定力 (Power) 。
38
• 『假設檢定』是一個常用在估
計母體參數的統計和預測手法。
• 根據檢定統計量(Test
Statistics) 是否落在拒絕區域,
來判斷是否應該拒絕某一個設
定的虛無假設(null
hypothesis),而反推我們對
於母體的一些判斷。
• 但是這個判斷可能會有兩種的
錯誤我們需要理解和更深入的
檢驗的:

雜訊 THE NOISE.pdf