【編譯】日常生活的算法審計:理解用戶對算法傷害性的揭露

作者:

HongShen, Alicia DeVos, Motahhare Eslami and Kenneth Holstein(美國卡內基梅隆大學)

編譯:朱泓宇

編校:王沛楠

原文載於Proc. ACM Hum.- Comput.Interact,2021年10月刊

Everyday Algorithm Auditing: Understanding the Powerof Everyday Users in Surfacing Harmful Algorithmic Behaviors

算法系統對人們日常生活的多個方面形成了強有力的滲透和控制,但這一系統卻是不可靠的。大量研究揭示出算法系統的社會負面影響,它加強了既有的偏見、歧視和社會不平等狀況並帶來了新的問題。在此基礎上,針對算法系統正式的審計開始出現。

正式算法審計的現有路徑主要來自計算機支持的協同工作(CSCW)、人機交互(HCI)和機器學習(ML)等領域,同時亦受到傳統審計研究的影響。然而,這些路徑對於揭露算法要害問題的解釋力有限。正式算法審計者有較高的專業技術門檻要求。一旦算法系統在其他社會領域運用,原有的專業審計工作可能將不再適用。此外,很多有害的算法行爲在人工設定的環境中難以被察覺。辨別一些有害算法行爲需要日常生活使用環境和社會文化背景的共同輔助。

用戶在與算法系統“遭遇”時會有所警覺,可以發現算法運行的偏見和有害行爲。因此,文章提出“日常生活的算法審計”的概念,用以理解用戶與算法系統的日常互動,他們如何檢測、理解和質詢有問題的機器行爲。不同領域日常生活的算法審計可見表1。這些日常生活的算法審計是自下而上由用戶驅動的。這一概念的範圍與邊界(或言維度)包括三點,分別是:算法審計的專業知識、集合性以及整個過程的有機性。專業知識因人而異,同時也是多面向的。區別於現有路徑的“衆包/合作式審計”(crowdsourced/collaborative audits),即一種經過精心組織和籌劃的審計(比如將研究者、技術專家和政策制定者等組織在內),日常生活算法審計的集合性(collectiveness)更多是自發的且專業性不突出。而有機性則意味着日常生活算法審計圍繞用戶展開,儘管有時存在外部力量的介入和干預。

表1不同領域日常生活的算法審計(粗體爲本文的案例研究)

領域

案例

描述

搜索

谷歌圖片搜索

研究者發現在谷歌搜索“黑人女孩”出現了色情作品

點評/評價

Yelp廣告偏見

小企業主發現因其不使用Yelp廣告服務而不被推薦

Booking.com品質偏見

用戶發現算法估算分數與其期望分數不匹配

圖片裁剪

推特圖片的裁剪(種族)

研究者發現合照中的黑人不被識別而遭遇裁剪

推特圖片的裁剪(性別)

研究者發現合照中的女性不被識別而遭遇裁剪

圖片描述

ImageNet輪賭盤

用戶對圖片進行了自主選擇而非技術專家的預設

圖片識別

谷歌相冊

用戶發現圖片中黑人被識別爲猩猩

谷歌在線廣告的投放

研究者發現名字與逮捕記錄有關爾後進行廣告審計

推薦系統

優兔LGBTQ+去貨幣化

用戶發現優兔對LGBTQ+內容進行了去貨幣化處理

谷歌地圖

用戶發現搜索“N”會被算法引向某黑人機構等

TikTok算法

用戶發現“For You Page”屏蔽了LGBTQ+等內容

翻譯

谷歌翻譯的服務質量

用戶發現在黎巴嫩等國波斯語和英語間有錯誤翻譯

谷歌翻譯的性別偏見

用戶發現谷歌將中性語言的某些性別和職業相聯繫

信用卡

蘋果信用卡

用戶與妻子對比後發現其信用額度與其積分不對應

臉部識別

性別與膚色

研究者發現一些膚色和性別不被AI軟件所識別

日常生活算法審計是一種對日常生活算法的“抵抗”,用戶們持續地對算法的邊界進行檢測。在抵抗算法的危害並進行日常審計時,普通用戶形成了一種“反向公共性”(counterpublics)的“平行話語場”(parallel discursive arenas),即受到算法侵害的團體會形成有共同意志的集合,一起驗證並抵禦算法偏見。

爲了更好地理解日常生活算法審計的特徵、動態和發展,以及支持日常生活算法審計更好地被應用於用戶與算法系統的互動之中,文章進行了探索性的案例研究(如表1)。在此基礎上,文章進行案例選擇,其標準包括是否滿足日常生活算法審計的三點標準、是否能提供足夠的數據資源等。最終,選定了“推特圖片裁剪算法”和“點評類平臺算法”進行具體分析。

四個案例在“日常生活的算法審計”概念三維度上的體現可見表2。例如推特圖片裁剪的例子,首先暴露了其種族歧視的問題,用戶們發現了這一問題並自發而有機地聚集起來,通過發推和轉發等形式進行算法審計調查。其次,在推特性別偏見的案例中,用戶卻幾乎是個人行動的。至於點評類平臺的算法,推薦排序對於商家的影響非常大,但是這一排序機制卻時常缺乏透明度,例如Yelp會把小企業主的一些積極評價通過“過濾算法”隱藏起來,原因竟是這些企業主沒有使用Yelp的廣告服務。作爲“反抗”,這些企業主會在平臺論壇上討論這一算法偏見並在隨後付諸法律行動。最後是Booking.com的品質偏見,用戶們對酒店的評價分數與算法估算給出的分數存在差異,然而相較於Yelp的廣告偏見算法審計,Booking.com上的算法審計行動幾乎都是個人化的。

表2四個案例在“日常生活的算法審計”概念三維度上的體現

(深色代表在某一維度體現出了較高水平,淺色代表較低水平)

案例

算法專業知識

集合性

有機性

推特種族偏見

許多用戶有專業知識

用戶集合討論並測試

審計幾乎完全自發

推特性別偏見

一些用戶爲有專業知識的計算機科學研究者

用戶幾乎都是個人行動

審計完全自發而有機

Yelp廣告偏見

用戶未具備專業知識

用戶在平臺論壇上討論

審計幾乎完全自發儘管訴訟是有組織的

Booking.com品質偏見

用戶未具備專業知識

用戶幾乎都是個人行動而平臺缺乏討論機制

審計完全自發而有機

從歷時和動態過程角度來審視日常生活算法,可歸納爲以下幾個部分:(1)發起審計;(2)有意識地關注算法系統的問題;(3)對算法行爲進行假設,並在理想情景下測試算法系統;(4)調適算法,比如通過媒體宣傳引起更多的關注、進行法律訴訟或是直接與平臺方進行交涉。需要說明的是,這幾部分並非完全線性進行。文章指出,普通用戶有權力對算法弊病進行揭露;並且在其結成有共同意志的羣體時,這種對算法進行反向審計的權力是最大的。

如何支持日常生活算法審計更好地被應用於用戶與算法系統的互動之中,其可行的路徑包括:形成更好的算法審計社區,特別是利用好存在於平臺生態內部的討論空間;與有專業知識的技術專家/算法開發者等形成合力;在“比較”的視野下,對比並依靠其他算法的協助完成審計工作;對審計工作進行“組織化”和分工;設計一些針對普通審計者和平臺開發者的懸賞和獎勵機制等。

日常生活的算法審計影響了普通用戶的平臺生活,爲其“賦權”,形成一種反向公共性的行動嘗試。然而,對於日常算法審計而言,其介入與干預是否適當且適時非常重要,即算法審計何時介入以及何時停止、介入的程度如何等問題亦需要在後續研究中進一步展開探討。

原文請見:HongShen, Alicia DeVos, Motahhare Eslami, and Kenneth Holstein. 2021. EverydayAlgorithm Auditing: Understanding the Power of Everyday Users in SurfacingHarmful Algorithmic Behaviors. Proc. ACM Hum.- Comput. Interact.5, CSCW2, Article 433 (October 2021), 29 pages.https://doi.org/10.1145/3479577.