來自另一側的證言：詞頻分析和文學

8 min readApr 17, 2021

最近在podcast帝國大學台灣文學部談袁哲生的一集當中，聽到關於憂鬱詞彙的討論。劉亦（台文小S）講到曾讀過一篇關於憂鬱症患者的網路文章，提及「憂鬱症患者較常使用我這個代名詞」，也談到自己狀態不好時，部落格文字雲中「我」會佔較大比例。這個議題橫跨文本分析、詞彙研究、心理學多門學問，引起了我的興趣。

之前在臉書同溫層看過Mplus刊載的 “困在「我」裡面：憂鬱症患者的詞彙研究”，推測劉亦看到的可能是這篇。該文大部分內容翻譯改寫自刊登在the conversation上的 “People with depression use language differently — here’s how to spot it”（後面簡稱People with depression），the conversation是個蠻成功的科普平台，由學者或研究人員把論文寫成大眾能理解的文章，在網路上分享科學研究動向。該篇作者是英國雷丁大學的心理學博士。Mplus這篇許多瑕疵，例如混淆憂鬱和憂鬱症。因此直接就所引用的論文來做後續討論。我也因此發現Mplus不少直譯國外文章的農場文，卻總翻譯得不太恰當。

代詞「我」和憂鬱，到底有沒有關係？

People with depression的論點主要來自於兩篇論文，並夾雜了其他研究的結果。這兩篇分別是2010年刊Cognition and Emotion的 “Language use of depressed and depression-vulnerable college students”，以及2018年刊在Clinical Psychological Science的“ In an Absolute State: Elevated Use of Absolutist Words Is a Marker Specific to Anxiety, Depression, and Suicidal Ideation”。

第一篇，也就是Mplus該文主要論點的來源，研究的對象是大學生，分別收了31名最近憂鬱的學生、26名之前有過憂鬱的學生、67名從來沒憂鬱的學生。其中對象大部分以女性為主，有需要小心的取樣誤差。採用貝克憂鬱量表（Beck Depression Inventory）評估最近的憂鬱程度，Inventory to Diagnose Depression-Lifetime評估過去憂鬱程度。因此也並非正式的憂鬱症診斷。

這些研究參與者被要求在 20分鐘內，寫下三段他們對上大學的想法和感受，作為語文分析（Linguistic analysis）的材料。研究者對這些材料做了組間（最近憂鬱、之前憂鬱、沒有憂鬱）的兩兩比較，以及段落間（三段）的比較。只有之間憂鬱和沒有憂鬱兩組間使用第一人稱單數代詞的頻率有統計顯著，最近憂鬱和沒有憂鬱兩組間則沒有統計顯著。這樣的結論和Mplus該文所說明顯不符。

關於第一人稱代詞和憂鬱的關係，2017有一篇統合分析做了回顧，收納了21篇使用語文探索與字詞計算(LIWC) 做研究的論文，共3758個樣本數，在使用fixed effects analysis分析後，發現第一人稱單數代詞和憂鬱之間，具有小的關聯性 (r = 0.13, 95% CI = [0.10–0.16]) ，並且不受性別等因素影響。

絕對的詞彙和憂鬱的關係

第二篇的“ In an Absolute State: Elevated Use of Absolutist Words Is a Marker Specific to Anxiety, Depression, and Suicidal Ideation” 的成果讓我們對憂鬱語文的特性，有了更多了解，作者就是雷丁大學這位大大，不知道在謙虛什麼在converstion上的文章反而比較少提及自己的研究。

畢竟是比較晚近的研究，在方法上有更多優勢，這個研究透過google serach和google rank，搜集了63個網路論壇，涵蓋6400使用者，每個論壇至少收10,000字，每篇至少100字。不過這個研究的分類可能並沒有辦法說服每個人，來自焦慮論壇的使用者，就直接被分在焦慮這組。憂鬱、自殺意念的分組也是這樣來的，直接把論壇分類視為使用者的分類。

絕對詞彙（Absolutist words）和非絕對詞彙（nonabsolutist）的分類依據，是根據量度（magnitudes）或機率（probabilities）。絕對詞彙像always, totally, entire，語意上較無細微差異或不確定， rather, somewhat, likely則被視為非絕對詞彙。絕對詞彙和非絕對詞彙的字典來源，大多是加強副詞（adverbial intensifiers）或情態動詞（modal verbs）。值得注意的是，研究者還分出了極端詞彙（extreme words）這個次分類，這個次分類表示極端的程度但非絕對，被歸類在非絕對詞彙大組中，像是很常用的 “very”。

這篇研究建構這些分類字典的方式頗人工，由研究團隊自己發想300個以上的絕對詞彙和 200個以上的非絕對詞彙，然後在先導資料（pilot data）中測試，刪去不常使用的詞彙，剩下22個絕對詞彙和43個非絕對詞彙。再將這65個詞彙混在一起，由5位獨立的專家來替這些詞彙分類，驗證這樣的分類是否可靠，專家包含2位心理學家、3位語言學家。最後研究團隊留下19個絕對詞彙。

這篇研究也有拿第一人稱單數代詞來做分析，結果顯示，絕對詞彙比起第一人稱單數代詞有更大的效力。儘管因為統計方法有瑕疵，後續又發了一篇更正，但並沒有影響這樣的結論。

台灣文學研究的可能

隨著LIWC技術不斷演進，以及更多工具（像Google Ngram Viewer）更容易取得，再加上社群軟體的普及，立基在文本分析的文學研究，有許多空間可以研究探索。

在 “Counting Little Words in Big Data”這篇評論文章中，整理了西方學界的成果，並賦予更多文化上的詮釋。在這裡，對於第一人稱單數代詞的看法和前面提到的憂鬱有很大的不同。作者將第一人稱單數代詞 “I” 詮釋為代表個人主義，第一人稱複數 “we” 代表集體主義，在1980-2007的美國流行歌詞詞頻分析中，個人主義的 “I” 有增加的趨勢。而在9/11事件發生的一個月後，部落格上的“we”頻率顯著增加，“I” 顯著下降。

陳培豐在《歌唱台灣》一書中，對於港歌詮釋其實也是建立在直覺式的詞頻分析。雖然沒有實際下去跑詞頻分析，不過陳培豐用他敏銳的觀察來論證「港」意象的重要。這樣的觀察和大多數台語歌聽眾的記憶吻合，因此具有說服力。不過，這也衍伸了其他可以探索，港歌在什麼時間達到高峰？解嚴後是否下降？台語歌是否還有其他詞頻特色（例如月亮、哀悲）？

針對歌唱台灣，活水來冊房也提出了有趣的疑問。他認為既然台語歌有這麼多「港口」意象，那為什麼華語歌曲似乎沒有這麼多港口意象？這代表外省人沒有想逃離的情緒嗎？答案顯然並非如此。所以，造成這之間差異的會是什麼？

回到袁哲生，他最廣為人知的小說多以少男的視角出發，描繪出稚嫩男性眼中的寂寞世界。但「我」的使用代表什麼？或許有更多詮釋的可能。另外，試想如果以華文文學作品做詞頻分析的話，散文中的「我」數量應該是暴增的，但背後的意義或許並非憂鬱。

來自論文〈Affective and Content Analysis of Online Depression Communities〉

研究給創作者和讀者的訊息

關於憂鬱的言說方式，還有許多有趣的研究，例如用機器學習來分別憂鬱者和控制組的網路訊息，在寫作風格和內容都有很大不同。記憶的反芻（rumination）、情緒詞等，是一些憂鬱者語文寫作的已知特色。（並非憂鬱症患者）

做一個讀者，當在文學文本中發掘這些特色時，我在心中會開始產生警覺。並不是說要拿這些詞語特色來診斷作者，而是會思考「敘事者」和「讀者我」的距離，提醒自己在看的是來自另一側的證言，或者在模仿另一側的說話方式。或許每個人曾經或多或少涉足另一側，但對於敘事者的懷疑，我是會隨時保持的。

雖然並沒有真的做詞頻分析，我們或許能從《蒙馬特遺書》讀出絕對語彙的頻繁使用。尤其是最著名的幾段：

“找到一個人，然後對他絕對”
“遠離，不是放棄你，只是無法再接受你以我不願意、不適合的方式來對待我。不願意待在一個一點都不美麗，一點都不符合我本性的關係裏。”
“世界總是沒有錯的，錯的是心靈的脆弱性。我們不能免除於世界的傷害，於是我們就要長期生着靈魂的病。”
“我不喜歡這個世界上有這麼多傷害，當世界上還是要繼續有那麼多傷害，我也不要活在其中。”

過去我在讀邱妙津時，往往會感到難以負荷，卻又被捲入其中。在小說的世界，這樣的立論在「我」當中不證自成，凝結痛苦的文本展示了另一側的世界，但請別把這樣的語句當作格言了。

做為小說寫作者，起手寫小說會先碰上的問題是代名詞的揀選。在這裡分享「搜尋並取代」這個好工具，可以把所有人稱詞替換為「我」或「他」，來檢視對小說造成的效果。我時常在創作的前幾百字這樣反覆測試，找到最喜歡的人稱之後，再繼續寫下去。

來自另一側的證言：詞頻分析和文學

代詞「我」和憂鬱，到底有沒有關係？

絕對的詞彙和憂鬱的關係

台灣文學研究的可能

研究給創作者和讀者的訊息

Written by 洪明道

No responses yet