☰

UC伯克利：給大模型測MBTI，Llama更敢說但GPT-4像理工男

新智元報道

編輯：peter東喬楊

【新智元導讀】如果給LLM做MBTI，會得到什麼結果？UC伯克利的最新研究就發現，不同模型真的有自己獨特的性格

如果你經常在不同大模型之間來回切換，或許會發現不同模型的回覆語氣有細微差異，如同有不同的性格。

那麼，LLM究竟有沒有「性格」這種維度的特徵？最近加州大學伯克利分校發表的新研究VibeCheck就證實了這種推測。

論文地址： https://arxiv.org/abs/2410.12851

評價LLM，不止於準確度

如何更全面地評價大模型在撰寫故事、解釋概念或編輯文章上的表現？當前的基準測試大多隻關心正確性，然而當我們評論一個人類寫作者的時候，關注的維度就會擴展到創造力、寫作風格等衆多維度。

對於那些經常使用不同模型的用戶，他們早已熟悉不同模型回覆時表達方式上的差異，比如下面這張圖中，ChatGLM的文字顯得非常全面且嚴謹，透着濃濃的學術風。

但對於同一個問題，kimi的回覆會包含更多具體的例子，但解釋的語言更爲簡潔。

瞭解這些差異，對於那些使用基座大模型進行下游應用的開發者，會有所幫助。

例如，若我們發現Llama的回覆更加友好，那麼說明Llama更適合進行客服類任務，而回復更爲正式的Claude則更適合編程類任務。

然而該如何系統性地瞭解這些差異？自然是「用魔法戰勝魔法」，也就是用大模型來評價不同大模型的表現，而這正是VibeCheck在做的事。

下圖展示了VibeCheck的核心模塊，包括給出提示詞、不同大模型做出回覆，以及定性評價三部分。

VibeCheck的核心模塊

給出了一組約200個的提示詞後，研究者收集了不同大模型及人類的回覆，並招募了200名人類評審員，兩兩比較這些回覆並對「友好性」進行打分後計算平均分。

此外，人類評審員還會對大模型和人類回覆的細微差異進行描述，例如，他們發現：

大模型的回答通常很正式，而人類的回答則更口語化

大模型提供客觀答案，人類使用主觀表達

大模型拒絕回答其知識範圍之外的問題

除了人類評審員，VibeCheck還調用了GPT-4o mini來評價不同大模型的回覆，結果發現與人類的評估結果相符。也就是說，GPT-4o mini也能發現上述人類評審員總結的細微差異。

下面是VibeCheck考察的10個評估維度，包括

自信：使用試探性或不確定的語言。

細節程度：提供簡短或包含細節的回答。

正式性：隨意、對話式的非正式語言，或複雜，學術性的語言

情感基調：保持中立或超然，或者在迴應中表達熱情或同理心

創意：堅持標準、可預測的答案，或提供具有新穎想法或想象性場景的迴應

明示性：使用模糊、隱晦的語言，或直接且明確地陳述事物

幽默詼諧：以直接嚴肅的方式迴應，或使用幽默、俏皮語言、文字遊戲

參與程度：被動呈現信息，或通過修辭疑問、互動性語句主動吸引讀者

邏輯嚴謹：提供結論而缺乏充分論證，或構建有充分支持的論點，推理清晰

簡潔性：使用冗長的語言和過多的細節，或使用最少的詞彙清晰表達觀點

有了VibeCheck，你可以給出自己定義的問題以及不同大模型的回覆，之後由代碼自動生成多維度的評估，具體可參考論文附帶的GitHub倉庫。

倉庫地址：https://github.com/SutekhVRC/VibeCheck

主流LLM的細微差異

接下來看看三種主流大模型：Llama-3-70B、GPT-4和Claude3-Opus之間的對比。

在使用衆包及遊戲排位賽的大模型評價平臺Chatbot Arena上，Llama3的表現被認爲優於GPT-4及Claude3。但經由VibeCheck的評估可發現，其中另有玄機。

結果發現，Llama3更願意參與敏感或暴力話題，對倫理的重視較少，回覆更加具有對話性（例如使用更多的你，我這樣人稱代詞）和幽默感，而這些正是Chatbot Arena的用戶所關注的特徵.正因爲人機偏好對齊做得好，Llama3才能獲得這樣的好評。

接下來，VibeCheck還考察了文本摘要生成、數學及描述圖片這三個具體應用中不同大模型的差異，並根據這些差異解釋了爲何用戶對不同大模型存在偏好。

例如，Command X和TNLG是兩個用於文本摘要/總結生成的大模型，然而經過VibeCheck的拆解，可發現：

1）Command X通常明確陳述引言和結論，TNLG則使用斷斷續續的句子

2）Command X能提供具體例子或軼事來說明觀點

3）Command X能夠捕捉到一個故事的多重視角和情感方面，TNLG則更客觀

這些特徵決定了，相比TNLG，人類評審員會更加偏好Command X。與此同時，VibeCheck能夠分別以71.29%的和61.42%的準確率預測模型在前述10個維度的PK結果和人類評審員的評價。

而在數學問題上，Llama-405B的回覆相比GPT-4o更加詳細，對解題步驟的講解鉅細靡遺，而GPT-4偏向於使用如Latex這樣的正式符號。

然而，在數學相關問題上，用戶偏向於使用正式的語氣並頻繁使用符號，對大模型思維過程的過度解釋與人類偏好呈負相關。

VibeCheck能夠以97.09%的準確率預測模型在上述10個維度上的對決結果，並以72.79%的準確率預測用戶偏好。

在描述圖像的任務中，研究發現GPT-4V更多使用詩意的語言，並將標題結構爲一個動態故事，推斷圖像中主體的個性和情感，而Gemini則堅持更直白的描述。

VibeCheck能夠實現接近完美的99.13%模型匹配準確率（相比人類給出的評價）和89.02%偏好預測準確率

結論

隨着大模型的應用範圍越來越廣，距離我們的日常生活越來越近，我們會不自覺地將大模型擬人化，而人是會具有個性的。

雖然VibeCheck更多關注文字相關的任務，但未來可以使用類似的框架，去評價不同的文生圖及文生視頻模型，考察這些模型的產出是否也存在微妙的「個性」差異。

搞清楚這些差異，就相當於開發了一條全新的藍海賽道，讓當下純粹卷模型準確性的大模型廠商有了差異化競爭的可能，從而讓各種性格的大模型得以百花齊放。

而基於大模型開發具體應用的開發者，也可以關注不同大模型在語氣、氛圍上的細微差異，選擇合適自己應用場景的大模型，或者通過微調，讓大模型在某項指標上有所改進。

例如可以根據VibeCheck的評價結果改進得到更幽默的大模型，而不必招募人類評審員。

更關鍵的是，通過VibeCheck具體的拆解，我們可發現，用戶對不同任務的偏好存在差異。

例如在回答人文類的問題時，更具有對話感、語氣更友好的大模型受歡迎；而在解答數學問題時，回答簡潔且語氣正式的大模型用戶評價更高。

這樣細緻的拆解，能夠讓我們更好地進行人機偏好對齊，從而讓大模型能更貼心地爲人類服務。

參考資料：

https://arxiv.org/abs/2410.12851

UC伯克利：給大模型測MBTI，Llama更敢說但GPT-4像理工男

相關資訊