Claude 3爲何能媲美GPT-4?

出品丨本站科技《態度》

作者丨趙芙瑤

編輯丨丁廣勝

GPT-4勁敵來了?“殺手鐗”總是來的靜悄悄,Anthropic 默默發佈了Claude3,在業界引起了一次“大地震”。

Claude 3爲何能媲美GPT-4?

Anthropic聲稱,此次發佈的模型在一系列認知任務中設定了新的行業基準,甚至在某些情況下達到了“接近人類”水平。如果是其它模型這樣“自吹自擂”,怕是早就被噴的體無完膚了,但是Anthropic的創始團隊來源於OpenAI,2021年因觀念不和才退出公司並自立門戶,可以說是OpenAI的最強對手之一了,實力不容小覷。

Anthropic 這次一口氣發佈了三個人工智能語言模型,這三個模型的複雜性和參數數量排序依次爲:Claude 3 Haiku,Claude 3 Sonnet和Claude 3 Opus。

其中Haiku響應速度快、成本最低,包含多模態能力;Sonnet的成本和性能較爲平衡,適合有預算使用AI,但預算不多的羣體。Opus擁有接近人類的理解能力,適用於需要高度智能和複雜任務處理的場景,想要使用Opus的話需要訂閱“Claude Pro”服務,每月收費20美元。

Claude的三個模型都具有20萬標記上下文窗口,而GPT-4 Turbo的上下文窗口爲12.8萬,也就是說,Claude一次性能處理的文本量是遠遠高於GPT的,同時,它也提供API給開發者使用。

我們再來看看Claude官網透露的最新價格。其中MTok表示百萬Token,Opus每100萬條token收費15美元,相比之下,GPT-4 Turbo模型的每百萬token的收費僅爲10美元。不過,Haiku的價格低於GPT3.5,可以說使用Claude的話,豐儉由人了。

依靠合成數據 安全性強於GPT?

2023年3月,Claude問世,7月Claude 2發佈,但是彼時並未引起太大的水花。因爲每次,Anthropic在性能方面都略微落後於OpenAI的最佳模型,但在上下文窗口長度方面超過OpenAI。隨着Claude 3的發佈,Anthropic的性能或許可以與OpenAI一較高下了。

根據Anthropic的說法,Claude 3 Opus在10個AI基準測試中超過了GPT-4,包括MMLU(本科水平知識)、GSM8K(小學數學)、HumanEval(編碼)以及名爲HellaSwag(常識)的基準測試。其中一些測試只是“險勝”,例如在MMLU的五次試驗中,Opus以86.8%戰勝了GPT-4的86.4%,而有些測試則是“贏很大”,例如在HumanEval上,Opus的90.7%超過了GPT-4的67.0%。但這到底對用戶來說意味着什麼,還很難界定。

“一如既往,應該對LLM基準持一些懷疑態度。”AI研究員Simon Willison公開評價道。“模型在基準測試中的表現並不能告訴你模型在使用中‘感覺’如何。但這仍然是一件大事—沒有其他模型在一系列廣泛使用的基準測試中擊敗GPT-4。”

與其前身相比,Claude 3模型還具有增強的視覺能力,使其能夠處理照片、圖表和圖解等視覺格式,類似於ChatGPT的DALLE-3和Google的Gemini。

除此之外,Anthropic在Claude 3通過在訓練過程中使用合成數據實現其能力提升,也就是說,Claude 3的原創能力沒有那麼強。

據外媒實測,Opus在能力上類似於ChatGPT-4,它不能編寫原創的笑話(所有笑話似乎都來自網絡),在總結信息和以各種風格撰寫文本方面表現得相當不錯,對於邏輯分析單詞問題也表現得相當好,而且幻覺似乎確實相對較低(但在詢問一些更爲晦澀的話題時,還是看到了一些錯誤的回答)。

Anthropic在安全性方面可以說做足了功課,也正是因爲重視AI安全,Anthropic當年才與OpenAI分家。Anthropic表示將確保安全措施與AI性能的進步保持同步,並且Claude 3模型“目前幾乎沒有潛在的災難風險”。Anthropic也一直在進行紅隊測試,並且制定了一套框架,用於評估和減輕 AI 模型可能帶來的潛在風險,路線比GPT更保守。

支持圖像輸入 努力避免人工智能偏見

Anthropic此次推出的三個模型都支持圖像輸入,這是一項需求量很大的功能,特別是對於圖像中的文本識別等應用。許多企業需要從圖像、文檔、圖表和圖表中提取信息的用例,Claude 3可以來幫忙了。

“許多客戶的數據要麼是高度非結構化的,要麼是某種視覺格式的,僅僅必須手動複製這些信息才能使其與生成式人工智能工具交互的過程就相當麻煩了。”Anthropic 總裁兼聯合創始人 Daniela 道出瞭如今用戶的痛點。

此前,人們發現谷歌的Gemini在生成圖像時存在一些BUG。例如,用戶讓Gemini生成過歧視性照片。谷歌的迴應是禁用 Gemini 的圖像生成功能並發表道歉,稱正在努力進行改善。但是有專家表示,這種情況說明了人工智能偏見依然存在。

導致人工智能存在偏見的原因很簡單,主要是因爲訓練數據偏見、算法偏見、特徵選擇偏見和標籤偏見,也有可能是因爲數據缺乏多樣性。

Daniela也承認,用目前的方法可能無法實現完全無偏見的人工智能:“我認爲,創建一個完全中立的生成式人工智能工具幾乎是不可能的,不僅在技術上,而且還因爲並不是每個人都同意什麼是中立。”

那麼Anthropic如何減少人工智能偏見帶來的影響呢? 其戰略的一部分是“憲法人工智能”,也就是說模型經過調整以遵循“憲法”中定義的原則。2023年4月,Anthropic開源憲法人工智能(Constitutional AI)引起了大範圍討論,Anthropic一直都在爭做“遵紀守法”的AI。

微軟攜手OpenAI Anthropic“背靠”亞馬遜?

背靠大樹好乘涼,Anthropic也深諳此理,Claude 3發佈後,亞馬遜也透露了更多和Anthropic合作的細節。

亞馬遜AWS宣佈,Anthropic的Claude 3系列最先進模型將在Amazon Bedrock上提供,增強了各種規模的客戶快速測試、構建和部署生成人工智能(AI)應用程序的能力。Claude 3模型具有高級視覺能力,能夠處理各種數據格式,分析圖像數據,滿足客戶對更好理解圖表、圖表、技術圖解、照片等視覺資產的需求。

Amazon Bedrock的客戶,包括ADP、Intuit、Pfizer等,已經在構建生成AI應用程序方面使用Anthropic的Claude技術,並將在未來幾周內獲得Claude 3模型。Anthropic的Claude 3模型擴展了Amazon Bedrock的生成AI模型範圍,提供了更多的模型選擇。

Amazon Bedrock的客戶也已經在使用Claude構建生成AI應用程序,包括從體育到旅行再到生命科學等各個行業的組織。這些組織使用Claude模型自動化任務、創建新的用戶界面應用程序。

Anthropic還表示將使用AWS Trainium和Inferentia芯片構建、訓練和部署其未來的基礎模型,並表示AWS將成爲Anthropic的主要雲提供商。Anthropic的Claude 3模型將進一步豐富Amazon Bedrock的生成AI模型選擇,給客戶更多的模型選擇權。

結語

無論如何,Claude3模型發佈都標誌着人工智能領域的又一次巨大飛躍,這不僅是技術的競賽,更是有關創新和安全的一場“持久戰”。

不同公司和團隊的競爭推動了技術的不斷演進,也讓我們見證了人工智能在不同領域的廣泛應用。在技術進步的同時,與之相伴的挑戰是其安全性和道德性。Anthropic對於人工智能偏見的關注以及對模型安全性的強調,或許會成爲其與OpenAI競爭的重要籌碼。

一面是追求商業利益、採取激進的發展策略、還陷入與馬斯克紛爭的OpenAI,一面是保守派、遵紀守法、團隊同樣強大的Anthropic,你看好哪家公司呢?