☰

智源研究院林詠華：多模態模型需求旺盛，但基礎能力仍有提升空間

21世紀經濟報道記者雷晨北京報道

今年下半年以來，大模型經歷了殘酷的淘汰賽，少數用戶活躍度高的大模型脫穎而出，進入決賽圈。與此同時，各界對於這些模型的性能表現、發展潛力等方面的關注與日俱增。

近期，北京智源人工智能研究院（簡稱：智源研究院）發佈並解讀了國內外100餘個大模型的綜合及專項評測結果，涵蓋語言、視覺語言、文生圖、文生視頻、語音語言等多個領域。

圍繞大模型發展趨勢、行業現狀及相關熱點問題，智源研究院副院長兼總工程師林詠華與21世紀經濟報道等媒體進行了一場深度對話，從專業視角對大模型的發展趨勢、行業現狀以及相關熱點問題進行剖析。

互聯網大廠優勢明顯，模型發展仍具潛力

林詠華指出，互聯網大廠在大模型領域具有顯著優勢。在語言模型方面，憑藉強大的流量優勢，大廠能獲取更多用戶反饋，推動數據飛輪，在主觀評測中表現良好。例如字節、快手等公司，在文生圖、文生視頻領域，因自身短視頻平臺積累的高質量數據而領先於非互聯網廠商。

針對前OpenAI聯合創始人、SSI創始人Ilya提出的預訓練停滯觀點，林詠華予以反駁。她表示，當前互聯網存在數據孤島現象，大量數據未被充分利用，中文數據在全球佔比下降，但使用中文上網人數未變。同時，海量視頻數據也有待挖掘，以促進模型對世界的認知學習，大模型發展仍有巨大潛力。

模型發展態勢分化，多模態潛力凸顯

智源評測結果顯示，2024年下半年大模型發展呈現新趨勢：多模態模型發展迅速，新廠商與新模型不斷涌現，在K12學科測試中，融合語言和視覺的多模態模型表現出色，其理解和推理能力更強。語言模型發展則相對放緩，開源的第一梯隊模型已達到較高水平，繼續提升需更多創新，模型尺寸出現兩極分化，除大型稠密模型外，7B或以下小模型下載量也較高。

林詠華認爲，多模態模型需求旺盛，但基礎能力仍有提升空間，預計2025年將有更多新模型出現。對於資金不強但創新能力足的團隊，可在多模態模型的拼接、預處理、後處理、學習方式等方面進行創新。

AI應用趨勢明確，算力需求將提升

林詠華還對AI應用趨勢進行了展望。她表示，2024年語言模型基礎能力提升，推動了複雜應用發展，2025年基於語言模型的Agent將成爲熱點，用於構建更復雜的AI應用和系統。文生圖、文生視頻應用也將在2025年迎來發展，VLM多模態模型在企業的落地場景廣泛，未來需提升基礎能力以形成新應用。

隨着模型發展，對算力需求也將變化。林詠華提到，端側模型正在發力，未來端雲結合將成趨勢，小模型和大模型將分別承擔不同工作，以平衡資源消耗與效率提升。

開源生態持續發展，國內外差距仍存

在模型開源生態方面，除了堅定開源的機構外，新的開源貢獻者不斷出現。林詠華同時指出，中國在大模型技術領域與國際先進水平相比，在數據和AI系統方面存在差距，包括各類數據資源及算力。未來，國內需加強數據建設，提升算力水平，以推動大模型技術的進一步發展。

智源研究院林詠華：多模態模型需求旺盛，但基礎能力仍有提升空間

相關資訊