國產大模型新突破,科大訊飛發佈端到端同傳大模型媲美人類口譯員
要說最近國際互聯網最火的事情是什麼,毫無疑問是小紅書上的“賽博移民潮”,來自美國的 TikTok 用戶正紛紛涌入這個原本以中文內容爲主的社交平臺。
打開小紅書,眼前的景象讓人恍惚:滿屏的英文帖子,此起彼伏的“Hello from America!”讓不少中國用戶直呼“給我整不會了”。而這些美國用戶甚至並不是衝着什麼國際版來的——小紅書壓根就沒有國際版,大家都在用同一個 App,真真切切地成了“地球村”的村民。
(來源:小紅書)
這場意外,讓原本互不相識的中美年輕人有了一次直接對話的機會。不過驚喜與歡樂之餘,一個現實問題也隨之浮出水面:語言障礙。
其實類似的問題早已存在。隨着全球化深入發展,無論是商務談判、學術交流,還是旅遊觀光,跨語言交際早就變得越來越普遍。但傳統的翻譯方式要麼依賴昂貴的人工翻譯,要麼只能用沒有智能化的機翻拼湊,往往無法滿足即時互動的需求。而小紅書上這場突如其來的“移民潮”,恰恰將這一痛點推到了臺前:在人工智能蓬勃發展的今天,我們是否能找到更好的技術方案,讓不同語言的使用者能夠自然順暢地交流?
實際上,就在這場“賽博移民潮”發生的同時,中國的科技企業已經在爲打破語言藩籬做出持續的努力。
AI 時代如何打破“巴別塔魔咒”?國內首個端到端語音同傳大模型
1 月 15 日,科大訊飛發佈了國內首個具備端到端實時翻譯能力的星火語音大模型,爲打破全球化交流壁壘提供了新的技術方案。
而要理解這項技術突破的意義,我們需要先了解同聲傳譯這項工作的難度。
上海外國語大學高級翻譯學院院長張愛玲表示,目前市面上的機器翻譯系統大多采用交傳技術,很難實現真正的端到端語音同傳。而同聲傳譯作爲口譯界的“皇冠”,對譯員的能力要求極高。它不僅要求譯員在極短時間內完成源語言解碼和目標語言編碼,還需要同時處理語言的語音、語義、語用三個層面。
德國語言學家 Daniel Gile 提出的“同傳認知負荷模型”將其過程分解爲聽理解、記憶、翻譯表達三個基本認知環節, 每個環節都需要佔用譯員有限的認知資源。
“源語發言往往邏輯複雜,層層嵌套,口譯員必須具備超強的信息提取能力,從繁雜線索中鎖定關鍵信息。同時,譯文要做到語法規範、用詞精準,表達習慣還要與目標語言相契合。”張愛玲說。
(來源:科大訊飛)
“訊飛其實早在 10 年前就開始探索語音同傳技術,但當時確實難度太大。”科大訊飛研究院研究員亞楠坦言。直到近兩年,隨着大模型技術的發展,結合訊飛在智能語音領域積累的獨特算法,這個難題才得以突破。
在國際翻譯領域,目前主流大模型仍以交傳模式爲主。交傳模式下,模型可以獲取完整的句子內容再進行翻譯,理論上更容易保證翻譯質量。而科大訊飛此次發佈的是業界少有的端到端同傳模型,需要在說話者未完成發言時就開始實時處理翻譯,技術難度更大。但在長達 5 小時的音視頻測試中,星火語音同傳大模型在內容完整度、信息準確度等維度上的表現甚至超過了 Gemini 2.0、GPT-4 等主流大模型的交傳效果,在很大程度上提高了機翻同傳技術的實用性。
(來源:科大訊飛)
那麼,星火語音同傳大模型是如何實現這一技術突破的?這主要得益於其獨特的技術架構。與傳統的機器翻譯系統不同,該模型採用了模仿人類同傳譯員思維鏈路的訓練方式,實現了從簡單的“詞對詞”翻譯向“意羣理解+信息重組”的跨越。
在語言學理論中,“意羣”(thought group)是指在語言表達中具有相對完整語義的最小單位。人類同傳譯員往往會基於意羣進行信息處理和重組。星火語音同傳大模型也採用了類似的處理機制:系統能夠實時進行語音識別的同時,完成意羣切分和理解,並結合上下文語境進行精準選詞和信息重組。
以實際案例說明,當翻譯“I went to iFLYTEK for a seminar at 10 o'clock yesterday”這樣的句子時,如果採用傳統的直譯方式,會產生“我去訊飛爲了一場研討會在 10 點昨天”這樣不符合中文表達習慣的譯文。而星火語音同傳大模型會基於意羣理解,將信息重組爲“我去訊飛參加一場研討會,時間是昨天上午十點”,既保證了信息的準確傳達,又確保了表達的自然流暢。
(來源:科大訊飛)
在同傳過程中,不同語言之間的結構差異帶來了巨大挑戰。例如,英語是主謂賓結構,而德語常常將動詞置於句末;中文傾向於將時間、地點等狀語前置,而英語則常常後置。這種結構差異導致了翻譯過程中的時序問題。
爲解決這一難題,訊飛團隊開發了創新的流式語音合成技術。該技術通過三個層面的優化來確保同傳的流暢性:首先是意羣韻律銜接,系統能夠精確控制每個意羣的語音特徵,確保發音的自然連貫;其次是語速自適應調節,根據源語言的語速實時調整譯文的播報速度;最後是譯文精煉度動態調整,系統會根據源語種和目標語種的時長差距,實時優化譯文的表達方式。由此,模型才得以在保持翻譯準確性的同時,實現接近人類同傳譯員的自然表達,讓聽衆感受不到機器翻譯的生硬感。
從多年技術積澱到落地的全方位突破
而這些技術能力,都源自科大訊飛在智能翻譯領域長期的深耕。作爲國內智能翻譯的先行者,科大訊飛是迄今唯一一個通過全國翻譯專業資格考試的機器翻譯系統,並在最近連續三屆國際口語機器翻譯比賽(IWSLT)中摘得桂冠。
(來源:科大訊飛)
除了這兩項測試之外,中國外文局 CATTI 項目管理中心 2022 年發佈的《國內主流 AI 翻譯機實測報告》或許能給我們提供一個重要參考。在由 216 名 CATTI 二級以上譯員參與的全方位評測中,科大訊飛翻譯產品的翻譯質量和速度位列綜合排名第一。在市場佔有率、科研實力等各類評分中都位列前茅。
(來源:中國外文局 CATTI 項目管理中心)
實際上,訊飛的翻譯技術已經在各類實戰場景中積累了經驗。早在 2018 年,訊飛翻譯機就在杭州邊檢站的 20 個出入境辦理窗口投入使用,成功解決了多語種溝通障礙的問題。此後又作爲博鰲亞洲論壇的官方指定翻譯機,全程爲與會嘉賓提供即時翻譯服務。還先後爲北京冬奧會/冬殘奧會、布達佩斯田徑世錦賽等國際賽事上提供獨家指定翻譯服務。
(來源:科大訊飛)
除商務用途之外,訊飛的翻譯技術也逐步拓展到了旅遊、文化交流、演藝等更廣泛的領域。
正是這些年來在算法、數據和應用場景上的持續投入,爲這次端到端語音同傳技術的突破奠定了堅實基礎。
在現場演示環節,科大訊飛展示了搭載最新同傳技術的翻譯機在不同場景下的應用。在模擬的新西蘭旅遊場景中,翻譯機能夠實時將導遊的英文講解轉換爲流暢的中文;在國際展會場景中,則可以準確傳達包含專業術語的產品介紹。
值得一提的是,翻譯機還可以搭配藍牙音箱使用,適應展會等嘈雜環境的需求,同時支持對話記錄功能,方便用戶後期回顧重要信息。
據悉,爲滿足不同場景的使用需求,訊飛翻譯機計劃在今年推出配備耳機、音箱、麥克風的全新商務套裝。用戶可以通過佩戴藍牙耳機,在工廠參觀或項目現場考察等場景下實現邊走邊看邊交流的效果。同時,翻譯機還具備對話記錄功能,讓用戶可以在事後回顧完整的對話內容,確保商務洽談過程中的關鍵信息不會遺漏。
(來源:科大訊飛)
爲進一步推動技術應用,訊飛還宣佈將爲專業合作伙伴限量開放星火語音同傳大模型的功能入口。這意味着更多專業用戶將有機會體驗和應用這一突破性技術。同時,此次技術升級也將全面提升訊飛各類產品的整體翻譯性能,爲用戶在跨語言交際過程中帶來更優質的體驗。
在一個日益全球化的世界裡,消除語言隔閡的重要性不言而喻。從小紅書上的跨語言社交實驗,到科技企業在翻譯技術上的突破,我們看到的是人類努力打破交流壁壘的決心。也許在不久的將來,巴別塔的詛咒終將被科技的進步所化解,讓不同語言的使用者能夠自如地交流、分享和理解。
全國產算力加持的大模型,助全行業發展
在完成語音同傳技術升級的同時,科大訊飛還在其他技術領域取得了重要進展。在 1 月 15 日的發佈會上,科大訊飛還帶來了兩項重要成果:基於全國產算力訓練的深度推理模型 X1 和星火 4.0 Turbo 底座升級。
星火 X1 是國內首個基於全國產算力訓練的具備深度思考和推理能力的大模型。在現場演示中,X1 展示瞭解答高考數學題、國際數學競賽題以及奧數難題的能力。模型不僅能給出正確答案,更重要的是能展示完整的解題思路,包括知識分析、思路拆解、步驟驗證等過程。
“X1 模型主要有三個特點:能夠化繁爲簡,將複雜問題拆解成多個步驟;能夠進行自我反思和驗證;會根據答案正確與否進行強化訓練。”科大訊飛研究院研究員表示,“數學等有明確答案和結果的任務天然適配 X1 模型。”
在各類權威測試中,X1 的實力也得到驗證。根據《通用認知智能大模型測評體系》指導構建的測試集 CogNKLab-MathEval-2.0 顯示,X1 的中文全學段數學及奧賽能力與 ChatGPT-o1 相當。而這種水平,還是 X1 在更少算力投入的情況下達到的。
具體來看,在覆蓋小學、初中、高中(含競賽)、大學(含競賽)等全學段的測試中,X1 在小初高數學上達到了 90 分以上的成績,競賽類成績也突破 80 分。在具有較高難度的美國數學邀請賽(AIME)和 MATH 500 等國際數學評測中,X1 也取得了不錯的成績。
(來源:科大訊飛)
據瞭解,X1 已在教育領域開展應用。北京、上海、合肥等地的教研員和教師進行了試點體驗。來自北京八中、擁有 27 年教齡的李雙平老師表示,X1 在解答高中數學創新題時,可以提供多種解題思路,在教學知識關聯和拓展學生高階思維方面表現出色。
在醫療領域,X1 也取得了初步成效。基於知識反思和思維鏈技術,結合醫療循證推理技術,X1 在專科輔助診斷和複雜病例內涵質控方面的準確率達到 90%。科大訊飛已與華西醫院、北京安貞醫院等合作,分別發佈了針對性的醫學大模型。
(來源:訊飛醫療)
在底座模型方面,星火 4.0 Turbo 也迎來重要升級。此次升級全面對標 OpenAI 最新版的 GPT-4o,在七大核心能力上都得到了改善。特別是在數學能力方面,通過與 X1 模型的協同效應,實現了 10.5% 的性能提升,爲數學教學、金融分析等領域應用提供了有力支持。
新版本還在圖文識別領域帶來了突破,面對醫療報告、法院文書、學術論文等複雜場景,準確率大幅提升。同時推出的掃描文檔解析極速版本,將處理速度提升了 10 倍,一份 500 頁的項目文件只需 2 分鐘就能完成全部解析。
(來源:科大訊飛)
在長文本處理方面,4.0 Turbo 首創了句子級溯源功能,知識回覆的錯誤率降低了 40%。同時推出的混域知識搜索技術,讓用戶能夠一次性獲得來自多個數據源的綜合搜索結果,大大提升了信息檢索效率。
值得一提的是,此次星火 X1 的技術對底座模型也產生了積極的反哺作用。科大訊飛集團 CTO 表示,這次 4.0 Turbo 的升級主要圍繞用戶實際需求,着重提升了長文本處理能力、複雜圖文理解能力和行業知識理解能力。
此外,銷售和應用層面,訊飛星火獲得政府採購大模型中標數量和金額雙第一,並在能源、金融、汽車等行業落地了近百個智能體應用。隨着飛騰二號算力的持續到位,以及行業應用帶來的數據飛輪效應,X1 模型有望在未來獲得進一步提升。
此次發佈會的三大產品,也展示出了訊飛在人工智能領域的全方位佈局:星火語音同傳大模型開創國內端到端同傳先河;深度推理模型 X1 展現了在全國產算力基礎上進行復雜推理的能力;而星火 4.0 Turbo 底座的全面升級則爲各類應用場景提供了更堅實的技術支撐。從技術創新到產業落地,從通用能力到垂直領域,科大訊飛正在用一系列務實的技術進展,詮釋着人工智能在各行各業的實際應用價值。
參考資料:
1. https://www.iflytek.com/cn/