暗物質智能申請高壓縮率的語音屬性分解量化系統及方法專利,能夠有效保證高壓縮率的語音量化 token 生成

金融界 2024 年 12 月 12 日消息,國家知識產權局信息顯示,暗物質(北京)智能科技有限公司申請一項名爲“一種高壓縮率的語音屬性分解量化系統及方法”的專利,公開號 CN 119107957 A,申請日期爲 2024 年 8 月。

專利摘要顯示,本發明公開了一種高壓縮率的語音屬性分解量化系統及方法,涉及語音量化技術領域,包括由特徵抽取器、編碼器、解耦器、解碼器構成的生成器及判別器;特徵抽取器,用於根據待量化的音頻信號提取二維隱特徵編碼器用於對二維隱特徵進行編碼生成隱特徵;解耦器,用於對隱特徵進行特徵的提取,獲得多個離散的 token;解碼器,用於根據多個離散的 token 獲得重建音頻;判別器,用於輔助生成器進行參數更新。本發明通過對輸入特徵的精細化選擇、增強解碼器的表達力和多種判別器的引入,能夠有效保證高壓縮率的語音量化 token 生成,一方面減少數據存儲空間和 LLM 計算量,另一方面可促使大模型對超長音頻建模。

本文源自:金融界

作者:情報員