人工智能如何破解“雞尾酒會問題”?
在嘈雜環境中難以跟上對話的人可能很快就能得到人工智能的幫助,此前,一項技術突破宣稱已解決了“雞尾酒會問題”。
這種現象描述了人們是如何能夠過濾掉背景噪音的,比如聚會中的閒聊,從而專注於某一特定聲音或說話者。長期以來,科學家們一直爲人類大腦如何做到這一點而感到困惑,這致使Tech Crunch將其稱作“語音技術達到與人類相當的理解水平的最大障礙之一”。
該網站稱,語音技術是一個持續增長的市場,預計到明年將達到 268 億美元(204 億英鎊)。然而,它們在設計上並沒有應對現實生活中的“混亂”或“刺耳的聲音”,特別是那些會“模糊”它們所接收信號的背景和環境噪音。Tech Crunch 表示,解決此問題的唯一辦法是找到一種辦法,使語音技術像人類聽覺系統一樣出色。
據 i 新聞 網站報道,不只是科學家一直在努力對抗背景噪音——越來越多的人存在雞尾酒會問題。它補充道,尤其是 1997 年至 2012 年出生的人,也就是所謂的 Z 世代,在嘈雜環境中難以聽清對話。一項調查發現,這一羣體中有 11.5%的人“總是”出現這種情況,而 25 至 34 歲的人中只有 8%,55 歲以上的人中只有 7.4%。
研究人員認爲,年輕受訪者更多地使用耳機是造成這種差異的“關鍵原因”。
英國廣播公司(BBC)表示,除了在社交場合造成困難外,雞尾酒會問題還具有法律影響。如果聽衆無法完全確定誰在說話以及說了什麼,技術無法濾除背景噪音,這可能會影響法律案件中的音頻證據。
美國 Wave Sciences 公司的電氣工程師基思·麥克爾文,他是該公司的創始人兼首席技術官告訴該廣播公司,這是“聲學中經典的難題之一”。
麥克爾維恩最初是在爲美國政府工作,調查一起可能的戰爭罪行時產生興趣的。“一些證據包括一堆聲音同時說話的錄音——就在那時,我瞭解到了‘雞尾酒會問題’是什麼,”他說。
問題在於聲音在房間中反彈,使得分離出特定的噪音“從數學角度而言極難解決”。他想到了使用人工智能根據聲音在房間中的起源“精確定位並篩選出”背景聲音和環境噪音的主意。
Wave Sciences 的研究人員花了 10 年的測試時間“終於”創建了一個人工智能系統,該系統能夠分析聲音在到達耳朵或麥克風之前在房間內的反彈情況。其結果類似於相機聚焦於一個物體並將其餘圖像模糊處理。
這項技術在美國的一個法庭案件中接受了測試,把一段音頻記錄變成了“關鍵證據”,現在正被軍方使用。英國廣播公司補充道,未來其用途或許會包括智能音箱和助聽器設備。