我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
阿里又出黑科技。新的唇語(yǔ)閱讀 AI 系統在識別準確率表現上不僅超越基線(xiàn)標準,也優(yōu)于專(zhuān)家級人類(lèi)水平,有望為全球近 5 億聽(tīng)障人士帶來(lái)福音。
阿里巴巴又出黑科技,AI 看唇語(yǔ)知內容!
實(shí)際上,能夠從視頻中讀取嘴唇的 AI 和機器學(xué)習算法并沒(méi)有什么不同。早在 2016 年,來(lái)自 Google 和牛津大學(xué)的研究人員就詳細介紹了一種系統,該系統可以 46.8% 的準確度注釋視頻錄像,這個(gè)表現明顯優(yōu)于專(zhuān)業(yè)唇語(yǔ)識別人士 12.4% 準確度。但是,即使是最先進(jìn)的系統,也難以克服唇語(yǔ)識別時(shí)的歧義問(wèn)題,這使唇語(yǔ) AI 的性能一直難以超越音頻語(yǔ)音識別。
為了追求更好的性能,浙江阿里巴巴公司和史蒂文斯理工學(xué)院的研究人員聯(lián)合設計了一種方法,稱(chēng)為 LIBS,該方法利用從語(yǔ)音識別器中提取的特征作為唇語(yǔ)識別時(shí)的補充信息。研究人員表示,LIBS 系統在兩個(gè)基準測試中都達到了業(yè)界領(lǐng)先的準確度,在識別字符錯誤率方面,LIBS 分別較基線(xiàn)性能高出 7.66% 和 2.75%。
LIBS 和其他類(lèi)似的解決方案一樣,都可以幫助聽(tīng)障人士觀(guān)看缺少字幕的視頻。據估計,全世界有 4.66 億人患有失能性聽(tīng)力障礙,約占世界人口的5%。根據世界衛生組織的數據,到 2050 年,這一數字可能會(huì )超過(guò) 9 億。
LIBS 會(huì )從說(shuō)話(huà)人的視頻中以多種不同尺度提取有用的音頻信息,包括序列級、上下文級和幀級。然后,系統會(huì )識別這些信息之間的對應關(guān)系,將數據與視頻數據進(jìn)行對齊(由于開(kāi)頭或結尾有時(shí)會(huì )出現采樣率不一致、視頻和音頻序列的長(cháng)度不一致等情況),并利用過(guò)濾技術(shù)來(lái)優(yōu)化蒸餾功能。
LIBS 系統架構示意圖
LIBS 的語(yǔ)音識別器和口語(yǔ)閱讀器組件均基于注意力的 seq2seq 體系結構,這是一種機器翻譯方法,可將序列的輸入(即音頻或視頻)映射到帶有標簽的輸出和注意力值上。研究人員對上述內容在 LRS2 和 CMLR 數據集上進(jìn)行了訓練,LRS2 包含來(lái)自 BBC 的 45000 多個(gè)口語(yǔ)句子,CMLR 則是最大的中文普通話(huà)口語(yǔ)語(yǔ)料庫,包括了來(lái)自中國網(wǎng)絡(luò )電視臺網(wǎng)站的 10 萬(wàn)余個(gè)自然句(包括 3000 多個(gè)漢字和 20000 多個(gè)短語(yǔ))。
不過(guò),研究團隊也表示,由于某些句子長(cháng)度太短,該模型難以在 LRS2 數據集上實(shí)現“合理的”結果。(解碼器從少于 14 個(gè)字符的句子中提取相關(guān)信息時(shí)會(huì )遇到困難。)但是,一旦對最大長(cháng)度為 16 個(gè)單詞的句子進(jìn)行了預訓練,解碼器將可以通過(guò)對上下文級別的知識進(jìn)行設置,提高 LRS2 數據中句子結尾部分的質(zhì)量。
研究人員在描述其工作的論文中寫(xiě)道:“ LIBS 減少了對無(wú)關(guān)框架的關(guān)注。” “幀級知識提煉進(jìn)一步提高了視頻幀特征的可分辨性,使注意力更加集中。”
?。?a href="http://www.wxlp666.cn">邯鄲網(wǎng)站建設)
小米應用商店發(fā)布消息稱(chēng) 持續開(kāi)展“APP 侵害用戶(hù)權益治理”系列行動(dòng) 11:37:04
騰訊云與CSIG成立政企業(yè)務(wù)線(xiàn) 加速數字技術(shù)在實(shí)體經(jīng)濟中的落地和應用 11:34:49
樂(lè )視回應還有400多人 期待新的朋友加入 11:29:25
亞馬遜表示 公司正在將其智能購物車(chē)擴展到馬薩諸塞州的一家全食店 10:18:04
三星在元宇宙平臺推出游戲 玩家可收集原材料制作三星產(chǎn)品 09:57:29
特斯拉加州San Mateo裁減229名員工 永久關(guān)閉該地區分公司 09:53:13