我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
科技巨頭 Facebook 母公司 Meta 對外發(fā)布了一款最新人工智能(AI)翻譯引擎 SeamlessM4T,可以更輕松地跨文本語(yǔ)音翻譯和轉錄近 100 種語(yǔ)言。
同時(shí),Meta 還公布了新的開(kāi)源翻譯數據集 SeamlessAlign,將 44.3 萬(wàn)小時(shí)的語(yǔ)音與文本、2.9 萬(wàn)小時(shí)的語(yǔ)音轉錄數據進(jìn)行對齊,教會(huì ) SeamlessM4T 如何將語(yǔ)音轉錄為文本、翻譯文本、從文本生成語(yǔ)音。
Meta 表示,SeamlessM4T 將與 SeamlessAlign 一同開(kāi)源。SeamlessM4T 代表了 AI 技術(shù)驅動(dòng)的“語(yǔ)音到語(yǔ)音”和“語(yǔ)音到文本”領(lǐng)域的“重大突破”。
圖片來(lái)自網(wǎng)絡(luò )/侵刪
據悉,作為最早投資 AI 的大型科技企業(yè)之一,Meta 于 2013 年成立了 AI 基礎研究實(shí)驗室,聘請了 AI 領(lǐng)域的頂級學(xué)者,有大量社交與元宇宙算法,推出 Pytorch 框架、Zion 等軟硬件產(chǎn)品。不過(guò),雖然 Meta 在 AI 領(lǐng)域也取得了一些進(jìn)展,但它落后于 OpenAI、微軟、谷歌等公司。
隨著(zhù) ChatGPT 風(fēng)靡全球,Meta AI 團隊正在加緊追趕,以及重新組合其關(guān)于語(yǔ)言、對話(huà)等領(lǐng)域與大模型相關(guān)的研究。
去年底之后,Meta 陸續發(fā)布 No Language Left Behind(不留語(yǔ)言)文本到文本的機器翻譯模型,支持 200 種語(yǔ)言,以及開(kāi)發(fā)多語(yǔ)言數據集 SpeechMatrix、生成文本到聲音的 AudioCraft 等。另外在今年 7 月,Meta 還發(fā)布開(kāi)源對話(huà)大模型 Llama 2,引發(fā)廣泛討論和關(guān)注。
此次公布的 SeamlessM4T,建立在 Meta AI 翻譯模型的技術(shù)能力基礎上,并重新設計 Fairseq 序列建模工具包,以創(chuàng )建更輕量級的模型和處理更多信息。Meta 表示,SeamlessM4T 從“爬取的網(wǎng)頁(yè)數據的公開(kāi)可用存儲庫中”收集了 400 萬(wàn)小時(shí)的“原始音頻”,該模型可以在近 100 種語(yǔ)言之間進(jìn)行文本到語(yǔ)音的翻譯,并支持 35 種語(yǔ)言的完全語(yǔ)音到語(yǔ)音翻譯。
對于安全性和脫敏性,Meta 表示,在開(kāi)發(fā) SeamlessM4T 時(shí),團隊構建了一個(gè)可以識別敏感詞系統,目標是能夠過(guò)濾了訓練數據中不平衡的數據信息,從而檢測和輸出正確的翻譯內容。而且,Meta 研究人員還嘗試清理誤譯一些臟話(huà)的數據集,以便更準確地檢測何時(shí)使用。
Meta 研究科學(xué)家負責人 Paco Guzman 表示,SeamlessM4T 的一大突破是它不依賴(lài)中間模型來(lái)產(chǎn)生結果,這使得它更加靈活,甚至支持動(dòng)態(tài)更改語(yǔ)言。這將促進(jìn)更多人使用其進(jìn)行日程對話(huà)。
不過(guò),Meta 建議不要使用 SeamlessM4T 進(jìn)行長(cháng)篇翻譯,政府專(zhuān)用的認證翻譯,以及不鼓勵出于醫療或法律目的部署該模型,原因或與專(zhuān)業(yè)領(lǐng)域的翻譯準確度有關(guān)??萍季W(wǎng)站《對話(huà)》(theconversation)最近表示,AI 翻譯有許多缺陷,包括不同形式的性別錯誤和偏見(jiàn)、語(yǔ)音識別算法偏差等。
據報道稱(chēng),Meta 后續將把這些翻譯和轉錄方面的 AI 進(jìn)展,整合到 Facebook、Instagram、WhatsApp、Messenger 和 Threads 等產(chǎn)品當中。
?。?a href="http://www.wxlp666.cn">邯鄲小程序)
Meta 發(fā)布 AI 模型SeamlessM4T,可轉錄和翻譯近100種語(yǔ)言 09:56:07
馬斯克將推特改名為 X 遭冷遇,大多數品牌仍未更新其網(wǎng)站 10:10:57
4 年來(lái)首次下降,報告稱(chēng)全球前十芯片公司今年投資下降 16% 10:08:18
外媒稱(chēng)納德拉正在幫助微軟贏(yíng)得 AI 領(lǐng)域的“認知戰” 10:04:06
消息稱(chēng)臺積電第二座 2nm 制程工藝晶圓代工廠(chǎng)難以在今年動(dòng)工 10:00:54
英特爾正在積極投入先進(jìn)制程研發(fā) 也同步強化其先進(jìn)封裝業(yè)務(wù) 09:56:31