我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
人工智能領(lǐng)域的知名創(chuàng )業(yè)公司OpenAI發(fā)布題為《ChatGPT現在能看、能聽(tīng)、能說(shuō)》的公告,宣布將在未來(lái)兩周時(shí)間里向付費用戶(hù)推送這項功能。
在今年3月GPT-4的發(fā)布會(huì )上,最令人感到震驚的一幕應該是,OpenAI總裁Greg Brockman拿著(zhù)一張草稿紙畫(huà)了個(gè)草圖,隨手拍了張照就讓GPT-4在10秒鐘時(shí)間里生成了這個(gè)網(wǎng)站的代碼?!?/p>
(來(lái)源:OpenAI)/侵刪
ChatGPT此前曾推出過(guò)能上傳圖片的“代碼解釋器“功能,具備了一些初步處理圖像和文本照片的能力。但毫無(wú)疑問(wèn),今天這個(gè)“隨手拍、隨心問(wèn)”才更貼近大多數用戶(hù)的AI助手使用場(chǎng)景。
拍張冰箱照片 告訴你今晚吃啥
按照標題的順序,今天更新的功能主要有兩點(diǎn):基于圖片的對話(huà),以及實(shí)時(shí)語(yǔ)音對話(huà)。
先說(shuō)關(guān)注度非常高的圖片聊天功能。按照OpenAI的說(shuō)法,用戶(hù)現在可以拍一張冰箱的照片,然后讓ChatGPT來(lái)推薦菜譜;在旅行時(shí)拍攝一張地標的照片,讓ChatGPT來(lái)講述這處景點(diǎn)的有趣之處。當然,也能拍一張數學(xué)題的照片,讓ChatGPT來(lái)解答。
在官方給出的例子中,給到ChatGPT一張自行車(chē)的照片,問(wèn)它如何把座椅調低。然后ChatGPT表示看你車(chē)的型號,有的車(chē)有快拆桿,有的是用螺栓固定,然后給出了詳細的步驟?! ?/p>
隨后官方裝作不懂,拍了一張螺栓的照片,并用官方畫(huà)圖工具圈出來(lái)以示強調,然后問(wèn)ChatGPT這是不是快拆桿。ChatGPT表示你這個(gè)是螺栓,得去找一個(gè)內六角扳手?! ?/p>
隨后官方又拍了一張工具箱的照片,問(wèn)ChatGPT到底是哪一個(gè)扳手。ChatGPT也順利地認出了扳手,并準確提示用戶(hù)到底要拿哪一個(gè)尺寸?!?/p>
ChatGPT會(huì )說(shuō)話(huà)啦!
除此之外,OpenAI也將語(yǔ)音識別、轉錄和音頻生成功能打包,推出了AI語(yǔ)音聊天的功能,這項功能只適用于iOS和安卓客戶(hù)端。官方表示,用戶(hù)可以用這項功能為家里的小孩講睡前故事?;蛘呒依锍灾?zhù)飯,突然為某個(gè)問(wèn)題吵起架來(lái),這個(gè)時(shí)候就可以把ChatGPT拍在桌面上解決爭論。
OpenAI介紹稱(chēng),這項功能使用了Whisper開(kāi)源語(yǔ)音識別系統,將用戶(hù)說(shuō)的話(huà)轉錄成文本。同時(shí)還用上了一項新的文本轉語(yǔ)音模型,并與專(zhuān)業(yè)配音演員合作,提供5種可供用戶(hù)自行選擇的聲音。
更先進(jìn)的AI也有新的風(fēng)險和局限性
OpenAI表示,新的語(yǔ)音技術(shù)能夠僅通過(guò)幾秒鐘的真實(shí)語(yǔ)音創(chuàng )造出逼真的合成聲音。這種功能打開(kāi)了創(chuàng )造力的大門(mén),也帶來(lái)了新的風(fēng)險——例如不法分子可能偽造公眾人物進(jìn)行欺詐。所以OpenAI的決策是通過(guò)“語(yǔ)音聊天”這樣的特定用例來(lái)推出這項功能。
同時(shí)OpenAI也在與更多的機構展開(kāi)合作。例如流媒體公司Spotify就在試用這項功能來(lái)進(jìn)行語(yǔ)音翻譯,通過(guò)使用播客主持人的聲音將播客音頻翻譯成其他語(yǔ)言,幫助播客主持人擴大他們的全球影響力。
圖像也會(huì )帶來(lái)新的挑戰,例如幻覺(jué)問(wèn)題,以及使用者在高風(fēng)險領(lǐng)域卻依賴(lài)模型對圖像的解釋。因此在上線(xiàn)前,OpenAI也對極端主義和科學(xué)能力等領(lǐng)域進(jìn)行了風(fēng)險測試。