我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
近來(lái),為了控制病毒的傳播,多地政府要求市民出入公共場(chǎng)所必須戴口罩。為了幫助工作人員防控疫情,阿里云緊急在 48 小時(shí)內上線(xiàn)口罩檢測技術(shù),該技術(shù)可以識別人員是否佩戴口罩,對機場(chǎng)、火車(chē)站、地鐵等公共場(chǎng)所的衛生安全檢測和實(shí)時(shí)預警,大大緩解了人員壓力。該技術(shù)的快速推出得益于阿里云視覺(jué)智能開(kāi)放平臺(以下簡(jiǎn)稱(chēng):“開(kāi)放平臺”)所提供的原子能力。
開(kāi)放平臺將阿里巴巴視覺(jué)智能技術(shù)實(shí)踐經(jīng)驗開(kāi)放給視覺(jué)應用的開(kāi)發(fā)者與用戶(hù),讓他們可以在阿里云視覺(jué)平臺上選擇相關(guān)能力,自行封裝產(chǎn)品、服務(wù)或者是解決方案滿(mǎn)足自身或者最終用戶(hù)的應用需求。平臺由阿里巴巴集團技術(shù)委員會(huì )視覺(jué)技術(shù)小組和戰略合作部牽頭,達摩院聯(lián)合阿里云產(chǎn)品與解決方案管理部以及集團各個(gè)視覺(jué)技術(shù)團隊一起創(chuàng )建,于 2019 年 12 月,完成了公測上線(xiàn)。
該平臺也正在積極吸引更多的用戶(hù),正與阿里云開(kāi)放平臺、阿里云異構計算、NVIDIA 聯(lián)合舉辦 AI 挑戰賽,讓用戶(hù)免費體驗視覺(jué)智能平臺相關(guān)能力。
就此,36 氪于近日專(zhuān)訪(fǎng)了阿里巴巴機器智能技術(shù)實(shí)驗室資深算法專(zhuān)家、阿里云視覺(jué)智能開(kāi)放平臺負責人謝宣松(星瞳),和他聊了聊這一開(kāi)放平臺的產(chǎn)品邏輯,以及達摩院在視覺(jué)智能技術(shù)的思考。
以下是對話(huà)(經(jīng)編輯):
01.
談達摩院:既求先進(jìn),又務(wù)實(shí)
36 氪:作為阿里前沿技術(shù)探索的核心陣地,達摩院有著(zhù)怎樣具體的定位?
謝宣松:2017 年,達摩院成立。成立初期,外界多認為達摩院可能只會(huì )做一些特別前沿、特別基礎、不那么落地的研究。但其實(shí)達摩院也有務(wù)實(shí)的一面,也一定程度遵從一個(gè)大的策略:“以市場(chǎng)為導向的,以產(chǎn)品為核心,以技術(shù)為基礎”。達摩院它不是一個(gè)孤立的個(gè)體,也是屬于阿里巴巴的一部分。阿里對達摩院也有兩方面的考慮,一是希望業(yè)務(wù)在達摩院技術(shù)加持下走得更快,相當于提升業(yè)務(wù)的一些核心競爭力。另外一個(gè),是希望達摩院的本身能夠走得更遠,主要體現其愿景實(shí)現和基礎技術(shù)競爭力的優(yōu)勢建設上。
達摩院在阿里體系中還是有它獨特的定位。研發(fā)上,達摩院既會(huì )做一些影響力更深遠的事情,也能做業(yè)務(wù)落地支持型的產(chǎn)品?,F在,達摩院也越來(lái)越強調和其他部門(mén)的聯(lián)合作戰。達摩院會(huì )更關(guān)注做“深的能力”,即做到極致效果、有影響力的事;同時(shí)又會(huì )做“寬的能力”,即在各行各業(yè)做出更多案例??偟膩?lái)說(shuō),達摩院既要為阿里云提供技術(shù)加持,也要做好阿里集團內部系統基礎性的工作。
36 氪:達摩院推出這一開(kāi)放平臺的目的是什么?
謝宣松:首先整個(gè)阿里巴巴集團有上千名開(kāi)發(fā)人員圍繞著(zhù)視覺(jué)技術(shù)在電子商務(wù)、城市大腦、金融支付、交通物流、通信會(huì )議、新零售、文娛等多個(gè)行業(yè)的應用需求,對外貢獻了許多產(chǎn)品和解決方案,這其中沉淀了諸多視覺(jué)基礎“原子能力”,即底層能力。同時(shí),阿里巴巴的許多內部業(yè)務(wù),如淘寶、天貓、支付寶、優(yōu)酷等諸多明星產(chǎn)品都有視覺(jué)能力在背后的支持有著(zhù)海量的用戶(hù)規模,對這些視覺(jué)智能技術(shù)能力進(jìn)行了千錘百煉。
但此前阿里云沒(méi)有一個(gè)統一的入口和品牌,將這些基礎能力統一集合起來(lái)。于是,我們便決定建立一個(gè)平臺。
這個(gè)平臺首先是一個(gè)視覺(jué)智能核心零部件的供給庫。這些零件有自營(yíng)的,即阿里巴巴團隊自己研發(fā)的;也有第三方供應商的,即生態(tài)伙伴或者其他相關(guān)人士提供的。其次,開(kāi)放平臺也是一個(gè)效率工具,有著(zhù)大量的場(chǎng)景案例,可以幫助開(kāi)發(fā)人員更高效開(kāi)發(fā)落地產(chǎn)品。開(kāi)放平臺是雙向的,內部和外部都可以使用,對外主要面向視覺(jué)智能技術(shù)的開(kāi)發(fā)與應用用戶(hù),為其提供好用、易用、普惠的視覺(jué)智能 API 服務(wù),幫助企業(yè)、開(kāi)發(fā)者快速建立視覺(jué)智能技術(shù)的應用能力。
總結起來(lái),該平臺有這么幾個(gè)特點(diǎn):一是專(zhuān)業(yè),達摩院科學(xué)家及集團專(zhuān)業(yè)工程師加持;二是實(shí)用,上線(xiàn)的視覺(jué)技術(shù)是通過(guò)阿里巴巴海量場(chǎng)景和最佳案例檢驗的;三是全面,平臺集合了規?;?、多樣化、場(chǎng)景化的視覺(jué) AI 能力,為開(kāi)發(fā)者和用戶(hù)提供一站式能力選擇;四是易用,依托阿里云智能堅實(shí)的基礎設施服務(wù),提供普惠易用標準的 AI 能力,用起來(lái)省心省力。即有硬實(shí)力,又有軟實(shí)力。
36 氪:開(kāi)放平臺中集成了哪些類(lèi)型原子能力?這樣的分類(lèi)基于怎樣的邏輯?
謝宣松:開(kāi)放平臺將圍繞以多個(gè)視覺(jué)智能的主要類(lèi)目不斷為用戶(hù)提供多種視覺(jué) AI 原子能力,包括:圖像識別、文字識別、視頻理解等多種視覺(jué)基礎技術(shù)。
主要是從三個(gè)維度去分:一是業(yè)務(wù)維度,比如一些剛需場(chǎng)景,包括文字識別、商品理解、內容審核等;二是從技術(shù)角度分,比如識別類(lèi)、檢測類(lèi)、分割類(lèi)、增強生產(chǎn)類(lèi),這些主要針對一些通用場(chǎng)景;三是針對特定的長(cháng)尾場(chǎng)景。
36 氪:開(kāi)放平臺如何收費?
謝宣松:這就要說(shuō)到我們產(chǎn)品普惠化的特點(diǎn),在目前已經(jīng)公開(kāi)的產(chǎn)品中,我們采取了一些免費的策略。這些免費策略根據輸出的“能力”的不同而不同,比如有的是根據用量,有的按 QPS 多少,這些我們都給予一定程度上的免費額度,基本能滿(mǎn)足一些要求不高的用戶(hù)。
但 AI 既要做普惠,也要考慮商業(yè)化盈利策略,這樣才能讓平臺能夠持久運營(yíng)下去。這就要求我們有合理的商業(yè)化策略,也就是找到普惠和商業(yè)化之間的平衡點(diǎn)。好在平臺上的原子能力是多樣化的,所以這個(gè)平臺也能有比較融合和多樣化的商業(yè)策略,這也是我們正在探索的。
02.
談 AI:跨媒體、跨技術(shù)的應用是值得關(guān)注的新方向
36 氪:您提到了普惠 AI,您怎么定義?
謝宣松:首先普惠的話(huà)并不是等于免費,這是兩個(gè)不同的概念,當然免費可能是符合普惠的一個(gè)特點(diǎn)。主要可以從幾個(gè)維度來(lái)看,第一是用戶(hù)進(jìn)入使用 AI 的成本門(mén)檻降低;二是用戶(hù)使用感受是省時(shí)、省力、易用的;三是使用 AI 獲得的收益相對付出的成本來(lái)說(shuō)更高。
36 氪:1 月初,達摩院發(fā)布了 2020 年十大技術(shù)趨勢的預測,第一條是“人工智能從感知智能向認知智能演進(jìn)”。視覺(jué)智能要從感知智能走向認知智能有哪些需要突破的點(diǎn)?
謝宣松:我想從感知到認知的變化,不是一個(gè)簡(jiǎn)單的更進(jìn)一步,有著(zhù)豐富的涵義:
一是從理解到思考的能力;目前的 AI 在識別理解世界上做得比較多,但是下一步的聯(lián)想推理、生產(chǎn)輸出怎么做,就做得比較少,而這些正是認知智能需要具備的。
二是從數據到知識的能力;因為現在感知層面的模型,更多的是數據在不同維度空間的映射,但是數據之間關(guān)聯(lián)、推理依據和模型本身的可解釋性都不是那么成熟。
三是成本和落地的能力;目前的 AI 大多時(shí)候都是強數據驅動(dòng),不同功能、不同場(chǎng)景所需要數據不一樣,就需要再次進(jìn)行大量數據處理,在少樣本學(xué)習、能力遷移、跨域應用上,沒(méi)有辦法做到低成本和泛化,因而很難做到快速推廣落地。
36 氪:視覺(jué)智能要從感知智能走向認知智能有哪些需要突破的點(diǎn)?
謝宣松:而視覺(jué)智能要從感知到認知這個(gè)角度來(lái)看,我覺(jué)得至少要做三件事:
一是視覺(jué)算法本身的突破,以前的大部分的視覺(jué)智能的算法是識別分類(lèi)算法方面做得比較好,要向認知智能演進(jìn),可能需要在決策推理、生成強化等技術(shù)要點(diǎn)進(jìn)行突破,來(lái)拓展機器自主變化和輸出決策的能力。
二是橫向技術(shù)的打通;到認知智能層面,知識是非常重要的要素,AI 在具體細分行業(yè)的應用落地將會(huì )更加深入,如何將細分場(chǎng)景的數據抽象成知識,知識又如何抽象形成框架性的東西都是需要進(jìn)一步攻克的。此外,視覺(jué)、NLP、圖譜等技術(shù)的橫向拉通,對于認知智能的形成也非常重要,這里的 NLP 不是專(zhuān)指人的自然語(yǔ)言,更多的是指機器能夠理解的知識邏輯,也許可以叫 MLP。
三是工程系統能力的增強;深度學(xué)習之所以可以在目前階段實(shí)現大規模的落地,是因為算力、數據以及工程化都已經(jīng)達到可控可用的狀態(tài)。同理,從感知演進(jìn)認知,同樣的工程系統和效率工具也需要向前演進(jìn),比如大規模的圖計算工程框架,否則認知智能的規?;涞厥强照?。
36 氪:您認為哪些細分場(chǎng)景和方向可能會(huì )更早實(shí)現計算機視覺(jué)的認知智能落地?謝宣松:我不好做具體的預測。但是,可以按照一定的邏輯進(jìn)行分析。一般來(lái)說(shuō),能夠在實(shí)際落地當中,特別好或者特別快地解決矛盾的方案和方向,會(huì )發(fā)展得更快一些。比方說(shuō)從“數據、算法、算力”這經(jīng)典的三要素來(lái)看落地,首先,當一個(gè)行業(yè)它的數字化程度高時(shí),數據體系也會(huì )相對完善;其次,在算法層面來(lái)說(shuō),視覺(jué)智能起到的是核心作用;最后,這一場(chǎng)景智能驅動(dòng)力特別強,有創(chuàng )新的機會(huì )且能賺錢(qián),有足夠的資源投入。能同時(shí)滿(mǎn)足以上三點(diǎn)的條件的行業(yè)機會(huì )更大。
36 氪:在視覺(jué)智能領(lǐng)域,有哪些值得關(guān)注的新方向?
謝宣松:不難發(fā)現,大部分視覺(jué)智能團隊做的都是識別檢測相關(guān)的事情,這很合乎邏輯,因為人也是先認識理解世界,才談得上生產(chǎn)改造世界。但是,還有一些跨領(lǐng)域、跨媒體、跨技術(shù)的非純粹理解方向的技術(shù)應用成熟度還不那么高,比如說(shuō)生產(chǎn)類(lèi)、增強類(lèi)的視覺(jué)智能, 2D 和 3D 融合、全 3D 圖像、圖形學(xué)和視覺(jué)算法相融合、從靜態(tài)到動(dòng)態(tài)的技術(shù)。
從人本身的角度來(lái)進(jìn)一步抽象一下,視覺(jué)技術(shù)發(fā)展方向也有脈絡(luò )可循:一是維度上從低維到高維(2D 到 2D+T 再到 3D 再到 3D+T),二是從離人近的到離人遠的(如到文字商品再到自然萬(wàn)物),三是從粗到細(比如整體識別到定位再到精細識別),四是從理解到生成,五是從自然圖到抽象圖,最后是,核心行業(yè)應用到各行各業(yè)。
拿具體的例子來(lái)說(shuō),比如 2019 年突然“火”了的換臉軟件、數字虛擬人像、2D 圖像生成 3D 模型、自動(dòng)服裝設計等就用到了 2D 和 3D 融合、從靜態(tài)圖像到動(dòng)態(tài)畫(huà)面等技術(shù)。盡管這些技術(shù)目前應用的并不是成熟,但卻是未來(lái)數字世界與現實(shí)世界進(jìn)一步交互,不可缺少的重要技術(shù)。
我們正在做一個(gè)智能服裝設計產(chǎn)品就可以很好地詮釋這一趨勢。它背后技術(shù)路線(xiàn)就是,將現在海量 2D 圖像信息,用技術(shù)手段變成 3D 的東西。然后在生成 3D 后再繼續生成各種各樣的拓展。比如,再利用物理模擬手段,把這些服裝放到一個(gè)數字人身上,然后去展現衣服真實(shí)的物理質(zhì)感等,視覺(jué)上很難去感覺(jué)出區別了。進(jìn)而,虛擬的衣服可以進(jìn)一步用于數字化營(yíng)銷(xiāo)的廣告、虛擬數字秀場(chǎng)等,而且這一虛擬的 3D 衣服還能回到生產(chǎn)線(xiàn)上,由虛擬走向物理世界。
另外,隨著(zhù)其它基礎設施或者環(huán)境的變換,也會(huì )帶一些新的方向,比如 5G,比如當前新冠肺炎引發(fā)的在線(xiàn)辦公和教育行業(yè),這些就不細述了。
?。?a href="http://www.wxlp666.cn">邯鄲網(wǎng)站建設)
小米應用商店發(fā)布消息稱(chēng) 持續開(kāi)展“APP 侵害用戶(hù)權益治理”系列行動(dòng) 11:37:04
騰訊云與CSIG成立政企業(yè)務(wù)線(xiàn) 加速數字技術(shù)在實(shí)體經(jīng)濟中的落地和應用 11:34:49
樂(lè )視回應還有400多人 期待新的朋友加入 11:29:25
亞馬遜表示 公司正在將其智能購物車(chē)擴展到馬薩諸塞州的一家全食店 10:18:04
三星在元宇宙平臺推出游戲 玩家可收集原材料制作三星產(chǎn)品 09:57:29
特斯拉加州San Mateo裁減229名員工 永久關(guān)閉該地區分公司 09:53:13