偷偷做久久久久网站,久久久久久亚洲精品不卡,亚洲精品偷拍的自拍的,无码毛片内射白浆视频,国产精品小说

Internet Develppment
互聯(lián)網(wǎng)開(kāi)發(fā)& 推廣服務(wù)提供商

我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。

歡迎瀏覽我們的案例。

首頁(yè) > 新聞中心 > 新聞動(dòng)態(tài) > 正文

揭秘谷歌棋類(lèi)AI項目AlphaZero 它到底厲害在哪兒

發(fā)布時(shí)間:2019-01-03 15:07:08來(lái)源:騰訊

  2016 年,谷歌的人工智能程序擊敗了世界上最好的圍棋選手李世石(Lee Sedol),這場(chǎng)比賽吸引超過(guò) 1 億人觀(guān)看

  1 月 2 日消息,據外媒報道,幾周前,谷歌人工智能(AI)子公司 DeepMind 的研究人員在《科學(xué)》(Science)雜志上發(fā)表論文,描述了 AI 在游戲中的應用潛力。雖然他們的 AI 系統是通用的,可以用于許多雙人游戲,但研究人員將其專(zhuān)門(mén)用于圍棋、國際象棋和日本象棋。除了每種游戲的規則之外,它沒(méi)有被輸入其他任何知識。

  最初的時(shí)候,這種 AI 系統只是隨機下子。隨后,它開(kāi)始通過(guò)自我游戲來(lái)學(xué)習棋路。在九個(gè)小時(shí)的訓練過(guò)程中,該程序的國際象棋版本在大量專(zhuān)門(mén)的谷歌硬件上與自己進(jìn)行了 4400 萬(wàn)場(chǎng)比賽。兩個(gè)小時(shí)后,它的表現開(kāi)始好于人類(lèi)選手;四小時(shí)后,它擊敗了世界上最好的國際象棋引擎。

  這個(gè)項目名為 AlphaZero,它是從 AlphaGo 基礎上發(fā)展而來(lái)的。AlphaGo 也是一種 AI,因在 2016 年 3 月?lián)魯×耸澜缟献詈玫膰暹x手李世石(Lee Sedol)而聞名于世。今年早些時(shí)候在 Netflix 上播放的紀錄片《AlphaGo》中,制片人跟蹤了開(kāi)發(fā)這款 AI 的團隊及其人類(lèi)陪練,他們將畢生精力都投入到了這款游戲中。

  我們看著(zhù)這些人經(jīng)歷了一種新的悲傷。起初,他們不認為人類(lèi)會(huì )輸給機器,李世石在在與 AlphaGo 進(jìn)行五場(chǎng)比賽的前一天說(shuō):“我認為,人類(lèi)的直覺(jué)仍然非常有用,AI 無(wú)法趕超。”可是當機器開(kāi)始獲勝的時(shí)候,一種恐慌感油然而生。在一個(gè)特別令人痛心的時(shí)刻,李世石在輸掉第一場(chǎng)比賽后承受了巨大壓力,他從棋盤(pán)后面站了起來(lái),不顧比賽時(shí)間限制,走到外面去抽煙。他站在首爾高樓的屋頂上往外看。

  與此同時(shí),AlphaGo 不知道它的對手已經(jīng)去了其他地方,依然走出了評論員所謂的“創(chuàng )造性、令人驚訝的棋路”。最后,李世石以1:4 的比分輸掉了比賽,這讓他感覺(jué)非常沮喪。在一次新聞發(fā)布會(huì )上說(shuō),李世石承認:“我想為我的無(wú)能道歉。”最終,李世石和圍棋社區的其他成員開(kāi)始欣賞這臺機器。他說(shuō):“我認為這將帶來(lái)一種新的范式改變。”歐洲圍棋冠軍范輝對此表示贊同,他指出:“也許 AlphaGo 可以向人類(lèi)展示一些我們從未發(fā)現過(guò)的東西。也許它很美!”

  對于 AlphaGo 的開(kāi)發(fā)者來(lái)說(shuō),這的確是一場(chǎng)勝利,但仍然不令人滿(mǎn)意,因為 AlphaGo 在很大程度上依賴(lài)于人類(lèi)的圍棋專(zhuān)業(yè)知識。在某種程度上,AI 通過(guò)模仿世界級旗手的棋路來(lái)積累經(jīng)驗。它還使用了手工編碼的啟發(fā)式方法,以避免 AI 在游戲中思考未來(lái)棋路時(shí)出現最嚴重的錯誤。對于開(kāi)發(fā) AlphaGo 的研究人員來(lái)說(shuō),這些知識就像是一根“拐杖”。為此,他們開(kāi)始建造新版本的 AI,它可以自學(xué),并獨創(chuàng )出自己的棋路。

  2017 年 10 月,DeepMind 研究人員發(fā)表論文中詳細介紹了這一成果,之所以稱(chēng)新的 AI 系統為“AlphaGo Zero”,是因為它對除了圍棋規則外一無(wú)所知。這個(gè)新項目的知名度要低得多,但從某種意義上說(shuō),這是一項更了不起的成就,盡管這一成就與圍棋沒(méi)有多大關(guān)系。事實(shí)上,不到兩個(gè)月后,DeepMind 發(fā)表了第三篇論文的預印本,表明 AlphaGo Zero 背后的算法可以推廣到任何兩人、零和的完美信息游戲(即不存在隱藏元素的游戲)中。

  DeepMind 去掉了 AlphaGo 名字中的“Go”,并給它的新系統命名為 AlphaZero。它的核心是一種強大的算法,你可以給它提供被人類(lèi)研究得最透徹、經(jīng)驗最豐富的游戲規則,然后那天晚些時(shí)候,它將成為有史以來(lái)最好的玩家。也許更令人驚訝的是,這個(gè)系統的迭代也是迄今為止最簡(jiǎn)單的。

  典型的國際象棋引擎堪稱(chēng)是個(gè)大雜燴,需要經(jīng)過(guò)幾十年基于嘗試和錯誤進(jìn)行調整。世界上最好的國際象棋引擎 Stockfish 是開(kāi)源的,它通過(guò)被稱(chēng)為“達爾文式選擇”變得越來(lái)越好:即有人提出一個(gè)想法,成千上萬(wàn)的游戲來(lái)驗證這個(gè)想法,最好的版本最終會(huì )勝出。因此,它可能不是特別優(yōu)雅的程序,而且程序員可能很難理解。

  程序員對 Stockfish 所做的許多改變最好是從國際象棋而不是計算機科學(xué)的角度來(lái)表述,他們更多關(guān)注如何在棋盤(pán)上評估給定的情況:騎士應該值 2.1 分還是 2.2 分?如果它是在第三等級,而對手有個(gè)相反顏色的主教呢?為了說(shuō)明這一點(diǎn),DeepMind 的研究主管大衛·西爾弗(David Silver)曾在 Stockfish 中列出了移動(dòng)策略。

  它們有五十多個(gè)步驟,每種都需要大量編碼,每一個(gè)都是來(lái)之不易的國際象棋奧秘:反移動(dòng)啟發(fā)式(Counter Move Heuristic)、已知結束游戲數據庫、疊兵(Doubled Pawns)和抽將(Trapped Pieces)等評估模塊、搜索可能移動(dòng)旗子的策略等。

  相比之下,AlphaZero 只有兩個(gè)部分:一個(gè)神經(jīng)網(wǎng)絡(luò )和一個(gè)被稱(chēng)為 Monte Carlo Tree Search(MCTS)的算法。人們常說(shuō),MCTS 算法背后的理念是,像國際象棋這樣的棋類(lèi)游戲實(shí)際上是一棵充滿(mǎn)了各種可能性的樹(shù)。如果我把車(chē)移到 d8 位置,你可以抓住它,或者隨它去,這時(shí)我可以移動(dòng)兵、移動(dòng)主教或者保護我的王后……

  問(wèn)題是,這棵樹(shù)變得難以置信的大,難以置信的快。任何計算能力都不足以徹底地搜索它。專(zhuān)業(yè)的人類(lèi)玩家之所以是專(zhuān)家,正是因為她的大腦能自動(dòng)識別出樹(shù)的基本部分,并將注意力集中在其上。而計算機想要競爭,必須以某種方式做同樣的事情。

  國際象棋評論員對 AlphaZero 的表現贊不絕口

  這就是神經(jīng)網(wǎng)絡(luò )的作用所在。AlphaZero 的神經(jīng)網(wǎng)絡(luò )作為輸入,接收游戲最后幾步的棋盤(pán)布局。作為輸出,它估計了當前玩家獲勝的可能性,并預測了當前可用的哪些棋路可能效果最好。MCTS 算法使用這些預測來(lái)確定樹(shù)上的重點(diǎn)位置。例如,如果網(wǎng)絡(luò )猜測“騎士干掉主教”可能是一步好棋,那么 MCTS 將投入更多時(shí)間來(lái)探索這步棋的后果。

  起初,指導搜索的神經(jīng)網(wǎng)絡(luò )顯得相當笨,它或多或少地隨機做出預測。結果,MCTS 在集中于樹(shù)的重要部分方面做得非常糟糕。但 AlphaZero 的天賦在于它的學(xué)習方式。它需要兩個(gè)部分的工作,并使它們彼此磨練。即使一個(gè)愚蠢的神經(jīng)網(wǎng)絡(luò )在預測哪些動(dòng)作會(huì )起作用方面做得不好,在博弈樹(shù)中向前看仍然很有用。例如,在游戲結束時(shí),MCTS 仍然可以學(xué)習哪些位置實(shí)際上會(huì )促使勝利,至少在某些時(shí)候是這樣的。

  這些知識可以用來(lái)改進(jìn)神經(jīng)網(wǎng)絡(luò )。當游戲結束時(shí),你知道結果,你看神經(jīng)網(wǎng)絡(luò )對每個(gè)位置的預測,并將其與實(shí)際發(fā)生的情況進(jìn)行比較。然后,你可以通過(guò)調整神經(jīng)網(wǎng)絡(luò )的突觸連接來(lái)“校正”神經(jīng)網(wǎng)絡(luò ),直到它找到獲勝幾率更大的棋路。本質(zhì)上,MCTS 的所有搜索都被提煉成神經(jīng)網(wǎng)絡(luò )的新權值。當然,有了個(gè)稍微好點(diǎn)兒的網(wǎng)絡(luò ),搜索就不那么容易被誤導了,這使它能夠更好地搜索,從而為訓練網(wǎng)絡(luò )提取更好的信息。就這樣,在一個(gè)反饋回路中,它的能力會(huì )不斷提高。

  當 AlphaGoZero 和 AlphaZero 的論文發(fā)表時(shí),有些棋類(lèi)愛(ài)好者開(kāi)始在博客文章和 YouTube 視頻中描述該系統,并構建他們自己的模仿版。這項工作的大部分都是解釋性的,它源于業(yè)余愛(ài)好者對學(xué)習和分享的渴望,這種沖動(dòng)最初導致了網(wǎng)絡(luò )的出現。但是,為了大規模地復制這項工作,還需要其他努力。畢竟,DeepMind 的論文只描述了世界上最偉大的圍棋和國際象棋程序,它們沒(méi)有包含源代碼,該公司也沒(méi)有向玩家提供這些程序。在宣布勝利后,它的工程師們已經(jīng)離開(kāi)了戰場(chǎng)。

  曾在 Mozilla 公司工作的計算機程序員吉安-卡洛·帕斯卡托(Gian-Carlo Pascutto),在構建有競爭性游戲引擎方面有著(zhù)良好的記錄,首先是國際象棋,然后是圍棋。他跟蹤最新的研究。隨著(zhù)將 MCTS 和神經(jīng)網(wǎng)絡(luò )相結合成為圍棋 AI 領(lǐng)域的最新技術(shù),帕斯卡托創(chuàng )建了世界上最成功的開(kāi)源圍棋引擎,首先是 Leela,然后是 LeelaZero,這也反映了 DeepMind 的進(jìn)步。

  問(wèn)題在于,DeepMind 可以訪(fǎng)問(wèn)谷歌龐大的云計算平臺,但帕斯卡托卻沒(méi)有。為了訓練自己的圍棋引擎,DeepMind 使用了 5000 個(gè)谷歌的“張量處理單元”(TPU)13 天,它們是專(zhuān)門(mén)為神經(jīng)網(wǎng)絡(luò )計算設計的芯片。而為了在桌面系統上做同樣的工作,帕斯卡托必須運行自己的程序 1700 年才能取得同樣的效果。

  為了彌補計算能力的不足,帕斯卡托分發(fā)了這項工作。LeelaZero 是個(gè)分布式系統,即任何想要參與的人都可以下載最新版本,將他擁有的任何計算能力貢獻出來(lái),并上傳自己生成的數據,這樣系統就可以稍加改進(jìn)。分布式的 LeelaZero 社區已經(jīng)讓他們的系統與自己玩了 1000 多萬(wàn)場(chǎng)游戲,比 AlphaGo Zero 略多一點(diǎn)兒。它現在是現有的最強大的圍棋引擎之一。

  沒(méi)過(guò)多久,這個(gè)想法就擴展到國際象棋上。2017 年 12 月,當 AlphaZero 預印本出版時(shí),加里·林斯科特(Gary Linscott)說(shuō):“它就像一顆炸彈擊中了社區。”林斯科特是從事 Stockfish 研究的計算機科學(xué)家,他使用了現有的 LeelaZero 代碼庫,以及 AlphaZero 論文中的新思想,創(chuàng )建了 LeelaChessZero。

  關(guān)于 DeepMind 團隊在他們的論文中遺漏的細節,有些問(wèn)題需要解決,也有些經(jīng)驗猜測,但在幾個(gè)月內,這個(gè)神經(jīng)網(wǎng)絡(luò )就開(kāi)始改進(jìn)了。國際象棋界已經(jīng)癡迷于 AlphaZero:Chess.com 上的帖子慶祝了這款引擎的誕生,評論員和特級大師仔細研究了 DeepMind 在論文中發(fā)布的幾款 AlphaZero 游戲,宣稱(chēng)“國際象棋就應該這么玩”。

  很快,就像 Leela Chess Zero 的名字一樣,Lc0 吸引了數以百計的志愿者。由于他們貢獻了他們的計算機能力和改進(jìn)的源代碼,引擎變得更好用。如今,一位核心撰稿人懷疑,距離趕超 Stockfish 只有幾個(gè)月的時(shí)間了。不久之后,它可能會(huì )變得比 AlphaZero 本身更好。

  當我們在電話(huà)中交談時(shí),讓林斯科特感到驚奇的是,像他推出的項目,曾經(jīng)需要才華橫溢的博士生幾年的時(shí)間,現在卻可以由一個(gè)感興趣的業(yè)余人員在幾個(gè)月內完成。神經(jīng)網(wǎng)絡(luò )的軟件庫只需要幾十行代碼就可以復制一個(gè)世界一流的設計,在一組志愿者之間分發(fā)計算的工具已經(jīng)存在,而英偉達等芯片制造商已經(jīng)將價(jià)格低廉、功能強大的 GPU(圖形處理芯片)完美地用于訓練神經(jīng)網(wǎng)絡(luò ),并將其投入到數百萬(wàn)普通計算機用戶(hù)的手中。像 MCTS 這樣的算法非常簡(jiǎn)單,可以在一兩個(gè)下午內實(shí)現,你甚至不需要是這方面的專(zhuān)家。在創(chuàng )建 LeelaZero 的時(shí)候,帕斯卡托已經(jīng)有 20 年沒(méi)玩圍棋了。

  DeepMind 的研究主管大衛·西爾弗(David Silver)指出,他的公司最近在游戲方面的工作核心似乎存在一個(gè)悖論:程序越簡(jiǎn)單(從 AlphaGo 到 AlphaGo Zero 再到 AlphaZero),它們的表現就越好。他在 2017 年 12 月的一次演講中說(shuō):“也許我們追求的原則之一是,通過(guò)少做些事情,消除算法的復雜性,使我們的技術(shù)變得更加通用。”通過(guò)去掉圍棋引擎中的圍棋知識,他們開(kāi)發(fā)出更好的圍棋引擎。同時(shí),它也是可以玩日本象棋和國際象棋的引擎。

  我們從未想過(guò),事情會(huì )變成這樣。1953 年,幫助創(chuàng )造現代計算機的艾倫·圖靈(Alan Turing)寫(xiě)了一篇題為《數字計算機應用于游戲》的短文。在論文中,他開(kāi)發(fā)了一個(gè)國際象棋程序,“基于對我玩棋時(shí)思維過(guò)程的內省分析”。這個(gè)程序很簡(jiǎn)單,但在它的例子中,簡(jiǎn)單并不是一種美德:就像圖靈一樣,他不是個(gè)有天賦的棋手,它錯過(guò)了游戲的很多深度思考,而且玩得不太好。

  盡管如此,圖靈猜測,“人不能設計出比自己玩得更好的游戲機器”,這個(gè)想法是個(gè)“相當荒謬的觀(guān)點(diǎn)”。雖然說(shuō)“任何動(dòng)物都不能吞下比自己更重的動(dòng)物”這句話(huà)聽(tīng)起來(lái)是對的,但事實(shí)上很多動(dòng)物都能做到。類(lèi)似地,圖靈提出,糟糕的棋手開(kāi)發(fā)出色的國際象棋程序,可能也不會(huì )有矛盾。要做到這一點(diǎn),一個(gè)誘人的方法就是讓這個(gè)程序自己去學(xué)習。

  AlphaZero 的成功似乎證明了這一點(diǎn)。它有個(gè)簡(jiǎn)單的結構,但能夠學(xué)習游戲中最令人驚訝的特征。在 AlphaGo Zero 的文章中,DeepMind 團隊展示了他們的 AI 在經(jīng)過(guò)訓練數周后,可以找到熟練玩家所熟知的策略,但只在幾個(gè)周期后就拋棄了它們??吹饺祟?lèi)最好的想法在通往更好的道路上徘徊讓人感覺(jué)有點(diǎn)兒怪異,也讓人感到不安:它以一種讓人眼睜睜看著(zhù)物理機器超越我們的方式?jīng)_擊著(zhù)我們。

  在《科學(xué)》雜志最近的社論中,1997 年曾輸給 IBM“深藍”計算機的前國際象棋冠軍加里·卡斯帕羅夫(Garry Kasparov)表示,AlphaZero 的下棋方式并沒(méi)有反映出系統性的“程序員優(yōu)先事項和偏見(jiàn)”;相反,盡管它每一步搜索的位置要比傳統引擎少得多,但它以開(kāi)放、積極的方式發(fā)揮作用,似乎從戰略而不是戰術(shù)的角度考慮問(wèn)題,就像一個(gè)有著(zhù)不可思議遠見(jiàn)的人一樣??ㄋ古亮_夫寫(xiě)道:“通過(guò) AlphaZero 的程序本身,我想說(shuō)它的風(fēng)格反映了事實(shí)。”

  當然,像人一樣下棋和像人一樣思考象棋,或者像人一樣學(xué)習,并不是一回事。有一句老話(huà)說(shuō),玩游戲就是 AI 的果蠅,這就像果蠅之于生物學(xué)家、圍棋和國際象棋等游戲之于研究智能機制的計算機科學(xué)家,它們都同樣重要。這是個(gè)令人回味無(wú)窮的類(lèi)比。然而,下棋的任務(wù)一旦轉化為在一棵博弈樹(shù)中每秒搜索數萬(wàn)個(gè)節點(diǎn)的任務(wù),所使用的智能可能與我們最關(guān)心的截然不同。

  以這種方式下國際象棋可能比我們想象的更像地球運動(dòng):這種活動(dòng)最終不是我們的強項,因此不應該對我們的靈魂那么珍貴。要學(xué)習,AlphaZero 需要比人類(lèi)多玩幾百萬(wàn)個(gè)游戲。但當它完成時(shí),它就可以像天才那樣去玩。它依靠的攪動(dòng)速度比人通過(guò)深層搜索樹(shù)所能做到的更快,然后使用神經(jīng)網(wǎng)絡(luò )將它發(fā)現的東西處理成類(lèi)似直覺(jué)的東西。

  當然,這個(gè)項目教會(huì )了我們更多關(guān)于智力的新東西。但它的成功也突顯出,世界上最優(yōu)秀的人類(lèi)玩家可以通過(guò)一種非常不同的方式看到更多東西,即除了親身體驗外,我們還可以基于閱讀、交談和感覺(jué)等方式加以理解。也許最令人驚訝的是,我們人類(lèi)在那些似乎是為機器設計的游戲中表現得同樣好。
 ?。?a href="http://www.wxlp666.cn">邯鄲網(wǎng)絡(luò )公司)

最新資訊
? 2018 河北碼上網(wǎng)絡(luò )科技有限公司 版權所有 冀ICP備18021892號-1   
? 2018 河北碼上科技有限公司 版權所有.
偷偷做久久久久网站,久久久久久亚洲精品不卡,亚洲精品偷拍的自拍的,无码毛片内射白浆视频,国产精品小说