我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
Alphabet Inc.旗下谷歌公司周二公布了其用于訓練人工智能模型的超級計算機的新細節,稱(chēng)這些系統比英偉達的同類(lèi)系統更快更省電。
谷歌自主設計了一種名為張量處理單元(Tensor Processing Unit,簡(jiǎn)稱(chēng) TPU)的芯片,用于訓練人工智能模型,該公司 90% 以上的人工智能訓練工作都使用這些芯片,這些模型可以用于諸如用人類(lèi)語(yǔ)言回答問(wèn)題或生成圖像等任務(wù)。
據IT之家了解,谷歌的 TPU 現在已經(jīng)是第四代了。谷歌周二發(fā)表了一篇科學(xué)論文,詳細介紹了他們如何使用自己定制開(kāi)發(fā)的光學(xué)開(kāi)關(guān)將 4000 多個(gè)芯片串聯(lián)成一臺超級計算機。
改善這些連接已經(jīng)成為建造人工智能超級計算機的公司之間競爭的關(guān)鍵點(diǎn),因為為谷歌的 Bard 或 OpenAI 的 ChatGPT 等技術(shù)提供動(dòng)力的所謂大型語(yǔ)言模型的規模已經(jīng)爆炸性增長(cháng),這意味著(zhù)它們太大,無(wú)法存儲在單個(gè)芯片上。
這些模型必須被分割到數以千計的芯片中,然后這些芯片必須協(xié)同工作數周或更長(cháng)時(shí)間來(lái)訓練模型。谷歌的 PaLM 模型 —— 迄今為止其公開(kāi)披露的最大的語(yǔ)言模型 —— 是通過(guò)將其分散到 4,000 個(gè)芯片的兩臺超級計算機上,歷時(shí) 50 天進(jìn)行訓練的。
谷歌表示,其超級計算機可以輕松地實(shí)時(shí)重新配置芯片之間的連接,有助于避免問(wèn)題并提高性能。
谷歌研究員 Norm Jouppi 和谷歌杰出工程師 David Patterson 在一篇關(guān)于該系統的博文中寫(xiě)道:“電路切換使我們很容易繞過(guò)故障部件。這種靈活性甚至允許我們改變超級計算機互連的拓撲結構,以加速 ML(機器學(xué)習)模型的性能。”
雖然谷歌現在才公布其超級計算機的細節,但它已經(jīng)于 2020 年在內部上線(xiàn),在美國俄克拉荷馬州梅斯縣(Mayes County)的一個(gè)數據中心運行。谷歌表示,初創(chuàng )公司 Midjourney 使用了該系統來(lái)訓練其模型,該模型可以在輸入文字后生成圖像。
谷歌在論文中說(shuō),對于同等規模的系統,其超級計算機比基于 Nvidia A100 芯片的系統快 1.7 倍,節能 1.9 倍。谷歌表示,之所以沒(méi)有將其第四代產(chǎn)品與 Nvidia 目前的旗艦產(chǎn)品 H100 芯片進(jìn)行比較,因為 H100 是在谷歌的芯片之后上市的,而且是用更新的技術(shù)制造的。谷歌暗示他們可能正在開(kāi)發(fā)一種新的 TPU,與 Nvidia H100 競爭。
?。?a href="http://www.wxlp666.cn">碼上科技)