神马午夜,欧美日韩亚洲综合一区二区三区_,中国亚洲女人69内射少妇,97免费人妻在线视频,同性男男黄gay片免费,俺来也影院,最近中文字幕免费完整版,国产香蕉一区二区三区在线视频

GPT-4 被破解,訓(xùn)練成本,模型架構(gòu)的秘密都被挖出來(lái)了?

時(shí)間:2023-07-11 23:28:54 來(lái)源: 品玩


幾個(gè)小時(shí)前 SemiAnalysis 的 DYLAN PATEL 和 DYLAN PATEL 發(fā)布了一個(gè)關(guān)于 GPT-4 的技術(shù)信息,包括 GPT-4 的架構(gòu)、參數(shù)數(shù)量、訓(xùn)練成本、訓(xùn)練數(shù)據(jù)集等。本篇涉及的 GPT-4 數(shù)據(jù)是由他們收集,并未公開數(shù)據(jù)源。僅供參考。


(相關(guān)資料圖)

原文翻譯如下:

揭秘 GPT-4:導(dǎo)致 OpenAI 架構(gòu)的工程權(quán)衡

OpenAI 保持 GPT-4 架構(gòu)的封閉性并不是因?yàn)閷?duì)人類存在一些生存風(fēng)險(xiǎn),而是因?yàn)樗麄儤?gòu)建的東西是可復(fù)制的。事實(shí)上,我們預(yù)計(jì) Google、Meta、Anthropic、Inflection、Character、騰訊、字節(jié)跳動(dòng)、百度等在短期內(nèi)都將擁有與 GPT-4 一樣強(qiáng)大的模型。

不要誤解我們的意思,OpenAI 擁有令人驚嘆的工程技術(shù),他們構(gòu)建的東西令人難以置信,但他們得出的解決方案并不神奇。這是一個(gè)優(yōu)雅的解決方案,具有許多復(fù)雜的權(quán)衡。做大只是戰(zhàn)斗的一部分。 OpenAI 最持久的護(hù)城河是他們擁有最真實(shí)的使用情況、領(lǐng)先的工程人才,并且可以通過(guò)未來(lái)的模型繼續(xù)領(lǐng)先于其他人。

我們從許多來(lái)源收集了大量有關(guān) GPT-4 的信息,今天我們想分享一下。這包括模型架構(gòu)、訓(xùn)練基礎(chǔ)設(shè)施、推理基礎(chǔ)設(shè)施、參數(shù)計(jì)數(shù)、訓(xùn)練數(shù)據(jù)集組成、令牌計(jì)數(shù)、層數(shù)、并行策略、多模態(tài)視覺(jué)適應(yīng)、不同工程權(quán)衡背后的思維過(guò)程、獨(dú)特的實(shí)施技術(shù)以及它們?nèi)绾螠p輕一些問(wèn)題他們最大的瓶頸與巨型模型的推理有關(guān)。

GPT-4 最有趣的方面是理解他們?yōu)槭裁醋龀瞿承┘軜?gòu)決策。

此外,我們將概述 A100 上 GPT-4 的訓(xùn)練和推理成本,以及如何在下一代模型架構(gòu)中與 H100 進(jìn)行擴(kuò)展。

首先,問(wèn)題陳述。從 GPT-3 到 4,OpenAI 希望擴(kuò)展 100 倍,但問(wèn)題是成本。 密集變壓器模型將無(wú)法進(jìn)一步擴(kuò)展。密集變壓器是 OpenAI GPT-3、Google PaLM、Meta LLAMA、TII Falcon、MosaicML MPT 等使用的模型架構(gòu)。我們可以輕松說(shuō)出 50 家使用相同架構(gòu)培訓(xùn)法學(xué)碩士的公司。這是一個(gè)很好的方法,但它在擴(kuò)展方面存在缺陷。

從訓(xùn)練成本的角度來(lái)看,請(qǐng)參閱我們?cè)?GPT-4 公告之前關(guān)于即將推出的密集模型 AI 磚墻的訓(xùn)練成本討論。在那里,我們揭示了 OpenAI 在 GPT-4 架構(gòu)方面所做的高層工作以及各種現(xiàn)有模型的訓(xùn)練成本。

在過(guò)去的 6 個(gè)月里,我們意識(shí)到培訓(xùn)成本無(wú)關(guān)緊要。

當(dāng)然,從表面上看,花費(fèi)數(shù)千萬(wàn)甚至數(shù)億美元的計(jì)算時(shí)間來(lái)訓(xùn)練模型似乎很瘋狂,但這對(duì)于這些公司來(lái)說(shuō)是微不足道的。它實(shí)際上是一個(gè)資本支出項(xiàng)目,規(guī)模擴(kuò)大可以持續(xù)帶來(lái)更好的結(jié)果。唯一的限制因素是將計(jì)算擴(kuò)展到人類可以獲得反饋并修改架構(gòu)的時(shí)間尺度。

未來(lái)幾年,谷歌、Meta、OpenAI/ 微軟等多家公司將在價(jià)值超過(guò)千億元的超級(jí)計(jì)算機(jī)上訓(xùn)練模型。Meta 每年在 "Metaverse" 上燃燒超過(guò) 160 億美元,Google 每年在各種永遠(yuǎn)不會(huì)實(shí)現(xiàn)成果的項(xiàng)目上浪費(fèi) 100 億美元。亞馬遜在 Alexa 上損失了超過(guò) 50 億美元。加密貨幣在毫無(wú)價(jià)值的事情上浪費(fèi)了超過(guò) 1000 億美元。

這些公司和整個(gè)社會(huì)可以而且將會(huì)花費(fèi)超過(guò)一千億美元來(lái)創(chuàng)建可以訓(xùn)練單個(gè)大規(guī)模模型的超級(jí)計(jì)算機(jī)。然后可以通過(guò)多種方式將這些大型模型產(chǎn)品化。這項(xiàng)工作將在多個(gè)縣和公司重復(fù)進(jìn)行。這是新的太空競(jìng)賽。以前的浪費(fèi)與現(xiàn)在的區(qū)別在于,人工智能可以在短期內(nèi)從人類助手和自主代理身上帶來(lái)有形的價(jià)值。

擴(kuò)展人工智能(真正的人工智能磚墻)的更重要問(wèn)題目標(biāo)是將訓(xùn)練計(jì)算與推理計(jì)算分離。這就是為什么訓(xùn)練 Chinchilla 對(duì)于任何將要部署的模型來(lái)說(shuō)都是最佳的。這就是為什么要進(jìn)行稀疏模型架構(gòu);每個(gè)參數(shù)在推理過(guò)程中都不會(huì)被激活。

真正的戰(zhàn)斗是將這些模型擴(kuò)展到用戶和代理的成本太高。推理成本是訓(xùn)練成本的數(shù)倍。這就是 OpenAI 在模型架構(gòu)和基礎(chǔ)設(shè)施方面的創(chuàng)新目標(biāo)。

大型模型的推理是一個(gè)多變量問(wèn)題,其中模型大小會(huì)導(dǎo)致密集模型的死亡。

我們已經(jīng)在這里詳細(xì)討論了有關(guān)邊緣的問(wèn)題,但數(shù)據(jù)中心的問(wèn)題陳述非常相似。簡(jiǎn)而言之,設(shè)備永遠(yuǎn)不可能有足夠的內(nèi)存帶寬來(lái)容納大型語(yǔ)言模型來(lái)實(shí)現(xiàn)一定水平的吞吐量。即使它們有足夠的帶寬,邊緣硬件計(jì)算資源的利用率也會(huì)很糟糕。

在數(shù)據(jù)中心、云中,利用率就是一切。 Nvidia 因其卓越的軟件而受到贊譽(yù)的一半原因是,在 GPU 的幾代生命周期中,Nvidia 不斷更新低級(jí)軟件,通過(guò)在芯片周圍、芯片和內(nèi)存之間更智能地移動(dòng)數(shù)據(jù)來(lái)提高 FLOPS 利用率。

目前大多數(shù)用例中的 LLM 推理都是作為實(shí)時(shí)助手運(yùn)行,這意味著它必須實(shí)現(xiàn)足夠高的吞吐量,以便用戶可以實(shí)際使用它。人類平均每分鐘閱讀約 250 個(gè)單詞,但有些人的閱讀速度高達(dá)每分鐘約 1,000 個(gè)單詞。這意味著您需要每秒至少輸出 8.33 個(gè)令牌,但每秒需要輸出 33.33 個(gè)令牌才能覆蓋所有極端情況。

由于內(nèi)存帶寬要求,即使在最新的 Nvidia H100 GPU 服務(wù)器上,萬(wàn)億參數(shù)密集模型在數(shù)學(xué)上也無(wú)法實(shí)現(xiàn)此吞吐量。每個(gè)生成的令牌都需要將每個(gè)參數(shù)從內(nèi)存加載到芯片上。然后,將生成的令牌輸入到提示中,并生成下一個(gè)令牌。此外,注意力機(jī)制的 KV 緩存中的流傳輸需要額外的帶寬。

上圖展示了以足夠高的吞吐量推理 LLM 以便為單個(gè)用戶提供服務(wù)所需的內(nèi)存帶寬。它表明,即使 8x H100 也無(wú)法以每秒 33.33 個(gè)令牌的速度提供 1 萬(wàn)億參數(shù)密集模型。此外,每秒 20 個(gè)令牌的 8xH100 的 FLOPS 利用率仍低于 5%,導(dǎo)致推理成本非常高。實(shí)際上,目前的 8 路張量并行 H100 系統(tǒng)存在約 3000 億個(gè)前饋參數(shù)的推理約束。

然而,OpenAI 正在通過(guò) A100 實(shí)現(xiàn)人類的閱讀速度,其模型超過(guò) 1 萬(wàn)億個(gè)參數(shù),并且以每 1,000 個(gè)代幣僅 0.06 美元的低價(jià)廣泛提供。那是因?yàn)樗窍∈璧模琁E 并不是每個(gè)參數(shù)都被使用。

廢話夠多了,我們來(lái)談?wù)?GPT-4 模型架構(gòu)、訓(xùn)練基礎(chǔ)設(shè)施、推理基礎(chǔ)設(shè)施、參數(shù)計(jì)數(shù)、訓(xùn)練數(shù)據(jù)集組成、標(biāo)記計(jì)數(shù)、層數(shù)、并行策略、多模態(tài)視覺(jué)編碼器、不同工程權(quán)衡背后的思維過(guò)程、獨(dú)特的實(shí)施的技術(shù),以及它們?nèi)绾尉徑馀c大型模型推理相關(guān)的一些最大瓶頸。

總結(jié)主要的關(guān)于 GPT-4 的信息(總結(jié)來(lái)自 Yam Peleg 的推文):

參數(shù)數(shù)量:GPT-4 比 GPT-3 大 10 倍,估計(jì)參數(shù)數(shù)量在 120 層、1.8 萬(wàn)億左右。

MoE 架構(gòu):即 Mixture-of-Experts 架構(gòu),這部分信息已經(jīng)確認(rèn),OpenAI 通過(guò)利用 MoE 架構(gòu)保持一定的成本,包含 16 個(gè) Experts,每一個(gè)都是一個(gè) MLP.2,約 1110 億參數(shù),每個(gè)前向傳播都被路由到這些專家中

MoE 路由:盡管公開的技術(shù)文檔中說(shuō)了很多高級(jí)的路由功能,包括每個(gè) token 如何選擇每個(gè)專家等。但是現(xiàn)有 GPT-4 其實(shí)非常簡(jiǎn)單,大約就是為每個(gè) attention 共享 550 億參數(shù)的方式。

推理:每一個(gè)前向傳播的推理(生成一個(gè) token)需要 2800 億參數(shù)以及 560 TFLOPS,這與純 dense 模型每次正向傳遞所需的約 1.8 萬(wàn)億參數(shù)和 3700 TFLOPS 形成了鮮明對(duì)比。

訓(xùn)練數(shù)據(jù)集:GPT-4 在約 13 萬(wàn)億 tokens 上訓(xùn)練。這不是指不同的 token 數(shù)量,是根據(jù) epochs 計(jì)算使用的 token 數(shù)量。基于文本的數(shù)據(jù)集做了 2 次 epoch 訓(xùn)練,基于代碼的數(shù)據(jù)集做了 4 次 epoch 訓(xùn)練。

GPT-4 32K:每一個(gè)預(yù)訓(xùn)練階段都是 8K 的長(zhǎng)度。32K 的版本是 8K 預(yù)訓(xùn)練模型之后微調(diào)得到的。

Batch Size:batch size 是逐漸上升的,在集群中經(jīng)過(guò)幾天的時(shí)間達(dá)到一個(gè)數(shù)值。最終,OpenAI 的 Batch Size 達(dá)到了 6000 萬(wàn)!也就是每個(gè)專家大約有 750 萬(wàn)的 token 數(shù)量,但是并不是每個(gè)專家都能看到所有的 tokens。

并行策略:由于 NVLink 的限制,OpenAI 訓(xùn)練 GPT-4 做了 8 路 tensor 并行,15 路的 pipeline 并行。

訓(xùn)練成本:OpenAI 訓(xùn)練 GPT-4 的 FLOPS 約 2.15e25,在 2.5 萬(wàn)個(gè) A100 上訓(xùn)練了 90-100 天左右時(shí)間(MFU 約 32% 到 36%),如果是一個(gè) A100 約 1 美元,那么訓(xùn)練成本約 6300 萬(wàn)美元(如果現(xiàn)在使用 H100 可能只要 2150 萬(wàn)美元)。

MoE 的取舍:使用 MoE 之后做了很多取舍,包括推理的處理困難,因?yàn)槊總€(gè)模型都用來(lái)生成文本。這意味著生成的時(shí)候有的可以使用,有的空閑,對(duì)使用率來(lái)說(shuō)非常浪費(fèi)。研究顯示 64-128 個(gè)專家的損失比 16 個(gè)專家更好。

GPT-4 的推理成本:比 1750 億的 Davinchi(GPT-3/3.5 系列)高 3 倍,主要是 GPT-4 的集群太大,利用率低一點(diǎn)。估計(jì)約 1k tokens 要 0.0049 美元(128 個(gè) A100)。

MOA:Multi Query Attention,和其他人一樣,都是正常使用 MOA。因?yàn)橹恍枰?1 個(gè) head,顯存大大下降,但是 32K 依然無(wú)法在 A100 40G 運(yùn)行。

持續(xù) batching:OpenAI 使用可變的 batch size 和持續(xù) batching 方法。可以平衡推理成本和推理速度。

Vision Multi-Modal:GPT-4 的多模態(tài)部分是單獨(dú)一個(gè) visiion encoder,帶有 cross attention。使得 1.8 萬(wàn)億的 GPT-4 的參數(shù)擴(kuò)展到 2 萬(wàn)億左右。VisionModel 是從頭訓(xùn)練的,還不夠成熟。Vision 部分的一個(gè)作用是讓代理可以月度網(wǎng)頁(yè),然后轉(zhuǎn)換成圖片和視頻。部分?jǐn)?shù)據(jù)是基于 Latex 與屏幕截屏訓(xùn)練的。還有 YouTube 視頻,包括使用 whisper 翻譯的腳本與抽幀結(jié)果。

推理架構(gòu):推理是在 128 個(gè) GPU 集群上運(yùn)行的,在不同的區(qū)域有不同的集群。每個(gè)節(jié)點(diǎn)有 8 個(gè) GPU,包含 1300 億參數(shù)的模型。或者說(shuō)每個(gè) GPU 少于 30GB 的 FP16、少于 15GB 的 FP8/int8。

原文鏈接:點(diǎn)擊前往

關(guān)鍵詞:

網(wǎng)站簡(jiǎn)介 網(wǎng)站團(tuán)隊(duì) 本網(wǎng)動(dòng)態(tài) 友情鏈接 版權(quán)聲明 我要投稿

Copyright? 2014-2020 中原網(wǎng)視臺(tái)(www.vr-apps.cn) All rights reserved.

主站蜘蛛池模板: 色翁荡息又大又硬又粗又视频图片| 《与上司出轨的人妻》电影| y111111少妇影院无码| 少女视频在线观看完整版中文| 欧美videosdesxo孕交| 末发育娇小性色xxxxx| 国产suv精品一区二区69| 国产免费破外女真实出血视频 | 成全看免费观看完整版| 人妻在卧室被老板疯狂进入| 玩弄丰满少妇人妻视频| 一边做一边说国语对白| 熟妇人妻系列aⅴ无码专区友真希 永久黄网站色视频免费观看 | 入禽太深日本免费观看| 人妻在卧室被老板疯狂进入| 在线欧美中文字幕农村电影| 国产无吗一区二区三区在线欢| 又小又紧女magnet| 亚洲va无码va在线va天堂| 国产成人亚洲精品乱码| 无码人妻aⅴ一区二区三区有奶水 久久无码人妻一区二区三区午夜 日本欧美一区二区三区乱码 | 国产欧美日韩一区二区三区| 我的乳在厨房被揉搓| 久久久人人人婷婷色东京热| 天堂网www资源在线| 娇妻粗大高潮白浆| 中国免费毛片网络| 日韩欧美aⅴ综合网站发布| 人人妻人人狠人人爽| 一面上边一面膜下边的免费| 99久久久无码国产精品免费 | 女人18片毛片60分钟| 午夜精品久久久久久久99老熟妇| 色天天躁夜夜躁天干天干| 欧洲裸毛bbbbbxxxx| 国产亚洲精品久久久久妲己 | 国产精品久久久久久影视不卡| 好爽...又高潮了毛片| 丰满少妇被猛烈进入在线播放| 好爽轻点太大了太深了| 老司机午夜福利视频|