神马午夜,欧美日韩亚洲综合一区二区三区_,中国亚洲女人69内射少妇,97免费人妻在线视频,同性男男黄gay片免费,俺来也影院,最近中文字幕免费完整版,国产香蕉一区二区三区在线视频

AI 大模型的語言不平等:英語訓(xùn)練費(fèi)用最便宜,漢語訓(xùn)練費(fèi)用是英語的 2 倍

時(shí)間:2023-08-02 07:24:29 來源: 愛范兒


近日,X(原 Twitter)用戶 @Dylan Patel 展示了一份來自牛津大學(xué)的研究:通過對(duì) GPT-4 和大多數(shù)其他常見 LLM 的語言進(jìn)行研究,研究發(fā)現(xiàn) LLM(大語言模型)推理的成本差異很大。


(資料圖片僅供參考)

其中英語輸入和輸出要比其他語言便宜得多,簡體中文的成本大約是英語的 2 倍,西班牙語的成本是英語的 1.5 倍,而緬甸撣語則是英語的 15 倍。

究其原理,可以追溯到今年 5 月份牛津大學(xué)在 arXiv 上刊印的一篇的論文。

詞元是將自然語言文本轉(zhuǎn)換成詞元(token)序列的過程,是語言模型處理文本的第一步。在 LLM 計(jì)算力成本的核算中,詞元越多,耗費(fèi)計(jì)算力的成本越高。

毫無疑問,在生成式 AI 商業(yè)化的趨勢下,計(jì)算力的耗費(fèi)成本也會(huì)嫁接給用戶,當(dāng)下許多 AI 服務(wù)也正是按照需要處理的詞元數(shù)量來計(jì)費(fèi)。

論文顯示,研究者通過分析 17 種詞元化方法后,發(fā)現(xiàn)同一文本被轉(zhuǎn)換成不同語言詞元序列時(shí)長度差異巨大,即使是宣稱支持多語言的詞元化方法,也無法做到詞元序列長度完全公平。

例如,根據(jù) OpenAI 的 GPT3 tokenizer,倘若給「你的愛意」詞元化,英語只需兩個(gè)詞元,而在簡體中文中則需要八個(gè)詞元。即使簡體中文文本只有 4 個(gè)字符,而英文文本有 14 個(gè)字符。

從 X 用戶 @Dylan Patel 曝光的圖片也可以直觀看到,讓 LLM 處理一句英語需要 17 個(gè)詞元(tokens),而讓 LLM 處理同樣意思的一句緬語,則需要 198 個(gè)詞元(tokens)。這意味著緬語的處理成本將達(dá)到英語的 11 倍。

類似的情況也有很多,Aleksandar Petrov 的網(wǎng)站中提供了許多相關(guān)的圖標(biāo)和數(shù)據(jù),感興趣的朋友不妨點(diǎn)擊「https://aleksandarpetrov.github.io/tokenization-fairness/」進(jìn)去查看語言之間的差異。

在 OpenAI 的官網(wǎng)上也有著類似的頁面,解釋了 API 是如何對(duì)一段文本進(jìn)行詞元化,以及顯示該文本的詞元總數(shù)。官網(wǎng)也提到,一個(gè)詞元通常對(duì)應(yīng)英語文本的約 4 個(gè)字符,100 個(gè)詞元約等于 75 個(gè)單詞。

得益于英語詞元序列長度短的優(yōu)勢,在生成式人工智能預(yù)訓(xùn)練的成本效益方面,英語可謂是最大贏家,將其他語言使用者遠(yuǎn)遠(yuǎn)地甩在身后,間接產(chǎn)生了一種不公平的局面。

除此之外,這種詞元序列長度的差異也會(huì)導(dǎo)致處理延遲不公平(某些語言處理同樣內(nèi)容需要更多時(shí)間)和長序列依賴性建模不公平(部分語言只能處理更短的文本)。

簡單點(diǎn)理解,就是某些語言的用戶需要支付更高的成本,承受更大的延遲,獲得更差的性能,從而降低了他們公平地訪問語言技術(shù)的機(jī)會(huì),也就間接導(dǎo)致了英語使用者和世界其他語言使用之間形成了 AI 鴻溝。

僅從輸出的成本來看,簡體中文的成本是英語的兩倍。伴隨著 AI 領(lǐng)域的深層次發(fā)展,總是「差一步」的簡體中文顯然并不友好。在成本等各方面疊加因素的權(quán)衡下,非英語母語的國家也紛紛嘗試開發(fā)自己的母語語言大模型。

以中國為例,作為國內(nèi)最早一批探索 AI 的巨頭,2023 年 3 月 20 日,百度正式上線生成式 AI 文心一言。

隨后阿里巴巴的通義千問大模型、華為的盤古大模型等一批批優(yōu)秀大模型也陸續(xù)涌現(xiàn)出來。

在這當(dāng)中,華為盤古大模型中的 NLP 大模型更是行業(yè)內(nèi)首個(gè)千億參數(shù)中文大模型,擁有 1100 億密集參數(shù),經(jīng)過 40TB 的海量數(shù)據(jù)訓(xùn)練而成。

正如聯(lián)合國常務(wù)副秘書長阿米娜 · 穆罕默德曾經(jīng)在聯(lián)合國大會(huì)上警告說,如果國際社會(huì)不采取果斷行動(dòng),數(shù)字鴻溝將成為「不平等的新面孔」。

同理,伴隨著生成式 AI 的狂飆突進(jìn),AI 鴻溝也很有可能成為新一輪值得關(guān)注的「不平等的新面孔」。

所幸的是,平時(shí)「慘遭嫌棄」的國內(nèi)的科技巨頭已然采取了行動(dòng)。

關(guān)鍵詞:

網(wǎng)站簡介 網(wǎng)站團(tuán)隊(duì) 本網(wǎng)動(dòng)態(tài) 友情鏈接 版權(quán)聲明 我要投稿

Copyright? 2014-2020 中原網(wǎng)視臺(tái)(www.vr-apps.cn) All rights reserved.

主站蜘蛛池模板: 在线观看日本亚洲一区| 人与性动交aaaabbbb视频| xxxxx内射xxxx| 人人妻人人狠人人爽| 精品色卡一线二线三线的| 亚洲色偷偷av| 亚洲 自拍 另类 欧美 综合| 精品无人乱码一区二区三区| 欧美人妻少妇精品久久黑人 | 浪漫樱花免费播放高清版在线观看| 欲色天天网综合久久| 无码精品久久一区二区三区 | 黑森林av导航| aⅴ久久欧美丝袜综合| av无码精品一区二区三区| 国产精品久久久福利| 7777奇米四色眼影| 超碰人人超碰人人| 久久午夜无码鲁丝片直播午夜精品 | 少妇人妻偷人精品视频| 漂亮人妻洗澡被公强 日日躁 | 少妇午夜啪爽嗷嗷叫视频| 狠狠干狠狠爱| 国产成年无码久久久久下载| 欧美影院| 国产免费视频| 吃奶揉捏奶头高潮视频在线观看| 最近的2019中文字幕国语hd| 亚洲精品av一区二区黑人| 中文无码熟妇人妻av在线| 欧妇女乱妇女乱视频| 亚洲国产精品无码专区| 国产亚洲精品久久久久妲己| 精品香蕉久久久午夜福利| 一个人在线观看免费完整版| 中字幕一区二区三区乱码| 亚洲国产区男人本色| 亚洲欧美自拍偷一区二区| 漂亮人妻沦陷精油按摩| 亚洲精品美女久久777777| 最近免费中文字幕大全高清大全10|