時(shí)間:2023-06-14 19:06:57 來源: 機(jī)器之心
機(jī)器之心報(bào)道
(資料圖)
作者:姜菁玲
人工智能熱潮正快速點(diǎn)燃 AI 科學(xué)家的創(chuàng)業(yè)熱情。繼原京東高級(jí)副總裁周伯文離職創(chuàng)業(yè)后,京東另一 AI 大牛梅濤同樣在近日宣布創(chuàng)業(yè)。
今年春節(jié)前,梅濤告別京東集團(tuán)副總裁一職,決心投身大模型創(chuàng)業(yè)。一個(gè)月后,HiDream.ai 成立,公司方向確定為生成式視覺多模態(tài)基礎(chǔ)模型與應(yīng)用。
梅濤畢業(yè)于中國科學(xué)技術(shù)大學(xué),是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow。多年來,梅濤主要在計(jì)算機(jī)視覺和多媒體領(lǐng)域建樹,是多媒體領(lǐng)域獲得國際最佳論文獎(jiǎng)最多的華人學(xué)者。目前,梅濤博士還是中國科學(xué)技術(shù)大學(xué)和香港中文大學(xué)(深圳)的兼職教授和博士生導(dǎo)師。
由多位中科大校友組成的投資方評(píng)價(jià)梅濤," 是一個(gè)足夠有野心,且有 CEO 才能的人 "。
正式創(chuàng)業(yè)前,梅濤與周伯文、何曉冬三人是京東 AI 部門的牽頭人物,負(fù)責(zé)了京東拍照購、多模態(tài)內(nèi)容審核與生成、多模態(tài)數(shù)字人、智能機(jī)械臂等技術(shù)的研發(fā)。更早之前,梅濤在微軟亞洲研究院工作了 12 年,支持了微軟圖像、視頻搜索與摘要、Office 圖文混排等 AIGC 項(xiàng)目。
從能力板塊上看,與許多 AI 科學(xué)家只擁有技術(shù)的極致長(zhǎng)板不同,在微軟與京東這兩家世界五百強(qiáng)的職業(yè)經(jīng)歷一定程度上為他補(bǔ)充了產(chǎn)品與市場(chǎng)視角。
至今,HiDream.ai 已經(jīng)成立三個(gè)月。機(jī)器之心在位于北京中關(guān)村蘇州街上的 HiDream.ai 辦公室看到的 Demo 顯示,HiDream.ai 的模型不僅能夠支持文生圖,還能支持文生視頻、圖生視頻以及文生 3D 內(nèi)容。
其中,文生圖產(chǎn)品支持輸入 Prompt 生成圖片,還能夠?qū)θ我鈭D片中的想要修改的部分進(jìn)一步編輯。比如要求修改所生成圖片的背景、主體等。
輸入 " 小熊拉琴 ",文生視頻產(chǎn)品能夠生成相應(yīng)的短視頻或者動(dòng)圖。
輸入 " 冰激凌 ",文生 3D 產(chǎn)品能夠?qū)崟r(shí)生成具有高度真實(shí)感冰激凌的 3D 原型。
紅杉美國所發(fā)布的《Generative AI: A Creative New World》一文中提到,世界范圍內(nèi),文生圖片、視頻、3D 領(lǐng)域的技術(shù)成熟度遠(yuǎn)遠(yuǎn)低于文生文。在大語言模型訓(xùn)練中面臨的數(shù)據(jù)緊缺、商業(yè)邊界不清晰等問題在生成式視覺模型上更為緊張。
隨著全球大模型生態(tài)的二八效應(yīng)逐步加劇,追隨者的成本快速增長(zhǎng)。梅濤團(tuán)隊(duì)的初步目標(biāo)是年底前在基礎(chǔ)模型上超越 Stable Diffusion 最新版本,而在產(chǎn)品上則要趕超 MidJourney。
以下為機(jī)器之心與梅濤的對(duì)話:
年底前超越 Stable Diffusion
機(jī)器之心:HiDream.ai 的整體目標(biāo)是什么?
梅濤:我們希望構(gòu)建一個(gè)全球領(lǐng)先的視覺多模態(tài)基礎(chǔ)模型,可以用一個(gè)基礎(chǔ)模型實(shí)現(xiàn)不同模態(tài)之間的生成轉(zhuǎn)換,支持文字到圖片、文字到視頻、圖片到視頻、文字到 3D 等不同應(yīng)用。我們的整體構(gòu)想是模型層和應(yīng)用層一起發(fā)力。
機(jī)器之心:目前許多 AI 科學(xué)家選擇在大語言模型方向創(chuàng)業(yè),你在多模態(tài)視覺底層模型投入的理由是什么?
梅濤:從大的角度看,我認(rèn)為人與人的交流天然就是多模態(tài)的形式,而不僅僅只是一個(gè)文字和語言的模塊。
我們現(xiàn)在講語言模型,其實(shí)忽略了一點(diǎn),語言模型本身就應(yīng)該是多模態(tài)的,而并非僅是像目前 ChatGPT 所實(shí)現(xiàn)的——僅僅是文字的交流。視覺信息其實(shí)占據(jù)了我們?nèi)祟惷刻焖a(chǎn)生和接受的信息量的 80% 以上,因此視覺是非常重要的一種模態(tài)。
其次,我是技術(shù)出身,因此創(chuàng)業(yè)一定是根據(jù)自身的特長(zhǎng)。多年以來,我們?cè)谝曈X領(lǐng)域做得非常深入,因此有足夠的競(jìng)爭(zhēng)力和全球視野。
雖然我們拿到算力資源開始訓(xùn)練不到 8 周,但是我們短期的目標(biāo)是在今年年底前,在基礎(chǔ)模型領(lǐng)域超越 Stable Diffusion,在文生圖產(chǎn)品上趕超 MidJourney,我們相信自己可以做得更好。
機(jī)器之心:" 更好 " 會(huì)體現(xiàn)在哪些方面?
梅濤:現(xiàn)在大語言模型基本已經(jīng)固化在 GPT 的架構(gòu)上,只是大家用不一樣的訓(xùn)練數(shù)據(jù)和訓(xùn)練技巧。并且 GPT 架構(gòu)的天花板也很高,許多模型的參數(shù)量已經(jīng)接近萬億級(jí)別。
但是目前的視覺基礎(chǔ)模型卻還有很大的進(jìn)步空間。以被應(yīng)用較多的 Diffussion 模型來看,它的天花板比較低,參數(shù)量只有十幾億到二十幾億。
所以我們就在想能不能做出一個(gè)比 Diffusion 框架更好更智能的底層模型,使得現(xiàn)在的視覺多模態(tài)基礎(chǔ)模型可以從類似 GPT-2 的時(shí)代,向 3.0 甚至 4.0 時(shí)代進(jìn)步。GPT-2 的時(shí)候,參數(shù)量是幾十億,GPT-3 進(jìn)入了百億。
那今天的視覺(類)模型還處于 2.0 時(shí)代,有沒有哪家公司能做到百億參數(shù),使得模型在提升自己能力的同時(shí)甚至可以出現(xiàn)智能涌現(xiàn)。
機(jī)器之心:要做到這個(gè)目標(biāo),目前有哪些限制性問題需要解決?
梅濤:首先是數(shù)據(jù)問題。市場(chǎng)上高質(zhì)量的圖文配對(duì)以及用于視頻理解訓(xùn)練的數(shù)據(jù)非常稀缺。
我們?cè)诶鋯?dòng)的情況下,目前大概有 60 億參數(shù)的訓(xùn)練數(shù)據(jù)。我們希望將來產(chǎn)品上線后,數(shù)據(jù)能形成一個(gè)飛輪反哺到模型,這樣我們就可以實(shí)現(xiàn)算法和數(shù)據(jù)的雙輪驅(qū)動(dòng)。
其次是模型容量問題。當(dāng)下就算我們給 Diffussion 模型投喂更多的數(shù)據(jù),因?yàn)槟P腿萘啃 ⑻旎ò宓停赡芤灿洸蛔∵@么多的視覺信息。也就是說,即使我們擁有百億級(jí)的數(shù)據(jù),放到現(xiàn)有的模型里去訓(xùn)練,可能也只能得出 10-20 億左右的參數(shù)。
所以我們會(huì)去增加一些強(qiáng)有力的補(bǔ)丁,比如說記憶增強(qiáng)。只有一個(gè)系統(tǒng)模型的容量大了,記憶力增強(qiáng)了,相當(dāng)于我們?nèi)四X的神經(jīng)元多了,這個(gè)時(shí)候你就能記住更多的信息和知識(shí)。
機(jī)器之心:算力問題您怎么考慮?
梅濤:我不覺得算力是一個(gè)問題。
首先,對(duì)于我們來說,并不需要像大語言模型那樣需要上千甚至上萬張卡。按照要將參數(shù)做到百億這個(gè)目標(biāo)去算,我們預(yù)計(jì)只需要幾百張 A100,這對(duì)我們來說不構(gòu)成困難。
其次,根據(jù)摩爾定律,在不遠(yuǎn)的將來,算力成本將會(huì)成倍降低,同時(shí)運(yùn)算能力會(huì)指數(shù)增長(zhǎng),因此算力將不再是稀缺資源。
機(jī)器之心:你們的技術(shù)優(yōu)勢(shì)是什么?
梅濤:我們有三大技術(shù)優(yōu)勢(shì)。
首先是我們?cè)谝曈X信號(hào)的編碼方面有獨(dú)到的方法。視覺信號(hào)與文字信號(hào)不一樣,文字的 tokenization 相對(duì)簡(jiǎn)單,因?yàn)槊總€(gè)單詞就是一個(gè) token,并且它的語義也是相對(duì)固定的;但是從一張照片或一段視頻中去做 tokenization,則是一個(gè)很難的問題。如果用像素作為 token,則意味著爆炸式的計(jì)算量,同時(shí)像素之間的相關(guān)性也很差。
而我們采用的方法是構(gòu)建一個(gè)能夠處理更高維度像素之間的視覺相關(guān)性的 Transformer 編碼器(Contextual Vision Transformer),這樣的好處是不僅能夠顯著增強(qiáng)視覺自注意力的學(xué)習(xí)能力,并且可以擴(kuò)大視覺編碼器的感受野,使得我們學(xué)習(xí)到的視覺 token 具備更強(qiáng)的表達(dá)能力。
其次是模型方面的創(chuàng)新,我們會(huì)通過訓(xùn)練一個(gè)單獨(dú)的記憶模塊,讓現(xiàn)有模型的記憶力得到增強(qiáng),能夠接受和學(xué)習(xí)更多的視覺信息。
最后,我們希望能將現(xiàn)在的 Diffusion 框架在模型的深度和寬度兩個(gè)維度做得更深,通過一些工程上的精細(xì)化調(diào)整,使得我們的模型規(guī)模能上一個(gè)量級(jí),將來可以實(shí)現(xiàn)更精細(xì)化的和可控的視覺內(nèi)容生成。
當(dāng)然,在模型本身的理論創(chuàng)新方面,我自己的博士生們也在努力攻關(guān),希望在原創(chuàng)模型上能有所突破。
用文生圖來證明底層模型
機(jī)器之心:現(xiàn)在基于底層模型,你們有文生圖、文生視頻、文生 3D 內(nèi)容三個(gè)具體應(yīng)用,三個(gè)應(yīng)用的研發(fā)節(jié)奏是怎樣的?
梅濤:整體上,我們希望做一個(gè)通用的生產(chǎn)力工具,之后變成一個(gè)生產(chǎn)力平臺(tái),最終形成一個(gè)社區(qū),大家在社區(qū)中去共享共創(chuàng)。工具化驗(yàn)證后,希望可以做成一個(gè)相對(duì)通用的產(chǎn)品線,不僅服務(wù)游戲和營銷等相關(guān)領(lǐng)域,更多其他行業(yè)的客戶可以通過調(diào)用 API 接口,或者定制模型來服務(wù)。
目前,我們是一邊做模型,一邊做文生圖產(chǎn)品。文生圖產(chǎn)品將會(huì)直接面向市場(chǎng),我們正在與一些大行業(yè)客戶旗下的設(shè)計(jì)師共同合作打磨產(chǎn)品,預(yù)計(jì)在 7 月底正式上線,年底前將實(shí)現(xiàn)規(guī)模化的實(shí)施。另外,文生視頻我們會(huì)同步做,不過可能會(huì)在年底前推出。文生 3D 內(nèi)容相對(duì)優(yōu)先級(jí)較后,我們保持探索。
機(jī)器之心:為什么文生圖產(chǎn)品的優(yōu)先級(jí)是最高的?
梅濤:原因有三點(diǎn)。
第一,文生圖是做好文生視頻和 3D 的基礎(chǔ),如果沒有好的文字到圖像的模型,那我們也很難做好文字到視頻和 3D,因此文生圖是基礎(chǔ)。
第二,我們希望用文生圖的產(chǎn)品來驗(yàn)證自己的底層模型能力和商業(yè)化路徑,也可以在效果上很快就能做得比現(xiàn)有模型好。
第三,先做文生圖,也是因?yàn)槲纳曨l和文生 3D 在技術(shù)和市場(chǎng)上仍然處于早期,需要一定的時(shí)間去探索。
機(jī)器之心:你如何理解這三者的市場(chǎng)空間?
梅濤:文生圖的市場(chǎng)空間其實(shí)很大。參考 MidJourney 只有 11 個(gè)人的團(tuán)隊(duì),已經(jīng)做到超過 1 個(gè)億美金的收入了。
在文生圖的商業(yè)化上,我們目前希望切入產(chǎn)品設(shè)計(jì)和營銷這兩個(gè)價(jià)值鏈中最重要也是最普遍的環(huán)節(jié)。在產(chǎn)品設(shè)計(jì)上,我們希望首先面向?qū)I(yè)設(shè)計(jì)師群體,通過可控、可交互的圖片生成服務(wù),幫助他們更好地實(shí)現(xiàn)創(chuàng)意,提升生產(chǎn)力,讓設(shè)計(jì)師形成較好的使用和付費(fèi)習(xí)慣,之后再不斷外延到 UGC 用戶。
全球有 9000 萬設(shè)計(jì)師,中國有 2000 萬,設(shè)計(jì)師所面臨的痛點(diǎn)主要在于沒有足夠多的創(chuàng)意,以及驗(yàn)證創(chuàng)意的成本太高。我們希望這個(gè)工具可以幫助設(shè)計(jì)師提升個(gè)人的競(jìng)爭(zhēng)力,可以幫助他們快速產(chǎn)生更多更好的創(chuàng)意,并加速生產(chǎn)流程。
而文生視頻的市場(chǎng)空間會(huì)比文生圖賽道更大,它可能會(huì)顛覆目前短視頻的玩法。參考目前用戶對(duì)短視頻內(nèi)容的大量消費(fèi)情況,當(dāng) PGC 驗(yàn)證過后,文生視頻工具在 UGC 領(lǐng)域的需求會(huì)是顛覆性的爆發(fā)。同時(shí),文生視頻目前還沒有一家可以做到像素級(jí)絲滑(沒有任何抖動(dòng))的生成,可提升空間很大,當(dāng)然技術(shù)壁壘也是非常的高。
文生 3D 在游戲和 AR/VR 領(lǐng)域的想象空間則非常大。我們?cè)谧鲇螒蝾I(lǐng)域的客戶訪談時(shí)發(fā)現(xiàn),客戶最大的需求在 3D 內(nèi)容創(chuàng)建。我們團(tuán)隊(duì)本身在 3D 方向擁有很多學(xué)術(shù)積累,雖然目前整體技術(shù)還很不成熟,但是值得探索。
機(jī)器之心:那么文生圖將會(huì)是你們第一個(gè)面世的產(chǎn)品。從去年到現(xiàn)在,許多大廠和小廠都在文生圖賽道上做了嘗試。此刻切入這個(gè)市場(chǎng),你們的優(yōu)勢(shì)是什么?
梅濤:目前文生圖賽道確實(shí)很卷,市場(chǎng)競(jìng)爭(zhēng)非常激烈。我們看到雖然很多公司做得還不錯(cuò),但仍然有人臉、手指、景深、可控性等很多技術(shù)問題沒有解決。
從技術(shù)上講,市場(chǎng)上的眾多文生圖產(chǎn)品,相當(dāng)于一桌滿漢全席,各家有不同的搭配方法。我們清晰地知道這些是怎么搭配的,因此我們知道怎么去更好地去把這一桌菜做搭配。
從結(jié)果上看,我們模型迭代的速度很快,不到 6 個(gè)禮拜就從 0 到 1 研發(fā)并迭代了一個(gè)相對(duì)穩(wěn)定的模型,其他團(tuán)隊(duì)可能需要幾倍的時(shí)間。別人可能需要訓(xùn)練十次才能拿到一個(gè)比較滿意的結(jié)果,而我們只需要兩三次。
市場(chǎng)方面,我們是面向全球市場(chǎng)。而且文生圖只是我們基于底層視覺模型來打樣的一個(gè)產(chǎn)品,對(duì)于其他的文生圖公司,我們本質(zhì)上也并非競(jìng)爭(zhēng)關(guān)系,未來他們也能夠選擇調(diào)用我們的基礎(chǔ)模型來做微調(diào)(finetuning)訓(xùn)練或直接使用我們的 API 接口服務(wù)。
ChatGPT 的出現(xiàn)加速了我的創(chuàng)業(yè)進(jìn)程
機(jī)器之心:你此前的職業(yè)路徑都在大廠。創(chuàng)業(yè)這件事,在你的預(yù)期之中嗎?
梅濤:在。我之前的職業(yè)生涯實(shí)際上是在有意識(shí)的為創(chuàng)業(yè)做準(zhǔn)備。在微軟期間,我主要在技術(shù)方向上磨練,之后去到京東,所做的工作離產(chǎn)品和市場(chǎng)更近了,幫我補(bǔ)充了技術(shù)之外的視角,是一段非常好的經(jīng)歷。
但沒有預(yù)料到的是 ChatGPT 的爆火,為生成式 AI 帶來了爆炸式的熱度,這加速了我的創(chuàng)業(yè)計(jì)劃。但即使沒有這件事,我仍然會(huì)創(chuàng)業(yè),早晚的事。創(chuàng)業(yè)這件事,在我看來,一輩子注定要做一次;如果不做,我會(huì)后悔。
另外,我創(chuàng)業(yè)的一個(gè)重大原因是大廠的節(jié)奏相對(duì)比較慢,而我做事特別快,我認(rèn)為創(chuàng)業(yè)公司在節(jié)奏上會(huì)快很多。因?yàn)樵谶@個(gè)賽道上我們已經(jīng)比國外落后了 9 個(gè)月甚至 1 年,所以我認(rèn)為應(yīng)該用更快的加速度去追趕、甚至超越它,而不是說按部就班地去做。
我現(xiàn)在經(jīng)常拿著背包,時(shí)刻準(zhǔn)備著出差。有時(shí)我不知道明天會(huì)在哪個(gè)城市,感覺創(chuàng)業(yè)的生活有點(diǎn)像我們現(xiàn)在所做的 Decoding,每天都在解鎖未知的事情,很辛苦但也很充實(shí)!
機(jī)器之心:你認(rèn)為這次的人工智能創(chuàng)業(yè)潮與以往的有什么區(qū)別?
梅濤:這次人工智能創(chuàng)業(yè)的門檻非常之高。在模型層,需要你有高密度的算法科學(xué)家,其次還需要有足夠的算力,足夠的數(shù)據(jù)。以往的判別式 AI 公司(如人臉識(shí)別),雖然有頭部公司,但是小公司跟隨起來不是特別費(fèi)勁,但是現(xiàn)在完全不同。
機(jī)器之心:公開資料顯示,你已經(jīng)完成了來自阿爾法公社、中喝大種子一號(hào)基金參與的種子輪融資,近期還將完成第二輪融資。目前公司在人才和資金方面的進(jìn)展如何?
梅濤:公司已經(jīng)運(yùn)營了接近三個(gè)月的時(shí)間,目前我們的辦公場(chǎng)所,還有早期的人才和算力已經(jīng)基本到位。
資金方面,我們正在采用小步快跑的模式快速迭代,種子輪只是起步資金,今年年底前預(yù)計(jì)會(huì)分兩輪完成數(shù)千萬美金額度的天使輪融資。下一輪資金將用來擴(kuò)張團(tuán)隊(duì)、購買算力資源以及商業(yè)化探索。目前團(tuán)隊(duì)共有十一人,預(yù)期在年底前會(huì)擴(kuò)張到二十至三十人左右。我希望構(gòu)建一個(gè)小規(guī)模的精干團(tuán)隊(duì)。
機(jī)器之心:聽下來年底對(duì)你們來說是一個(gè)比較重要的節(jié)點(diǎn)。那接下來的半年,你們會(huì)著重解決哪些問題?
梅濤:第一個(gè)是模型方面,我能否將它做到百億級(jí),模型效果在參加評(píng)測(cè)時(shí)能否對(duì)標(biāo)甚至略超過目前的模型;其次,在文生圖產(chǎn)品上,我們的效果能不能超過目前世界上最好的公司;第三,我們內(nèi)心完整的商業(yè)模式能否得到初步驗(yàn)證,比如我們能否服務(wù)好行業(yè)中的小 B 客戶以及我們的用戶到底喜不喜歡我們的種子產(chǎn)品,這對(duì)我來說是很重要的指標(biāo)。我未來的半年主要就是把這三件事做好。
THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-14
頭條 23-06-13
頭條 23-06-13
頭條 23-06-13
頭條 23-06-13
頭條 23-06-13