時間:2023-06-07 18:26:51 來源: 36氪
36 氪獲悉,6 月 7 日,虎博科技正式發(fā)布并開源其自研大模型 TigerBot。同時,虎博科技還發(fā)布了大模型應用開發(fā)所需的全套 API,以及多領域專業(yè)數(shù)據(jù)。
虎博科技成立于 2017 年,是一家專注于深度學習及 NLP(自然語言處理)技術的 AI 公司,36 氪曾多次報道。此前,經(jīng)過多年技術探索和積累,虎博科技已經(jīng)擁有包括智能搜索、智能推薦、機器閱讀理解、總結、翻譯、輿情分析及撰稿在內的關鍵技術,亦有全球各行業(yè)的專業(yè)信息數(shù)據(jù)積累。
(相關資料圖)
2022 年 11 月,OpenAI 發(fā)布 ChatGPT,掀起了全球的 AI 大模型科技浪潮,中國市場也出現(xiàn)了不少團隊自研 AI 大模型的嘗試,虎博科技也是其中之一。
本次虎博科技所發(fā)布的自研大模型 TigerBot,是一個多語言多任務大規(guī)模語言模型,經(jīng)歷 3 個月的封閉式開發(fā)和超過 3000 次實驗迭代,當前已經(jīng)迭代出第一個 MVP 版本。
從功能上,Tigerbot 已經(jīng)包含大部分生成和理解類的能力,具體包括幾大部分:
內容生成:輔助用戶解決創(chuàng)作類問題,快速生成營銷文案、評論、新聞稿等等。另外,Tigetbot 也支持圖片生成——模型可以實現(xiàn)文生圖,進行插圖創(chuàng)作等
圖片生成
開放問答:用戶向 Tigerbot 提出問題,比如烹飪攻略、長文本總結、文本理解、角色對話、潤色等等
開放式問答
提取信息:比如有目的地獲取關鍵信息、提取數(shù)字、主要內容等等
長文本解讀
在 3 個月封閉開發(fā)背后,是一支精干的團隊。虎博科技創(chuàng)始人兼 CEO 陳燁對 36 氪表示,在大模型研發(fā)上,虎博團隊致敬了硅谷經(jīng)典的 " 車庫創(chuàng)業(yè) " 模式,團隊開始只有 5 個人,CEO 同時擔任首席程序員及首席 AI 科學家。
" 在大模型的研發(fā)上,我們堅信頂尖團隊能起到的作用,團隊規(guī)模不必太大,但技術需要過硬。在我們從 0 到 1 的研發(fā)過程中,我們核心的研發(fā)團隊一直保持在 4-5 個人,以及密切合作的研發(fā)狀態(tài)。" 陳燁表示。
從模型效果上看,虎博 Tigerbot 根據(jù) OpenAI InstructGPT 論文的公開 NLP 數(shù)據(jù)集上進行評測,TigerBot-7B 對應 OpenAI 同等規(guī)模的 6B 版本,其綜合表現(xiàn)能夠達到 OpenAI 效果的 96%。
以 OpenAI-instruct GPT-6B-SFT 為基準,歸一化并平均各模型的得分情況 來源:虎博科技
在過去三個月中,虎博科技主要基于 GPT 和 BLOOM 兩個開源模型基礎上,在模型架構和算法側做了一系列優(yōu)化。陳燁對 36 氪表示,虎博科技在技術突破上,主要集中在原創(chuàng)的監(jiān)督和微調方法上。" 從整個技術角度來說,監(jiān)督微調的方法是大模型這件事的核心,能夠影響模型效果的七到八成。"
比如,大模型浪潮來臨后,困擾業(yè)界的一個難題在于大模型的 " 幻覺 " ——即大模型輸出的結果,和人類說的話一樣自然,但在事實層面會 " 胡說八道 "。
陳燁以實際案例舉例,針對這一問題,虎博應用了一些經(jīng)典的監(jiān)督學習方法,如 Ensemble 和 Probabilistic Modeling,結合到大模型中。
" 假設人類在問模型一個事實性問題,Tigerbot 不會只是簡單地生成自然語言,而是同步利用更少量的數(shù)據(jù)就能知道人類意圖——在回答上,則會更好的權衡事實性和創(chuàng)造性。" 陳燁補充。這樣的結果是,機器在訓練模型中算力和數(shù)據(jù)的消耗,會比同等檔次模型要小。
針對中文語境,虎博科技從分詞器(Tokenizer)到訓練算法等方面做了針對性算法優(yōu)化,使得模型更懂中文指令,提高了問答結果的中國文化屬性。(注:這里調后了一段,因為在模型里,事實性和創(chuàng)造性決定了它是不是會胡說八道,中文環(huán)境的針對性算法優(yōu)化,可以讓它更懂中國人的交流,類似于幾個同學在一起,總有 1 個比其他人文學底蘊更好一點)
而在并訓練上,虎博的大模型團隊也突破了比如 deep-speed 等主流框架中若內存和通信問題,使得在千卡環(huán)境下,可實現(xiàn)訓練數(shù)間斷。
虎博科技在大模型研發(fā)上選擇走開源路線。此次開源內容包含模型、代碼、數(shù)據(jù)三部分,包含 TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research 等多個模型版本;基本訓練且覆蓋雙卡推理 180B 模型的量化和推理代碼;以及達 100G 的預訓練數(shù)據(jù)、監(jiān)督微調 1G/100 萬條數(shù)據(jù)。
目前,這些內容已經(jīng)全部在 Github 中發(fā)布(鏈接見此)。之所以選擇開源路線,陳燁表示,推進人類文明的技術變革往往源于本能、直覺和偶然性,擁有自由的創(chuàng)新精神是根本。
" 大模型技術就像是一門新興學科,是顛覆式且長周期的,未來的可能性超越 PC 和互聯(lián)網(wǎng)。現(xiàn)階段過早和過于理性地探討產品、應用、場景和商業(yè)化或許沒有必要,更重要的是推廣這一人工智能基礎設施的原創(chuàng)突破,促進技術的發(fā)展和更新。"
出于上述的考慮,虎博除了一部分積累的預訓練數(shù)據(jù)集,也同時開源了系統(tǒng)性的中文數(shù)據(jù)搜集和清洗方法論。陳燁并不認為數(shù)據(jù)會成為壁壘:" 更重要的是團隊對于數(shù)據(jù)清洗的理論和系統(tǒng)性的高度,這是一個長期的系統(tǒng)工程。"
虎博科技自成立之初就專注在中文 NLP 的技術和產品研發(fā)上,積累了大量高質量的中文預訓練數(shù)據(jù),本次發(fā)布的 100G 預訓練數(shù)據(jù),就是其中的一部分。未來,虎博還將開放大量的金融、法律、百科等領域專業(yè)數(shù)據(jù),供應用開發(fā)者使用。
此前幾年,虎博科技基于 NLP,開發(fā)了主要面向泛金融領域的 NLP 產品,如輿情監(jiān)測、搜索、知識圖譜等,也已經(jīng)用 api 的方式服務 B 端客戶。本次大模型的發(fā)布也會與虎博的業(yè)務相結合——當前,虎博科技已經(jīng)面向老客戶提供包括內容生成類的功能模塊。陳燁表示,大模型技術浪潮來臨后,在市場側感覺 " 客戶決策速度比以前更快,產品落地速度也更快。"
未來,虎博科技將持續(xù)投入力量到大模型的研發(fā)和落地中。陳燁談及了正在研發(fā)或者正在完善的一些功能,如研究助手 TigerDoc、文創(chuàng)和營銷工具等,虎博科技也正在內測部分面向個人的類助手產品。
歡迎交流
歡迎關注
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-06
頭條 23-06-06
頭條 23-06-06