作者|油醋,郵箱|zhuzheng@pingwest.com
智源研究院理事長(zhǎng)張宏江在為圖靈獎(jiǎng)獲得者Yann LeCun的自傳《科學(xué)之路》作序時(shí)有這樣一句話:“歷史上多數(shù)突破性研究成果的出現(xiàn)都是偶然事件,而研究機(jī)構(gòu)所有努力都是為了提升這類偶然事件發(fā)生的概率。”
Yann LeCun在1980年代末第一次走進(jìn)AT&T貝爾實(shí)驗(yàn)室,等到他完全告別這座美國(guó)最大的業(yè)界研究機(jī)構(gòu)已經(jīng)是2002年。之后進(jìn)入紐約大學(xué)創(chuàng)立數(shù)據(jù)科學(xué)中心,以及加入Facebook領(lǐng)導(dǎo)扎克伯格重注的AI研究部門,都建立在那開發(fā)出了LeNet的黃金十年上。??
而對(duì)于智源研究院來(lái)說(shuō),這個(gè)非盈利組織所建立的目的與這句話如出一轍。這是一個(gè)匯聚人工智能創(chuàng)新要素的平臺(tái),更是一個(gè)集結(jié)最優(yōu)秀同行,為未來(lái)可能產(chǎn)生原始創(chuàng)新與長(zhǎng)期影響的領(lǐng)域提供空間的社區(qū),以期能讓中國(guó)出現(xiàn)突破性成果的概率增加。
成立五年后,生成式AI的智力水平突然有了ChatGPT這樣一個(gè)大幅超過人類預(yù)期的樣本,突破性的時(shí)間節(jié)點(diǎn)呼之欲出。
朝著ChatGPT追趕,修煉基礎(chǔ)大模型,成了從去年年末開始全球AI領(lǐng)域最直覺性的奮斗路徑。
智源研究院是國(guó)內(nèi)最早開始著手大模型研究的團(tuán)隊(duì)。2021年一份《On the Opportunities and Risk of Foundation Models》的研究報(bào)告統(tǒng)一了Foundation Models(基礎(chǔ)模型)的概念,而在這份報(bào)告出現(xiàn)的半年前,智源研究院院長(zhǎng)黃鐵軍開始提出中文的“大模型”概念,隨著黃鐵軍提出“人工智能的發(fā)展已經(jīng)從‘大煉模型’逐步邁向了‘煉大模型’的階段”,智源研究院拿出了悟道1.0,項(xiàng)目負(fù)責(zé)人是唐杰。
2個(gè)月后悟道2.0出現(xiàn),1.75萬(wàn)億的參數(shù)量擴(kuò)展到當(dāng)時(shí)GPT-3的10倍?,F(xiàn)在智源研究院正在基礎(chǔ)大模型的開源路徑上走深。兩周前發(fā)布的中英雙語(yǔ)大模型AquilaChat2-34B在22項(xiàng)評(píng)測(cè)基準(zhǔn)中拿到領(lǐng)先身位,AquilaChat2-34B以及AquilaChat2-34B V1.2 版本的權(quán)重也在昨天進(jìn)一步開放了。
現(xiàn)在是ChatGPT出現(xiàn)的11個(gè)月之后,幾乎一年。智源研究院拿出最新開源模型的時(shí)候,閉源的GPT-4在相當(dāng)多的任務(wù)類型上一騎絕塵,Claude-2在身后緊追,全球圍繞開源模型Llama 2所建立的上下游生態(tài)在迅速豐富,而國(guó)內(nèi)冒出的大模型廠商已經(jīng)幾乎達(dá)到100家。
大模型的發(fā)展跑的太快了,最直白的參照是模型能力評(píng)價(jià)方法的嚴(yán)重滯后。
“如果我們根本不能預(yù)測(cè)這個(gè)模型它能做什么,那我們又該用什么題去考它呢?”智能研究院副院長(zhǎng)兼總工程師林詠華提出了這樣的問題。
10月26日,2023界面REAL科技大會(huì)后,我們有機(jī)會(huì)和這位智源研究院內(nèi)部,語(yǔ)言大模型、大模型技術(shù)棧、AI系統(tǒng)研發(fā)的負(fù)責(zé)人有一次對(duì)話的機(jī)會(huì)?,F(xiàn)在將其中一些關(guān)于大模型評(píng)測(cè)方式現(xiàn)狀,以及中國(guó)開發(fā)者該如何看待開源這件事的討論整理出來(lái)(為閱讀方便做了一些文本處理):
問:度量大模型能力的榜單是不是太泛濫了?
林詠華:我們之前模型發(fā)布后,也有國(guó)外的一些的用戶在推特上討論為什么在MMLU(Massive Multitask Language Understanding)上評(píng)分沒有那么高。大家有時(shí)候過分的關(guān)注一些指標(biāo),但是實(shí)際上有一些測(cè)評(píng)榜單完全是可以靠定向的訓(xùn)練數(shù)據(jù)來(lái)拔高分?jǐn)?shù)的,所以也大家會(huì)看到,甚至是一些7B 、十幾B的模型,它都能夠考出很高的分?jǐn)?shù)。
到現(xiàn)在確實(shí)仍然沒有一個(gè)被公認(rèn)的測(cè)評(píng)集,但至少C-Eval、MMLU以及CMMLU,這幾個(gè)類似的測(cè)評(píng)集已經(jīng)有點(diǎn)被各個(gè)模型過度訓(xùn)練。所以,時(shí)至今日觀察大模型能力時(shí),我建議大家不用過度關(guān)注這幾個(gè)測(cè)試集的評(píng)分。
另外,我一直覺得,如果模型為了拉這些榜單的分?jǐn)?shù)而去訓(xùn)練的話,容易損失模型在之后的一些能力的。
問:那要如何從測(cè)評(píng)集中辨別大模型的能力?
林詠華:如果需要從現(xiàn)有市面上的各種評(píng)測(cè)集中去辨別的話,目前只能盡量擴(kuò)充測(cè)評(píng)集的差異化。第一就是要看哪些評(píng)測(cè)結(jié)果囊括的評(píng)測(cè)集數(shù)量較多,第二就是囊括的測(cè)評(píng)集不要都是評(píng)測(cè)類似能力的,比如把各種推理能力、生成能力、甚至數(shù)學(xué)和代碼能力等等不同側(cè)重的評(píng)測(cè)集都包括,讓對(duì)大模型的評(píng)價(jià)更多元一些。
此外很重要的一點(diǎn)是,要保證這些評(píng)測(cè)的對(duì)比結(jié)果是在同一個(gè)環(huán)境下獲得。不同評(píng)測(cè)代碼和設(shè)置,對(duì)不同模型的評(píng)測(cè)結(jié)果會(huì)有影響,如果不能做到在同一個(gè)環(huán)境下獲得不同模型的評(píng)測(cè)結(jié)果,很難保證公平公正。智源研究院做的大模型評(píng)測(cè)系統(tǒng)FlagEval,就是嚴(yán)格對(duì)所有開源模型進(jìn)行一致的評(píng)測(cè),這樣才能保證評(píng)測(cè)結(jié)果的公平、可信。
但另一方面,大模型進(jìn)入具體行業(yè)是要在基礎(chǔ)模型上去做微調(diào),好不好用其實(shí)并不在于這些基礎(chǔ)模型打榜時(shí)候的分?jǐn)?shù)高低。這一點(diǎn)對(duì)評(píng)估基礎(chǔ)模型的能力十分重要。
問:也就是說(shuō)最好越過評(píng)測(cè)基準(zhǔn),來(lái)衡量一個(gè)基礎(chǔ)模型的能力?
林詠華:我認(rèn)為基礎(chǔ)模型更重要的衡量,在于它在下游任務(wù)上經(jīng)過微調(diào)之后的表現(xiàn)。給后續(xù)使用者提供強(qiáng)大的模型能力“后勁”,這是我個(gè)人覺得基礎(chǔ)模型最重要的能力。
問:如何衡量這種“后勁”?
林詠華:比如,一個(gè)好的基礎(chǔ)模型和一個(gè)欠優(yōu)的基礎(chǔ)模型,用同樣的數(shù)據(jù)去微調(diào)這兩個(gè)基礎(chǔ)模型,最后在一個(gè)相同任務(wù)上的表現(xiàn)差異是比較能夠反映兩個(gè)基礎(chǔ)模型之間的能力差異的。我們自己做了7B、34B等等一些不同能力的模型,很明顯的能夠看出來(lái)這一點(diǎn)。
這就像是天賦不同的學(xué)生,給定一樣的時(shí)間,學(xué)一樣的東西,最后學(xué)到的東西會(huì)有差異。
但這樣的評(píng)估方式,每一次都涉及微調(diào)的訓(xùn)練成本。對(duì)于內(nèi)部研發(fā)沒有問題,但如果作為外部的評(píng)測(cè),往往需要考慮評(píng)測(cè)代價(jià)、微調(diào)數(shù)據(jù)的選擇等等眾多因素。我們自己也在做這方面的探索,但目前市面上還沒有從這個(gè)邏輯出發(fā)的高效評(píng)測(cè)方法和體系出現(xiàn)。
問:談?wù)勯_源這件事吧,國(guó)內(nèi)開發(fā)者對(duì)開源社區(qū)的依賴程度很高,但好像并不太承擔(dān)主導(dǎo)的角色?
林詠華:這是個(gè)有趣的現(xiàn)象。
中國(guó)并不缺乏參與開源的開發(fā)者或者企業(yè),所謂“參與開源”,就是參與到別人的開源項(xiàng)目里。這些開源項(xiàng)目往往是全球性的,就像當(dāng)初的OpenStack,其中有很多中國(guó)的開發(fā)者和公司做了貢獻(xiàn)。但它們中大多數(shù)項(xiàng)目不是由中國(guó)的程序員或公司發(fā)起的,而是由中國(guó)以外的開發(fā)者或公司發(fā)起。
我們衡量一個(gè)開源項(xiàng)目是否成功,其中有一個(gè)維度就是有多少不同的團(tuán)隊(duì)或組織在其中有所貢獻(xiàn)。其實(shí)由中國(guó)公司或團(tuán)隊(duì)發(fā)起的開源項(xiàng)目一點(diǎn)都不少。但是項(xiàng)目最終做大的很少,尤其是做到像OpenStack這樣,由多個(gè)公司和組織一起來(lái)貢獻(xiàn)的更少。
問:怎么理解這個(gè)“一點(diǎn)都不少”?
林詠華:如果把GitHub等等開源社區(qū)中所有開源了的項(xiàng)目都算上,其實(shí)中國(guó)開發(fā)者發(fā)起的開源項(xiàng)目很多。但其中更多是活躍了1~2個(gè)月,然后就沒有堅(jiān)持下來(lái)。
問:為什么這些項(xiàng)目留不下?
林詠華:開源項(xiàng)目的成功需要持之以恒的投入,一個(gè)開源項(xiàng)目發(fā)布之后馬上就火了只是極個(gè)別的案例。堅(jiān)持更新、不斷的迭代才能夠讓開源的項(xiàng)目變得更優(yōu)質(zhì)。但很多時(shí)候國(guó)內(nèi)的企業(yè)和個(gè)人開發(fā)者并沒有堅(jiān)持下去,一旦他們的項(xiàng)目開源后,發(fā)現(xiàn)star寥寥無(wú)幾,可能就十幾個(gè)或一百多個(gè),可能就不再去堅(jiān)持,不再投入了。然后就變成僵尸的開源項(xiàng)目。
這里面有客觀因素,中國(guó)的科技企業(yè)與全球其他地域的科技企業(yè)相比,要面臨更大的競(jìng)爭(zhēng)壓力。坦白說(shuō)無(wú)論是初創(chuàng)企業(yè)所面臨的資金壓力,還是企業(yè)在同一個(gè)賽道上所面臨的競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)量,都會(huì)導(dǎo)致它能夠投入到開源項(xiàng)目上的精力或資源有限。
問:開源這件事需要等待時(shí)機(jī)嗎?
林詠華:智源研究院在幾個(gè)月前開源了中英文語(yǔ)義向量模型BGE(BAAI General Embedding),很多用戶在社區(qū)里提建議、提需求,包括更多國(guó)家語(yǔ)言的支持、包括更多能力的期待。這些反饋都是開源使用者對(duì)我們下一個(gè)版本的迭代的很好建議。我們?cè)谶@些反饋的基礎(chǔ)上,在10月中旬又發(fā)布了BGE-V1.5。
開源本身也是收集需求,幫助我們更好決定下一步技術(shù)發(fā)展的一個(gè)路徑。
一個(gè)項(xiàng)目的第一個(gè)開源版本,那個(gè)“1.0”,往往并不需要完全是一個(gè)完美的版本。一個(gè)項(xiàng)目,可能一年后才能做到完美,但有可能今天的這個(gè)版本就已經(jīng)能夠滿足一部分人的需求了。我會(huì)建議在這個(gè)時(shí)候就開源出來(lái),然后在過程中不斷的增加能力,然后再不斷的更新,這樣可以讓外面需要這個(gè)功能或代碼的用戶能盡快用起來(lái)。
18030183032