站在2022前展望大模型的未來,周志華、唐杰、楊紅霞這些大咖怎么看?
歲末年初之際,讓我們回顧大模型的過去,展望大模型的未來。
28 日,阿里巴巴達摩院發(fā)布 2022 十大科技趨勢。其中,“大模型參數(shù)競賽進入冷靜期,大小模型將在云邊端協(xié)同進化”的斷言,在 AI 圈備受關注。
2021 是大模型爆發(fā)之年,我們見證了大模型的驚艷,但也了解了目前大模型的一些局限,如顯著的高能耗等問題。
達摩院認為,超大規(guī)模預訓練模型是從弱人工智能向通用人工智能的突破性探索,解決了傳統(tǒng)深度學習的應用碎片化難題,但性能與能耗提升不成比例的效率問題限制了參數(shù)規(guī)模繼續(xù)擴張。
接下來,人工智能研究將從大模型參數(shù)競賽走向大小模型的協(xié)同進化,大模型向邊、端的小模型輸出模型能力,小模型負責實際的推理與執(zhí)行,同時小模型再向大模型反饋算法與執(zhí)行成效,讓大模型的能力持續(xù)強化,形成有機循環(huán)的智能體系。
周志華、唐杰、楊紅霞等多位學界、業(yè)界代表性專家,對此發(fā)表了評論。
大模型接下來會如何發(fā)展?歲末年初之際,讓我們回顧大模型的過去,展望大模型的未來。
大小模型將承擔不同角色
南京大學計算機科學與技術系主任兼人工智能學院院長 周志華
大模型一方面在不少問題上取得了以往難以預期的成功,另一方面其巨大的訓練能耗和碳排放是不能忽視的問題。個人以為,大模型未來會在一些事關國計民生的重大任務上發(fā)揮作用,而在其他一些場景下或許會通過類似集成學習的手段來利用小模型,尤其是通過很少量訓練來 “復用” 和集成已有的小模型來達到不錯的性能。
我們提出了一個叫做 “學件” 的思路,目前在做一些這方面的探索。大致思想是,假設很多人已經(jīng)做了模型并且樂意放到某個市場去共享,市場通過建立規(guī)約來組織和管理學件,以后的人再做新應用時,就可以不用從頭收集數(shù)據(jù)訓練模型,可以先利用規(guī)約去市場里找找看是否有比較接近需求的模型,然后拿回家用自己的數(shù)據(jù)稍微打磨就能用。這其中還有一些技術挑戰(zhàn)需要解決,我們正在研究這個方向。
另一方面,有可能通過利用人類的常識和專業(yè)領域知識,使模型得以精簡,這就要結合邏輯推理和機器學習。邏輯推理比較善于利用人類知識,機器學習比較善于利用數(shù)據(jù)事實,如何對兩者進行有機結合一直是人工智能中的重大挑戰(zhàn)問題。麻煩的是邏輯推理是嚴密的基于數(shù)理邏輯的 “從一般到特殊”的演繹過程,機器學習是不那么嚴密的概率近似正確的 “從特殊到一般”的歸納過程,在方法論上就非常不一樣。已經(jīng)有的探索大體上是以其中某一方為倚重,引入另一方的某些成分,我們最近在探索雙方相對均衡互促利用的方式。
站在 2022,展望大模型的未來
清華大學計算機系教授,北京智源人工智能研究院學術副院長 唐杰
2021 年,超大規(guī)模預訓練模型(簡稱大模型)成為國際人工智能前沿研究和應用的熱點,發(fā)展迅速也面臨系列挑戰(zhàn)。最新發(fā)布的《達摩院 2022 十大科技趨勢》將 “大小模型協(xié)同進化” 列為 AI 模型發(fā)展的新方向,提出“大模型參數(shù)競賽進入冷靜期,大小模型將在云邊端協(xié)同進化”,值得業(yè)界關注。站在年末歲初,讓我們一起回望大模型的 2021,展望它的 2022 和更遠未來。
一、超大規(guī)模預訓練模型迅速發(fā)展但也面臨系列挑戰(zhàn)
2021 年 8 月,斯坦福大學成立基礎模型研究中心(CRFM)并將 BERT、GPT-3 和 CLIP 等基于大規(guī)模數(shù)據(jù)進行訓練并可以適應廣泛下游任務的模型統(tǒng)稱為 “基礎模型”。雖然這個概念在學術界引起了不少爭議,有學者對于模型是否具有“基礎性” 提出了質(zhì)疑,但是應該看到,這些模型所表現(xiàn)出的能夠更好處理現(xiàn)實世界復雜性的能力,使得它們變得愈發(fā)重要。
產(chǎn)業(yè)界持續(xù)推動大模型研發(fā),并不斷將模型的規(guī)模和性能推向新高。1 月,OpenAI 發(fā)布大規(guī)模多模態(tài)預訓練模型 DALL·E 和 CLIP,谷歌發(fā)布 1.6 萬億規(guī)模預訓練語言模型 Switch Transformer,10 月,微軟和英偉達發(fā)布 5300 億規(guī)模的 Megatron-Turing 自然語言生成模型 MT-NLG。另外,大模型應用也在不斷豐富,目前全球基于 GPT-3 的商業(yè)應用已有幾百個,隨著近期 GPT-3 全面開放 API 申請和微調(diào)功能,GPT-3 應用生態(tài)也將加速形成。
2021 年也是我國超大規(guī)模預訓練模型發(fā)展的“元年”,目前,已有智源研究院、鵬城實驗室、中科院自動化所、阿里、百度、華為、浪潮等科研院所和企業(yè)研相繼發(fā)出“悟道”、“盤古”、“紫東 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。
雖然國內(nèi)外超大規(guī)模預訓練模型取得了較大進展,但是同時也應認識到,大模型發(fā)展還有很多亟待解決的重要問題。例如,預訓練模型的理論基礎尚未明確(如大模型智能的參數(shù)規(guī)模極限存在嗎),大模型如何高效、低成本的應用于實際系統(tǒng);其次構建大模型需要克服數(shù)據(jù)質(zhì)量、訓練效率、算力消耗、模型交付等諸多障礙;最后目前大部分大模型普遍缺乏認知能力的問題,這也是部分學者質(zhì)疑這類模型能否被稱為 “基礎模型” 的原因之一。能否通過大模型實現(xiàn)更通用的智能?怎么實現(xiàn)?這些都需要學術界和產(chǎn)業(yè)界不斷探索。
二、大模型打造數(shù)據(jù)與知識雙輪驅(qū)動的認知智能
人工智能經(jīng)過數(shù)十年的發(fā)展,歷經(jīng)符號智能、感知智能兩個時代,目前來到第三代人工智能即認知智能的大門口。認知智能不僅要求基于大數(shù)據(jù)的深度學習及對應的感知識別,還要求機器具有認知和推理能力,要讓機器具備與人接近的常識和邏輯,這就對數(shù)據(jù)與知識的融合提出了迫切需求。
回顧人工智能的發(fā)展,1968 年圖靈獎獲得者 Edward Feigenbaum 研發(fā)出世界首個專家系統(tǒng) DENDRAL;1999 年互聯(lián)網(wǎng)發(fā)明人、圖靈獎獲得者 Tim Berners-Lee 爵士提出語義網(wǎng)的概念;圖靈獎獲得者 Yoshua Bengio 在 2019 年 NeurIPS 大會的主題報告中指出,深度學習應該從感知為主向基于認知的邏輯推理和知識表達方向發(fā)展,這個思想和清華大學張鈸院士提出的第三代人工智能思路不謀而合。同期,美國國防部高級研究計劃局(DARPA)發(fā)布 AI NEXT 計劃,核心思路是推進數(shù)據(jù)計算與知識推理融合的計算,還委托了伯克利等機構,開展 SYMBOLIC - NEURAL NEWORK(符號加神經(jīng)網(wǎng)絡計算)研究,其目的就是要加快推進這一進程。
總的來說,研究數(shù)據(jù)與知識融合的雙輪驅(qū)動 AI 時代已經(jīng)到來,核心是利用知識、數(shù)據(jù)、算法和算力 4 個要素,不僅是使用數(shù)據(jù)驅(qū)動的方法來建構模型,還需要將用戶行為、常識知識以及認知聯(lián)系起來,主動 “學習” 與創(chuàng)造。
智源研究院研發(fā)的 “悟道” 大模型是我國具有代表性的超大規(guī)模預訓練模型,探索了大模型研發(fā)的另外一條路徑,旨在打造數(shù)據(jù)與知識雙輪驅(qū)動的認知智能,建立超越圖靈測試的通用機器認知能力,讓機器像人一樣“思考”。
在大模型研發(fā)過程中,我們初步定義了大模型需要具備的 9 種機器認知能力(T9 準則):
1. 適應與學習能力:機器具有一定的模仿能力,能夠通過模仿和反饋學習人的語言和行為;
2. 定義與情境化能力:機器能夠根據(jù)感知上下文場景做出反應(語言和行為反饋),并保證反應的一致性;
3. 自我系統(tǒng)的準入能力:機器具有一個穩(wěn)定的人設(如:穩(wěn)定的心理大五人格),在生成對待事物的觀點時,不會隨意改變自己的觀點和情感傾向;
4. 優(yōu)先級與訪問控制能力:機器具有能發(fā)現(xiàn)自我觀點的矛盾和糾結,但最終能做出一個選擇,并在后續(xù)行為中保持一致;
5. 召集與控制能力:機器能主動搜索與自身人設一致或者符合自身利益的內(nèi)容(新聞),并對其進行正面評論;反之也能搜索與自身人設相違背的內(nèi)容,并對其進行反駁;
6. 決策與執(zhí)行能力:機器能主動搜索內(nèi)容信息、統(tǒng)計其他機器與人的觀點與傾向,根據(jù)自身人設做出對自己有利的決策并執(zhí)行;
7. 錯誤探測與編輯能力:機器能自動對無法判斷的事物進行假設,并進行追蹤,如果發(fā)現(xiàn)假設錯誤或者假設不完備,能自動進行編輯修正;
8. 反思與自我監(jiān)控能力:機器具有自動校驗能力,如果發(fā)現(xiàn)執(zhí)行的操作不正確,具有自我監(jiān)控和修正的能力;
9. 條理與靈活性之間的能力:機器能夠自動規(guī)劃和保證執(zhí)行操作之間的條理性;同時如果發(fā)現(xiàn)條理不正確的時候,具有一定靈活性,可以修正自己的行為。
要全面實現(xiàn)以上 9 種機器認知能力還有很長的路要走,但我們堅信下一個人工智能浪潮的興起必然伴隨著認知智能的實現(xiàn),讓機器具有推理、解釋、認知能力,在多項人類感知與認知任務中超越圖靈測試。大模型已經(jīng)在認知智能發(fā)展上進行了一年的探索,并取得階段進展。
三、大模型的未來
《達摩院 2022 十大科技趨勢》提出,大小模型將在云邊端協(xié)同進化。大模型向邊、端的小模型輸出模型能力,小模型負責實際的推理與執(zhí)行,同時小模型再向大模型反饋算法與執(zhí)行成效,讓大模型的能力持續(xù)強化,形成有機循環(huán)的智能體系。這一觀點富有啟發(fā)性,而且有助于大模型從實驗室走向規(guī)?;漠a(chǎn)業(yè)應用。
在我看來,未來大規(guī)模研究將更加注重原始創(chuàng)新,圍繞認知智能以及高效應用等多個角度展開。
在認知智能方面,模型參數(shù)不排除進一步增加的可能,甚至到百萬億、千萬億規(guī)模,但參數(shù)競賽本身不是目的,而是要探究進一步性能提升的可能性。大模型研究同時注重架構原始創(chuàng)新,通過模型持續(xù)學習、增加記憶機制、突破三元組知識表示方法等方法進一步提升萬億級模型的認知智能能力。在模型本身方面,多模態(tài)、多語言、面向編程的新型模型也將成為研究的重點。
在高效應用方面,將大大降低大模型使用門檻,讓大模型用起來,促進中小企業(yè)形成 “大模型 + 少量數(shù)據(jù)微調(diào)” 的 AI 工業(yè)化開發(fā)模式。主要實現(xiàn):
1)降成本:降低模型在預訓練、適配下游任務、推理過程中的算力消耗;
2)提速度:通過模型蒸餾、模型裁剪等手段提升千億或以上規(guī)模模型推理速度 2 個數(shù)量級;
3)搭平臺:通過搭建一站式開發(fā)及應用平臺提供從在線模型構建、在線模型部署、應用發(fā)布的全流程預訓練服務,能夠支持成百上千個應用的開發(fā)與部署,相信后續(xù)大模型的廣泛應用將成為賦智我國經(jīng)濟高質(zhì)量發(fā)展的關鍵助推劑。
思考的快與慢,與下一代人工智能
阿里巴巴達摩院人工智能科學家 楊紅霞
人工智能學者一直試圖從大腦工作模式中汲取靈感,但大腦究竟如何思考是非常復雜的課題。諾貝爾經(jīng)濟學獎獲得者丹尼爾 · 卡內(nèi)曼教授的《思考, 快與慢》指出,人的思考有兩種模式。我們很多時候下意識地作出反應,是快的模式。舉個例子,如果每天從家到公司的路線一模一樣,就不需要做太多思考,沿著原路走就行,這是快思考。什么是慢思考?突然有一天,公司和家之間在修路,需要重新規(guī)劃路徑,這時就不得不進行慢思考。
基于大腦思考的模式,解決下一代人工智能的核心認知推理問題,是我們團隊近幾年最重要的目標。GPT-3 激發(fā)了大家投入大模型研發(fā)的巨大熱情,但由于大模型的能耗和效率問題,學界又對是否一定要用大模型提出疑問。通過大量的實際探索,我們認為,大模型和小模型可以協(xié)同發(fā)展,分別承擔慢思考和快思考的任務。云上能容納海量知識的大模型,就像超級大腦,有能力進行慢思考,而在端上與大模型協(xié)同的小模型可以執(zhí)行快思考。
近年來,隨著預訓練技術在深度學習領域的飛速發(fā)展,預訓練大模型(大模型)逐漸走進人們的視野,成為人工智能領域的焦點。大模型在文本、圖像處理、視頻、語音等多個 AI 領域?qū)崿F(xiàn)較大突破進展,并逐漸成為 AI 的基礎模型(Foundation Model),同時大模型也在積極與生命科學領域進行結合,包括在蛋白質(zhì)、基因等方向取得進展,并在細胞分類、基因調(diào)控關系發(fā)現(xiàn)、細菌耐藥性分析等任務中前景廣闊。可以認為大模型是目前解決推理認知問題最先進的工具,不過預訓練大模型還有亟待突破的幾個課題,比如:
1、目前的主流實踐是先通過訓練大模型(Pretrained Model),得到參數(shù)規(guī)模大、精度高的模型后,再基于下游任務數(shù)據(jù),通過剪枝、微調(diào)的方法(Finetune)將模型的體積壓縮,在基本不損失精度的情況下減輕部署的壓力,目前業(yè)界還沒找到通用的、直接訓練小型模型就能得到較滿意精度的辦法;
2、訓練千億、萬億模型動輒就上千張 GPU 卡,給大模型的推廣和普惠帶來了很大的挑戰(zhàn);
3、預訓練模型 Pretrain 階段參數(shù)量大,目前主要采用大量非結構化數(shù)據(jù)進行訓練,如何與知識等結構化數(shù)據(jù)進行結合,讓模型更加有效地實現(xiàn)認知推理,也是一個非常大的挑戰(zhàn)。
在解決大模型亟待突破的課題方面,我們做了不少嘗試,可供業(yè)界參考。今年 11 月,我們發(fā)布了全球首個 10 萬億參數(shù)的多模態(tài)大模型 M6,相比去年發(fā)布的 GPT-3,實現(xiàn)同等參數(shù)模型能耗僅為其 1%,降低了大模型實現(xiàn)門檻,推動了普惠 AI 的發(fā)展。今年 10 月我們對外開放的云服務化平臺是目前業(yè)界覆蓋下游任務最廣泛的平臺,涵蓋各項單模態(tài)和跨模態(tài)的理解及生成任務。目前,M6 已在阿里巴巴超 50 余個不同業(yè)務場景中應用。
未來,除了通過低碳化發(fā)展綠色 AI、平臺化應用推進普惠 AI 以及突破認知推理等技術外,我們希望大模型還能積極探索與科學應用的結合,潛在科學應用方向可能包括腦神經(jīng)連接圖譜繪制、腦機接口、透明海洋等領域。
在形成更高效、更廣泛的智能體系上,大小模型在云邊端協(xié)同進化帶來了新的可能性。在邊端與大模型協(xié)同的小模型執(zhí)行快思考方面,我們也進行了積極探索和規(guī)模化落地。大模型可以向邊、端小模型的輸出,讓小模型更容易獲取通用的知識與能力,小模型專注在特定場景做極致優(yōu)化,提升了性能與效率;同時小模型向大模型反饋執(zhí)行成效,解決了過去大模型數(shù)據(jù)集過于單一的問題,最后全社會不需要重復訓練相似的大模型,模型可以被共享,算力與能源的使用效率得以最大化。這一模式有望構建下一代人工智能的基礎設施,在讓人工智能的通用能力進一步提升。
經(jīng)歷符號主義的衰落與深度學習的繁榮,我們來到了新的路口。科技的進程往往由天才般的靈感與極大量的實踐推進,人工智能的演進也是如此,在收斂與發(fā)散之間不斷尋找突破口。大模型是一個令人激動的里程碑,接下來該走向何方,我們或許可以繼續(xù)向自身追問,在快思考與慢思考中獲取新的啟示。