熱度不減的大模型是實現(xiàn)人工智能的唯一解決方法嗎?每個行業(yè)都要有自己的大模型嗎?對于大模型,我們現(xiàn)在還是跟隨,那么自主的發(fā)展路徑是什么?當(dāng)預(yù)訓(xùn)練大模型攪動起巨大的研發(fā)、應(yīng)用熱潮時,這些問題隨之產(chǎn)生。
中國計算機學(xué)會以“智啟新局”為主題,5月16-18日在浙江寧波舉辦了2024青年精英大會(YEF2024),1200多名來自全國各高校、科研院所、企業(yè)的青年學(xué)者、專家,集中討論了大模型、人工智能安全、國產(chǎn)算力、開源芯片、腦機接口等多個前沿領(lǐng)域發(fā)展。
不依賴“一兩個模型打天下”
大模型為什么不是萬能的?面對現(xiàn)在的大模型熱,南京大學(xué)計算機系主任、人工智能學(xué)院院長周志華教授從兩個方面進行了分析,一方面大模型確實非常有用,所以業(yè)界特別是企業(yè)應(yīng)該努力“壓榨”這個大模型路線的技術(shù)紅利,盡可能讓它發(fā)揮更大的作用;另一方面也需要認識到大模型不是所有任務(wù)的最佳解決方案,“很多企業(yè)現(xiàn)在都在做自己的大模型,甚至覺得不做大模型不正確,但是機器學(xué)習(xí)里有一個基本定律‘沒有免費的午餐’。希望一個算法模型能夠包打天下是不可能,一定有弱點,大模型有一些‘煩惱’。”
長期從事人工智能核心技術(shù)機器學(xué)習(xí)研究的周志華教授,有一系列原創(chuàng)性成果,他列舉了大模型的多個“煩惱”。
首先,大模型要先規(guī)劃任務(wù)、收集數(shù)據(jù),然后訓(xùn)練出模型,也就是說必須先考慮到要解決某一類任務(wù),然后為它去收集數(shù)據(jù)做模型,這時如果有一個新任務(wù),原來沒有考慮規(guī)劃過,這時就沒有模型可用的。
其次,大模型訓(xùn)練和使用能耗、碳耗、數(shù)據(jù)耗都很大,一般人用不起。有人作過預(yù)測,按照現(xiàn)在的趨勢下去,2025年一個大模型訓(xùn)練產(chǎn)生的碳排放相當(dāng)于全紐約一個月的碳排放。
周志華教授提到,現(xiàn)在人們都希望先訓(xùn)練一個模型,并希望在使用的過程中不斷去更新它,但是目前的大模型路線,有一個問題叫“災(zāi)難性遺忘”。他以自動汽車駕駛為例,若機器學(xué)習(xí)模型在對新環(huán)境獲取的數(shù)據(jù)進行學(xué)習(xí)時,會“沖掉”舊環(huán)境中得到的寶貴信息,會出現(xiàn)重大安全隱患。
由于前面列舉的各種問題,人們都希望大模型能夠持續(xù)學(xué)習(xí)和終身學(xué)習(xí),希望模型學(xué)了一堆任務(wù)之后,隨著應(yīng)用的不斷發(fā)展,能夠不斷地“學(xué)”下去。周志華判斷:“這件事情在今天基于神經(jīng)網(wǎng)絡(luò),或者從基本的數(shù)學(xué)工具上還看不到解決方案?!?/span>
“訓(xùn)練大模型要有大量的訓(xùn)練數(shù)據(jù),但是在大數(shù)據(jù)時代,這仍然是問題?!敝苤救A解釋,有的應(yīng)用樣本總量就是小,比如我們要做油田定位,這個數(shù)據(jù)要通過人工誘發(fā)地震才能獲得,那就不可能有大量數(shù)據(jù)。再比如銀行信用卡欺詐交易檢測,樣本很小?,F(xiàn)在有人基于大模型在做軟件缺陷檢測,馬上就會碰到這個問題,雖然互聯(lián)網(wǎng)上這樣的開源代碼很多,但是真正由程序員標(biāo)注出缺陷的很少,所以數(shù)據(jù)總量仍舊是問題。
此外,數(shù)據(jù)隱私和所有權(quán)問題還無法解決。比如做醫(yī)療診斷,大醫(yī)院有很好的數(shù)據(jù),能做很好的模型,社區(qū)醫(yī)院數(shù)據(jù)不多,做不了很好的模型,大醫(yī)院能不能把這個數(shù)據(jù)進行分享?一旦分享,患者隱私就沒辦法得到保障。
“所以大模型的成功,更多是在很多日常能夠接觸到的,比如互聯(lián)網(wǎng)語料文本、視頻,容易收集到的語音數(shù)據(jù),都是一些公開、開源、高頻的任務(wù)數(shù)據(jù),而真正和生產(chǎn)行業(yè)和日常生活,特別是涉及隱私相關(guān)的任務(wù)里面其實很難做。”他提出:“所以要有一個認識,大模型很成功,但是它更適用于資源富集,就是大數(shù)據(jù)、大算力、大資金、大能耗。而且模型可以離線訓(xùn)練,不需要在線更新,更重要的它是高頻任務(wù)。但如果是小資源,模型不能夠離線訓(xùn)練,必須要求在線更新時,就不合適?!?/span>
“所以大模型的用處更應(yīng)該是因地制宜,或者因任務(wù)制宜,很多的任務(wù)可能不太適用于像今天的大模型。我們有必要去嘗試其他的研究路線。我們這幾年在研究這么一件事,叫作‘學(xué)件’(learnware),這個詞也是我們造出來的。”周志華介紹,學(xué)件=模型+規(guī)約,基本思想是不依賴“一兩個英雄模型打天下”,可以發(fā)揮多個模型的集成作用,以適應(yīng)不同任務(wù)需求。在未經(jīng)過專門訓(xùn)練的新任務(wù)上提供解決方案,同時強調(diào)保護用戶和開發(fā)者的數(shù)據(jù)安全,實現(xiàn)模型之間的協(xié)同工作,以推動創(chuàng)新和提升問題解決能力。
AI應(yīng)用市場繁榮,但這是一座“危樓”
中國科學(xué)院院士、清華大學(xué)教授胡事民在報告中提及,本輪人工智能發(fā)展有四駕馬車:算力、框架、算法、數(shù)據(jù),匯聚并促進了人類智慧的交融。他認為,應(yīng)該更全面看待人工智能發(fā)展,不要只看應(yīng)用端,要從硬件、框架、模型算法和應(yīng)用四個層面來看,這四者都對人工智能的生態(tài)產(chǎn)生重要影響。
胡事民院士分析了目前人工智能發(fā)展,我國面臨的幾個不利條件。首先,從硬件來看,兩種國外AI芯片占了99%的市場份額。國產(chǎn)芯片要融入既有生態(tài)非常難,迭代更新慢。
其次,從框架來看,國外深度學(xué)習(xí)框架占據(jù)主導(dǎo)的地位,國產(chǎn)框架面臨生態(tài)屏障。從模型與算法方面來看,比前兩者要好,但需加強原始創(chuàng)新。
在應(yīng)用層面,我國市場大、應(yīng)用場景多、落地快、市場繁榮,有許多創(chuàng)業(yè)公司,“但它是一棟危樓,底下的硬件和軟件有問題。這是我們的現(xiàn)狀?!?/span>
“需要以深度學(xué)習(xí)框架為牽引,夯實我國AI生態(tài)?!焙旅裨菏刻岢?,因為框架承上啟下,它可以在芯片算力水平不高的情況下盡量挖掘潛力,同時把應(yīng)用層支撐好。清華大學(xué)在2020年3月20日推出“計圖”深度學(xué)習(xí)框架,具備兩個優(yōu)點:第一個好處是快; 第二個好處是對硬件的支持廣泛,可以快速適配任何一款國產(chǎn)硬件。“希望以‘計圖’框架為核心,基于國產(chǎn)硬件促進人工智能算法應(yīng)用的創(chuàng)新,來推動開源開放,構(gòu)建中國人工智能的生態(tài)?!?/span>
人工智能自主發(fā)展需要匯聚青年力量
中國工程院院士、清華大學(xué)教授鄭緯民告訴中青報·中青網(wǎng)記者,從學(xué)術(shù)角度來看,現(xiàn)在有四類人在關(guān)注大模型,一是真正做大模型的;二是大模型+,做應(yīng)用的;三是進行政策規(guī)范治理的研究學(xué)者;四是如何讓大模型用起來,進行基礎(chǔ)設(shè)施建設(shè)的科研人員。
作為大會程序委員會主席,清華大學(xué)副教授崔鵬說,我們現(xiàn)在整體人工智能的發(fā)展路徑還是以跟隨為主,其中一個很明顯的現(xiàn)象是,OpenAI發(fā)布一個新的產(chǎn)品,我們趕緊奮起直追,那么中國人工智能自主發(fā)展路徑在何方,希望匯聚青年精英的力量,共同去探討和商議。
清華大學(xué)公共管理學(xué)院教授,人工智能治理研究中心主任梁正在專題報告中指出,發(fā)展人工智能,我國在基礎(chǔ)理論、核心軟硬件和生態(tài)方面還與國際先進水平有一定差距,要平衡創(chuàng)新與治理、踐行價值對齊的倫理思路,并吸收國際經(jīng)驗,探索理念開放、主體多元、對象分層、工具靈活的敏捷治理新思路,以推動我國人工智能治理的進一步發(fā)展。
相較于大語言模型,近期以O(shè)pen AI的SORA、GPT-4o,以及谷歌的Geimini為代表的世界模型,成為學(xué)術(shù)界和工業(yè)界的研究熱點,被認為是通向強人工智能的關(guān)鍵技術(shù)路徑。但是以多模態(tài)學(xué)習(xí)為基礎(chǔ)的世界模型的路線還不清晰,未來發(fā)展有很多爭議,復(fù)旦大學(xué)教授邱錫鵬教授發(fā)起的“世界模型之路在何方”的論壇,吸引了更多學(xué)者探討世界模型的發(fā)展路線,以及在國內(nèi)算力不足的條件下如何輕量化發(fā)展,如何跨模態(tài)相互理解等研究方向。
來源: 中國青年報客戶端