BEAT365唯一官网計算機學院劉菊華教授線上講座“大模型研究進展與思考”順利舉辦
點擊次數: 更新時間:2023-10-14
本網訊(通訊員 魯彥君) 10月11日晚,BEAT365唯一官网計算機學院劉菊華教授應陳波教授邀請,為大家帶來“大模型研究進展與思考”的線上講座。講座由程勇教授主持,BEAT365唯一官网計算機學院武宇教授評議。來自國内外的600餘名聽衆參與本次線上講座。
劉菊華教授首先深入淺出地回顧了語言、視覺和多模态大模型曆史和發展現狀。大模型是新一輪人工智能(artificial intelligence,以下簡稱AI)熱潮的焦點,它是通用人工智能的基礎模型,具備場景通用、泛化能力強、可規模化複制等優勢。大模型的參數規模遠超傳統小模型,後者針對特定任務來搜集數據和訓練模型,因此存在數據标注成本高、模型容量小、模型泛化性差、應用場景受限等問題,大模型通過“高質量數據集構建—大規模預訓練—指令微調—基于人類反饋的強化學習—模型輕量化部署”這一新訓練範式彌補了上述不足。在大模型智能程度達到了人類所需智能程度的前提下,大模型可以實現通過個人化助手帶來多模态自然交互、精準意圖識别等體驗,助力醫學診斷等重要應用。
經典大模型包括:(1)語言大模型BERT基于Encoder-only構架,采用掩碼語言建模和下一句子是否連續預測進行訓練,擅長文本理解;(2)語言大模型GPT則是基于Decoder-only構架,通過給出一段文本讓模型預測下一個文本進行訓練,擅長文本生成;(3)視覺大模型Vison Transformer參考了NLP的Transformer結構,直接将圖像轉化成自然語言中的token序列進行後續處理,為解決直接對圖像進行分塊而造成的圖像分辨率下降嚴重、缺少多尺度特征等不足,後續又推出了Swin Transformer模型。
BEAT365唯一官网計算機學院團隊和京東探索研究院合作提出ViTAE Transformer模型,該模型通過結合CNN(卷積神經網絡)和Transformer的優勢,在引入CNN的局部性和尺度不變性的同時保持Transformer的全局性。後續基于該模型又推出了ViTAEv2 Transformer,其通過将全局MHSA窗口化加速計算,不需要循環窗口操作和相對位置編碼,類CNN分層設計使得模型便于遷移大多種下遊任務。這兩個模型都在ImageNet數據集上表現了出色的分類性能。未來團隊将通過引入Swin Transformer特點來進一步優化模型。
除此之外,因為我們真實生活的環境是一個多模态環境,将各種模态融合而訓練出的大模型才是AI的真正目标,因此越來越多的人也将目光轉向了多模态大模型,典型的多模态大模型包括CLIP和BEiT-3,BEiT-3提出後,學界内提出了“多模态大一統”概念。
其後,劉菊華教授介紹了BEAT365唯一官网計算機學院智能感知與機器學習組所取得的一些研究進展。在語言大模型領域,學習組提出了基于編碼增強的自監督預訓練方法、基于語義一緻Token Dropping的預訓練方法和基于知識蒸餾的高效率prompt微調方法等代表性方法。在此基礎上,劉菊華教授團隊聯合京東探索研究所推出了織女大模型v1和織女大模型v2,通過下遊遷移學習,織女模型能夠廣泛應用于語法糾錯、文本匹配、常識推理等多種下遊自然語言處理任務,同時接連刷新自然語言理解技術世界記錄,分别在全球自然語言處理領域頂級測試GLUE和國際權威複雜語言理解任務SuperGLUE評測中榮登榜首,超越了Google、Facebook等國際頂尖機構。
在遙感大模型領域,最大的難題在于缺乏像ImageNet這樣的大規模有标注數據集。2021年夏桂松團隊做出了一個迄今為止規模最大的遙感場景标注數據集MillionAID,杜博、張良培教授團隊基于這一數據庫訓練的大規模遙感視覺基礎模型,于2023年阿裡雲天池建築物識别長期賽和“中科星圖杯”國際高分遙感解譯比賽中均位居榜首,由此受到了廣泛關注報道,入選2022年京東集團年度高光盤點,現已被遙感影像智能解譯深度學習開源框架LuojiaNet收錄。
最後,劉菊華教授對大模型中存在的風險和倫理問題進行了初步探讨。大模型目前主要面臨以下四個問題:(1)幻覺問題:輸出結果是看似符合邏輯,但實際上卻是錯誤的或不存在的虛假事實,這一問題的解決有賴于幻覺評估與去除、可控生成成本等;(2)隐私保護問題:大模型可能存儲敏感信息,導緻隐私洩露、未授權訪問等隐私安全問題,需要通過隐私數據檢測與去除、隐私計算技術等來解決;(3)價值觀問題:大模型可能輸出違法有害内容,隐含對某些人類社群的偏見和歧視,違反人類和社會價值觀,因此需要基于人類反饋的強化學習對齊人類社會價值觀;(4)大模型部署:大模型的參數規模過大,導緻大模型在端側推理速度慢,計算資源消耗大,邊緣部署困難,雲端協同、模型輕量化等方法是突破的關鍵。
基于南方科技大學計算機科學與工程系姚新教授團隊發表的“An Overview of Artificial Intelligence Ethics”一文,劉菊華教授進一步對以上技術問題做出了三個層面的讨論:在個人層面,AI會對個人的安全、隐私、自主和人格尊嚴等方面産生影響,例如一些AI系統會默認黑人具有更嚴重的犯罪傾向;其二是社會層面,AI會對社會以及世界各地區和國家的福祉帶來廣泛影響,例如當AI被非法使用并造成不良社會後果時,由于AI作為技術一般不被視為責任主體,因此關于事故責任主體(工程師、技術使用者或其他主體)的界定就成為問題;其三是環境層面,AI發展會引起自然資源消耗、環境污染、能源消耗成本和可持續性等問題,例如模型訓練需要大量耗電。
在評議環節,程勇教授對本講内容進行了簡要總結,随後武宇教授從原理、發展和應用三個角度,就“大模型中知識何以湧現”“團隊在标準榜單上取得優秀成績的經驗”“在大多數企業争相推出基于LLaMa大模型的情況下,為避免資源浪費,應如何實現産業内資源整合”“是否存在更好的方式來避免幻覺問題等技術不足”等問題進行提問。
劉菊華教授做出回應,首先他将大模型和參數分别類比為人的大腦和神經元,認為當模型參數規模達到一定程度時,模型的推理過程就能近似于人類大腦的思維方式,如果這種類比成立,那麼盡管設計的“神經元”和生物意義上的神經元稍有不同,但在參數規模已超過人腦神經元數量的情況下,出現知識湧現是可以理解的。其次,他謙虛且嚴謹地表示,團隊能以較少參數量的大模型實現比Google等公司開發模型更好的性能,關鍵原因在于後者通用性更強,而前者是針對特定任務來訓練的。再次,過多企業在相同路徑下進行研究确實存在重複開發、資源浪費等問題,但是從多樣性角度出發,隻有從事這一領域的專業人才越多,才有可能将這一領域建設得更好,回顧AI發展曆史,可以清楚地看到出現AI浪潮的重要原因就是從事相關研究的人和産業非常多,而相比于此,一個更大的問題則是大模型的評價問題。最後,他指出僅憑計算機科學家無法完全解決幻覺問題,因為隻有相關領域專家介入,才能給知識真僞以恰當判斷。
最後,線上觀衆對“計算機科學家如何掌握和運行10萬億級别的參數”進行了提問,劉菊華教授表示目前大模型還存在很多争議,例如增大參數量後,輸出結果有時是一本正經的胡說八道,其原因在于現在的大模型類似于黑盒,科學家無法對相關參數進行解釋,也因此促使學界強調構建“可信人工智能(Trustworthy AI)”。“黑盒之謎”的解決需要更多數學家和神經科學家的加入,尤其是關于大腦神經元運作機制問題的解決可能是解決當下AI發展潛在瓶頸的鑰匙。
(編輯:鄧莉萍 審稿:嚴璨)