21世紀經濟報道記者張梓桐 上海報道
7月6日-8日,2023年世界人工智能大會在上海開幕,作為今年WAIC當之無愧的中心位,大模型成為了與會專家和企業熱議的焦點所在。
【資料圖】
21世紀經濟報道記者在走訪中了解到,當下行業內存在兩種大模型的路線分化。一種是以商湯科技AI大裝置SenseCore、百度“文心一言”為代表的,具有大規模參數體量的通用大模型;另一種路徑則是在開源大模型的基礎上,進行垂直行業的大模型建設和應用。即底層是開源的技術大模型,上層則是針對垂直行業,用垂直行業的數據結合通用的數據。
“通用大模型要解決的問題,是讓不具備通用模型能力建設的人享受通用模型的便利;而垂直行業的大模型更多要聚焦在去解決行業的問題,大家的分工存在很大差異。” 蜜度首席技術官劉益東在接受21世紀經濟報道記者采訪時表示,通用大模型更適合資源、時間以及技術實力非常強的頭部企業去做,而一些規模較小的企業更適合的是聚焦行業,聚焦垂直領域進行模型開發。
而商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛在接受21世紀經濟報道在內的媒體時表示,商湯推出的通用大模型:“AI大裝置SenseCore”可以被理解為商湯科技理解內部的一個基礎設施。各個大模型的團隊在做好大模型的同時,也會把模型提供給各個行業里面的行業線。
通用與垂直之辨
近日發布的《中國人工智能大模型地圖研究報告》顯示,當前,中國人工智能大模型正呈現蓬勃發展態勢。據不完全統計,截至目前,參數在 10 億規模以上的大模型全國已發布了 79 個。而與之并行的,還有許多聚焦垂直場景的行業模型
針對二者的區別,劉益東表示,通用大模型擁有很多數據、很大參數,但它并不聚焦于某個任務。而行業模型在進入垂直領域的時候就會有特定的任務目標,例如在校對任務中,行業模型就可以利用常識問題的積累來檢測易混淆詞等問題。
但與此同時,如果只用垂直行業的數據去訓練模型,模型的認知也會出現偏差,因此通用大模型成為了這一時代的“底層基座”。
在這一背景下,如何深入了解場景進而服務好客戶,成為垂直大模型面臨的難題。
劉益東告訴記者,在垂直大模型構建的過程中,模型提供方與行業客戶是有交互的。從模型訓練的角度來看,大模型需要基于人類反饋的增強學習,而人工智能企業需要基于客戶反饋的數據,才能進一步促進行業大模型建設能力的提升。
“因此我們服務的過程也是共促的過程,對于垂直行業訓練的數據質量,我們的客戶會不斷的給我們反饋與優化。”劉益東說道。
此外,劉益東表示,行業未來競爭的核心就在于考驗不同企業大模型落地以及盈利的能力。”這就涉及到一個龐大的公司運作機制的問題,它不光是模型本身。因此最終在大模型垂直落地應用中能夠生存下來的企業,一定是能夠達到投入產出比平衡,并且是良性循環的企業。”
在2023年世界人工智能大會期間,蜜度發布了首個支持國產化軟硬件運行環境的知識問答與內容生成大語言模型——蜜巢。記者在現場了解到,蜜巢知識問答與內容生成大語言模型以數千億高質量中文多模態數據訓練為基礎打造,可以實現“千文千面,千人千面”的定制化內容生成。
而哈工大人工智能研究院院長、IEEE Fellow劉劼則在中國電子云主辦的“云上智能,可信智算”分論壇上指出,相比于偏重上層應用的垂直行業模型,通用大模型在技術與資金方面的投入無疑會更大。
“GPT-3的訓練數據有5000億個數據點,從能耗來說相對于從月球到地球再回來,訓練一次大約是500到1000萬美元,耗電190MWh,因此粗略估計訓練一次大模型需要1億元的體量級別,所以沒有這個錢就不要玩大模型。”
在數據訓練成本如此“燒錢”的背景下,如何讓大模型具備自學習能力,成為中小型企業在涉足大模型時要解決的難題。
劉劼以OpenAI舉例稱,在他看來,其核心優勢就在于采用了強化學習的方法,用人評價生成模型的好壞來實現進一步降本增效。“OpenAI做得最成功的事情就是讓人盡量少貢獻力量,即找到一個模擬人類對話質量的評測方法,去實現自動的閉環,所謂的"飛輪效應’就可以轉起來。”
換言之,因為用戶在使用過程當中給大模型不斷輸入調節的信號。因此沒有足夠多用戶的系統很難生成評價模型。
“現在比拼的都是百億、千億,乃至于上億的模型,模型規模越來越大,而且看不到直徑。”劉劼表示,當下模型參數體量正在不斷提高,大模型趨勢仍然不斷增長。
打造公共算力
如上述業內人士所述,在1000億個參數單次訓練成本達到千萬美元量級的背景下,中小企業對于大模型的應用難免“望而卻步”。而由于這些模型參數量和數據量的龐大,后續支持性的基礎設施重要性也日益突出。
因此業內開始探索從國家角度建設普惠性的公共算力中心,即以構建公共基礎設施的服務方式提供算力,降低單位可變成本,為全社會提供算力服務。
“我們認為普惠算力是解決成本的重要渠道。”賽迪顧問股份有限公司副總裁宋宇告訴21世紀經濟報道記者,目前通用的工廠模式越來越難以充分發揮整個計算性能,會造成一定的資源浪費。同時,對于中小企業來說,大型的算法、高質量數據如果自建的話成本難以接受。而用戶更多需要的是計算,還有以計算為基礎的全流程服務。
“因此我認為,未來算力實現會以一個’算力風洞’模式實現。”宋宇說道。
近日,以網信事業為核心主業的央企中國電子云在2023人工智能大會期間提出,將面向行業需求,在未來2到3年內在中國范圍內投資建設N個可信智算中心。另一方面,中國電子云也將開發一套異構兼容、安全可信、云數一體、開放共享的可信智算云平臺產品。
除此之外,隨著未來對高密度算力需求的不斷增長,算力中心的能耗耗電也在面臨越來越大的挑戰。
“數據中心和智算中心本身就是一個能耗大戶,從長遠的角度來看,智算中心POE管控將會越來越嚴格。”
劉劼認為,在能耗標準日趨嚴格的背景下,未來行業應該探索從全鏈條深入推進智算中心綠色化,包括智算中心能耗提升、綠電使用比例、液冷新的節能技術應用,以此來解決高能耗難題。
關鍵詞:
















