在閱讀本文前,有幾個熱身的問題,您嘗試回答一下。
1. 什么是大語言模型(LLM)?
(相關(guān)資料圖)
2. 大語言模型開發(fā)與傳統(tǒng)機器學(xué)習(xí)開發(fā)有什么區(qū)別?
3. 什么是任務(wù)特定模型?
4. 什么是大語言模型的微調(diào)和參數(shù)有效調(diào)整?
5. 如何理解大語言模型的一體多用特性?
下面就讓我們開啟探討大語言模型奧秘之旅。
前文回顧:
AI技術(shù)干貨|從頭開始圖解大語言模型(上篇)
AI技術(shù)干貨|從頭開始圖解大語言模型(中篇)
引言
深度學(xué)習(xí)的子領(lǐng)域中有兩個重要的概念:大型語言模型(LLMs)和生成式人工智能(Generative AI)。這兩者在許多方面都有交集,并且都屬于深度學(xué)習(xí)的研究范疇。如果您對生成式人工智能感興趣,建議您閱讀金博士的《生成式人工智能簡介》一文。
在過去的幾年中,生成式人工智能發(fā)展迅速,吸引了大量的關(guān)注。這種類型的人工智能能夠生成全新的內(nèi)容,包括文本、圖像、音頻和合成數(shù)據(jù)。
本文我們探討一下什么是大型語言模型。這類模型預(yù)先通過大量的文本數(shù)據(jù)進行訓(xùn)練,通常是從互聯(lián)網(wǎng)或其他公開可獲取的書籍中提取的。預(yù)訓(xùn)練期間,模型學(xué)習(xí)并理解文本數(shù)據(jù)的模式和結(jié)構(gòu)。之后,在微調(diào)階段,模型會根據(jù)特定的任務(wù)進行優(yōu)化,這些任務(wù)可能包括機器翻譯、文本生成、情感分析等。
下面我們通過幾個通俗易懂的示例,逐步對大模型的工作機理展開進行講解,希望能夠讓更多的讀者掌握相關(guān)的背景知識。
前文回顧;
AI技術(shù)干貨|從頭開始圖解大語言模型(上篇)
AI技術(shù)干貨|從頭開始圖解大語言模型(中篇)
大語言模型的定義和特征
大語言模型的特征
大型語言模型的一個顯著特性是它們的“多任務(wù)”能力,即一個模型能適應(yīng)并完成各種不同的任務(wù)。這種特性使得大型語言模型在諸多領(lǐng)域中具有巨大的應(yīng)用價值,例如:聊天機器人、內(nèi)容生成、自然語言理解和生成等,任何涉及理解和生成文本的場景,它們都能大顯身手。
那么“預(yù)訓(xùn)練”和“微調(diào)”到底是什么含義呢?試想一下訓(xùn)練一只狗。通常,你會訓(xùn)練你的狗學(xué)習(xí)基本的命令,比如“坐下”,“過來”,“趴下”,和“停”。這些命令在日常生活中通常就足夠用了,能夠幫助你的狗成為一個良好的寵物公民。然而,如果你需要特殊的服務(wù)犬,比如警犬、導(dǎo)盲犬或者獵犬,你就需要給它進行額外的特殊訓(xùn)練。
這個思路同樣適用于大型語言模型。這些模型進行通用目的的訓(xùn)練,來解決常見的語言問題,如文本分類、問題回答、文檔摘要和跨行業(yè)的文本生成等。然后,這些模型可以根據(jù)不同領(lǐng)域,如零售、金融和娛樂等,利用相對較小規(guī)模的領(lǐng)域數(shù)據(jù)集,進行微調(diào),解決特定的問題。
這個過程中的“預(yù)訓(xùn)練”階段,就相當(dāng)于教狗狗基本的命令。而“微調(diào)”階段,則對應(yīng)于對狗狗進行特殊的額外訓(xùn)練。預(yù)訓(xùn)練的模型就像一只已經(jīng)學(xué)會基本命令的狗,能夠進行基本的任務(wù);而經(jīng)過微調(diào)后的模型,則像是一個專門訓(xùn)練過的服務(wù)犬,可以完成更特定、更復(fù)雜的任務(wù)。
讓我們進一步將大型語言模型的概念分解為三個主要特征。
1. “大型”有兩個含義。首先,它表示訓(xùn)練數(shù)據(jù)集的巨大規(guī)模,有時達到PB(petabyte,即千兆字節(jié))級別。其次,它指的是參數(shù)的數(shù)量。在機器學(xué)習(xí)中,參數(shù)通常被稱為超參數(shù)。參數(shù)基本上是機器從模型訓(xùn)練中學(xué)到的記憶和知識。參數(shù)決定了一個模型在解決問題(如預(yù)測文本)時的技能水平。
2. “通用目的”意味著這些模型足以解決常見問題。有兩個原因?qū)е铝诉@個觀點。首先,無論具體任務(wù)是什么,人類語言都有其通用性。其次,資源是有限的。只有某些組織有能力使用巨大的數(shù)據(jù)集和大量的參數(shù)來訓(xùn)練這種大型語言模型。
3. “預(yù)訓(xùn)練”和“微調(diào)”,即在有能力的組織為他人創(chuàng)建基礎(chǔ)語言模型之后,用戶使用大規(guī)模數(shù)據(jù)集為通用目的預(yù)訓(xùn)練一個大型語言模型,然后使用一個小得多的數(shù)據(jù)集為特定目標(biāo)微調(diào)它。
在這個框架下,你可以將大型語言模型看作是一個強大的、高度適應(yīng)性的工具。它們被設(shè)計為可以處理各種不同的語言任務(wù),并且可以根據(jù)需要進行調(diào)整和優(yōu)化,以滿足特定的需求。而這一切,都是基于大規(guī)模數(shù)據(jù)集的預(yù)訓(xùn)練和精細(xì)的微調(diào)實現(xiàn)的,這是大型語言模型的核心思想和主要優(yōu)勢所在。
大語言模型的分類
關(guān)鍵詞:










