淺談 GPT 生成式語言模型(1) — 過去

Simon Liu

Published in

InfuseAI

7 min readFeb 7, 2023

本文內容難度： ★ ★ ★ ☆ ☆

建議閱讀對象：這是一個一系列的文章，讓想更進階的瞭解到 GPT 模型運用，或者認識 ChatGPT 和 GPT 模型的過去、現在與未來的資料科學家。

ChatGPT 透過生成式預訓練轉換器 GPT 模型，並且引用了強大的預訓練模型，讓模型可以執行各種複雜的 NLP 任務，如問答、文章生成、文本摘要等，這個模型讓市面上發燒一陣子，並且多了新的AI應用和想像。

這系列的文章，我想要來淺談整個 GPT 模型的過去歷史、現在模型發展與未來應用，本次文章主要會包含以下有關過去 GPT 的歷史：

GPT的模型介紹
歷代 GPT-1 / GPT-2 / GPT-3 模型簡介
小結：GPT 模型過去的發展狀況

什麼是GPT?

Generative Pre-trained Transformer（GPT）系列是由 OpenAI 提出的預訓練語言模型，這一系列的模型可以執行非常複雜的 NLP 任務，例如回覆問題、生成文章和程式碼，或者翻譯文章內容等。

GPT 採用 Transformer 作為解碼器（decoder），Transformer 由 Google Brain 所推出，主要是處理自然語言的順序輸入資料，用於翻譯、文字摘要等任務上，而在這邊，編碼器的意義是透過輸入逐一生成出結果，所以才叫做生成式預訓練。

當然，這樣的模型無法透過一個簡單的模型就能夠處理完成，模型的訓練需要超大的訓練語料庫、超多的模型參數以及超強的計算資源才能夠處理完成，而 GPT 主要是透過大規模的語料庫做語言模型的預訓練（不須給標籤的無監督式學習），再透過微調（監督式學習）做轉移學習。

GPT 模型架構（*左側：預訓練模型架構，右側：微調架構。出處：GPT 論文*）

歷代 GPT-1 / GPT-2 / GPT-3 模型簡介

先從下述表格看一下歷代 GPT 的模型的比較表格：

GPT 模型比較表

從表格之中可以了解到，從 GPT 到 GPT-3，整體的參數量和數據量是逐步上升，尤其在 GPT-3 時，整體的數字比之前多了超過百倍，但是，如果能夠餵入極大量資料，像是 OpenAI 放入許多網路得來的資料，再加上非常足夠的運算資源，就有機會訓練出如 ChatGPT 的模型。

GPT-1: 第一代 GPT 模型

在2018年時，GPT-1 誕生，將無監督式學習模型可以學習左右有監督模型的預訓練目標，因此叫做生成式預訓練（Generative Pre-training，GPT）。GPT-1 能夠用於和監督任務無關的 NLP 任務中。其常用任務包括：

自然語言推理：判斷兩個句子的關係
問答與常識推理：輸入文章及答案選項，讓模型輸出答案的準確率
語義相似度判別：判斷兩個句子語義是否相關
文本分類：判斷輸入句子是哪個類別

雖然 GPT-1 在未經訓練過的任務上可以有一些效果，但其泛化能力遠低於微調過後的監督式學習模型，因此 GPT-1 就是一個還算不錯的語言理解模型，但是還不是一個很好的對話式 AI 模型。

GPT-2: 第二代 GPT 模型

隔年 2019 年，GPT-2 發布，其核心思想如同論文的標題所述：”Language Models are Unsupervised Multitask Learners“，但主要改變只有使用了更多參數與數據集，模型共計 48 層，參數量達 15 億，學習目標改成unsupervised learning。GPT-2 經過訓練過後，除了擁有原本 GPT-1 的理解能力之外，GPT-2 在生成短文方面能夠有不錯的效果，如聊天、編故事等，並在多個特定的語言建模任務上實現了彼時的最佳性能。

GPT-3: 第三代 GPT 模型

2020年，OpenAI發布了新的 GPT-3 ，其中概念非常簡單粗暴，就是用錢堆成的運算資源，延續過去 GPT 類的單向語言模型的訓練方式，只是將模型增大到 1750 億參數，並且使用 45TB 的資料量給訓練出來，訓練費用需要數千萬美金，耗費非常多的資源和金錢，才能夠完成這個模型。

雖然 GPT-3 已經可以完成模仿人類敘事、寫詩、寫歌等複雜任務，但是 GPT-3 還有可以改善的空間，最主要問題就是這類型的模型學習了作者提供的文本資訊，但是生成之後，無法判斷內容的好壞，導致無法成為後續完整落地的應用。

小結：GPT模型過去的發展狀況

GPT 是基於 Transformer 模型所建立起來的一個大型生成文字模型，讓模型先學習大量的資料後，從文章中學習「經驗」，讓後續使用模型預測結果生成出自己想要的短文結果。

當然，越來越大的模型，也從研究和訓練的過程中，了解到模型的缺陷和不足之處，這也讓我想到 YOLO 模型在初期開發時，總會有判別物件偵測的缺失，直到 YOLOv3 和 YOLOv4，才能夠成為一個強大的模型，能夠辨識出大部分的圖像，進而應用在各種不同的專案上。

接下來下一篇，我將會更近一步的介紹 GPT-3.5，也就是在2022年年底火紅的 ChatGPT 模型的介紹，接著 ChatGPT 可以應用在哪些事情上？以及後續還有更多的 GPT 類模型的介紹，例如說 WebGPT 等模型等等，請期待下一篇文章囉！

參考資料

I am Simon

Hi, I am Simon, the Customer Success Engineer at InfuseAI. If the article is helpful to you, please give me applause. Welcome to provide some suggestions and discuss with me in InfuseAI Discord.
Linkedin: https://www.linkedin.com/in/simonliuyuwei/

We are InfuseAI

InfuseAI provides MLOps and data tools:

PrimeHub — Our end-to-end MLOps platform is the entire machine learning lifecycle in one platform.
MLOps consultant — Let the user know how to use MLOps to do the machine learning pipeline.
PipeRider — The data quality toolkit for data professionals.

Join our machine learning community to discover more: InfuseAI Discord