淺談 GPT 生成式語言模型(1) — 過去

Simon Liu
InfuseAI
Published in
7 min readFeb 7, 2023

--

淺談GPT生成式語言模型(1) — 過去

本文內容難度: ★ ★ ★ ☆ ☆

建議閱讀對象:這是一個一系列的文章,讓想更進階的瞭解到 GPT 模型運用,或者認識 ChatGPT 和 GPT 模型的過去、現在與未來的資料科學家。

ChatGPT 透過生成式預訓練轉換器 GPT 模型,並且引用了強大的預訓練模型,讓模型可以執行各種複雜的 NLP 任務,如問答、文章生成、文本摘要等,這個模型讓市面上發燒一陣子,並且多了新的AI應用和想像。

這系列的文章,我想要來淺談整個 GPT 模型的過去歷史、現在模型發展與未來應用,本次文章主要會包含以下有關過去 GPT 的歷史:

  • GPT的模型介紹
  • 歷代 GPT-1 / GPT-2 / GPT-3 模型簡介
  • 小結:GPT 模型過去的發展狀況

什麼是GPT?

Generative Pre-trained Transformer(GPT)系列是由 OpenAI 提出的預訓練語言模型,這一系列的模型可以執行非常複雜的 NLP 任務,例如回覆問題、生成文章和程式碼,或者翻譯文章內容等。

GPT 採用 Transformer 作為解碼器(decoder),Transformer 由 Google Brain 所推出,主要是處理自然語言的順序輸入資料,用於翻譯、文字摘要等任務上,而在這邊,編碼器的意義是透過輸入逐一生成出結果,所以才叫做生成式預訓練。

當然,這樣的模型無法透過一個簡單的模型就能夠處理完成,模型的訓練需要超大的訓練語料庫、超多的模型參數以及超強的計算資源才能夠處理完成,而 GPT 主要是透過大規模的語料庫做語言模型的預訓練(不須給標籤的無監督式學習),再透過微調(監督式學習)做轉移學習。

GPT 模型架構(左側:預訓練模型架構,右側:微調架構。出處:GPT 論文

歷代 GPT-1 / GPT-2 / GPT-3 模型簡介

先從下述表格看一下歷代 GPT 的模型的比較表格:

GPT 模型比較表

從表格之中可以了解到,從 GPT 到 GPT-3,整體的參數量和數據量是逐步上升,尤其在 GPT-3 時,整體的數字比之前多了超過百倍,但是,如果能夠餵入極大量資料,像是 OpenAI 放入許多網路得來的資料,再加上非常足夠的運算資源,就有機會訓練出如 ChatGPT 的模型。

GPT-1: 第一代 GPT 模型

在2018年時,GPT-1 誕生,將無監督式學習模型可以學習左右有監督模型的預訓練目標,因此叫做生成式預訓練(Generative Pre-training,GPT)。GPT-1 能夠用於和監督任務無關的 NLP 任務中。其常用任務包括:

  • 自然語言推理:判斷兩個句子的關係
  • 問答與常識推理:輸入文章及答案選項,讓模型輸出答案的準確率
  • 語義相似度判別:判斷兩個句子語義是否相關
  • 文本分類:判斷輸入句子是哪個類別

雖然 GPT-1 在未經訓練過的任務上可以有一些效果,但其泛化能力遠低於微調過後的監督式學習模型,因此 GPT-1 就是一個還算不錯的語言理解模型,但是還不是一個很好的對話式 AI 模型。

GPT-2: 第二代 GPT 模型

隔年 2019 年,GPT-2 發布,其核心思想如同論文的標題所述:”Language Models are Unsupervised Multitask Learners“,但主要改變只有使用了更多參數與數據集,模型共計 48 層,參數量達 15 億,學習目標改成unsupervised learning。GPT-2 經過訓練過後,除了擁有原本 GPT-1 的理解能力之外,GPT-2 在生成短文方面能夠有不錯的效果,如聊天、編故事等,並在多個特定的語言建模任務上實現了彼時的最佳性能。

GPT-3: 第三代 GPT 模型

2020年,OpenAI發布了新的 GPT-3 ,其中概念非常簡單粗暴,就是用錢堆成的運算資源,延續過去 GPT 類的單向語言模型的訓練方式,只是將模型增大到 1750 億參數,並且使用 45TB 的資料量給訓練出來,訓練費用需要數千萬美金,耗費非常多的資源和金錢,才能夠完成這個模型。

雖然 GPT-3 已經可以完成模仿人類敘事、寫詩、寫歌等複雜任務,但是 GPT-3 還有可以改善的空間,最主要問題就是這類型的模型學習了作者提供的文本資訊,但是生成之後,無法判斷內容的好壞,導致無法成為後續完整落地的應用。

小結:GPT模型過去的發展狀況

GPT 是基於 Transformer 模型所建立起來的一個大型生成文字模型,讓模型先學習大量的資料後,從文章中學習「經驗」,讓後續使用模型預測結果生成出自己想要的短文結果。

當然,越來越大的模型,也從研究和訓練的過程中,了解到模型的缺陷和不足之處,這也讓我想到 YOLO 模型在初期開發時,總會有判別物件偵測的缺失,直到 YOLOv3 和 YOLOv4,才能夠成為一個強大的模型,能夠辨識出大部分的圖像,進而應用在各種不同的專案上。

接下來下一篇,我將會更近一步的介紹 GPT-3.5,也就是在2022年年底火紅的 ChatGPT 模型的介紹,接著 ChatGPT 可以應用在哪些事情上?以及後續還有更多的 GPT 類模型的介紹,例如說 WebGPT 等模型等等,請期待下一篇文章囉!

I am Simon

Hi, I am Simon, the Customer Success Engineer at InfuseAI. If the article is helpful to you, please give me applause. Welcome to provide some suggestions and discuss with me in InfuseAI Discord.
Linkedin: https://www.linkedin.com/in/simonliuyuwei/

We are InfuseAI

InfuseAI provides MLOps and data tools:

  1. PrimeHub — Our end-to-end MLOps platform is the entire machine learning lifecycle in one platform.
  2. MLOps consultant — Let the user know how to use MLOps to do the machine learning pipeline.
  3. PipeRider — The data quality toolkit for data professionals.

Join our machine learning community to discover more: InfuseAI Discord

Join our Discord Community!

--

--

Hi, I'm Simon Liu, AI and LLM engineer who's shaped AI solutions for major firms. Welcome to see my Medium article!