現在只用60行代碼,就能從0構建GPT了! 想當初,前特斯拉前AI總監的minGPT和nanoGPT也都還要300行代碼。 這個60行代碼的GPT也有名字,博主將它命名為PicoGPT。 不過和此前minGPT和nanoGPT的教程不同,今天要講的這個博主的教程,更側重于代碼實現部分,模型的權重則用已經訓練好的。 對此,博主解釋稱這篇教程的重點在于提供一個簡單且易于破解的完整技術介紹。 這對還不理解GPT背后概念的盆友,算是非常友好了。 還有網友稱贊,這篇博客介紹得非常清晰,第一部分尤為如此。 這篇介紹GPT模型的文章太好了,它比我之前看到的介紹都要清晰,至少在第一部分討論文本生成和取樣是這樣的。 目前,此項目在GitHub上標星已破百,HackerNews上的點擊量也即將破千。 從GPT是什么講起 在介紹之前,還是需要說明一下,這篇教程不是完全零門檻,需要讀者提前熟悉Python、NumPy以及一些基本的訓練神經網絡。 教程的重點聚焦在技術介紹上,統共有六大部分: 什么是GPT? 按照慣例,在正式構建GPT之前得先對它做一些基本介紹,教程從輸入/輸出、生成文本以及訓練三個部分分別來講GPT是如何工作的。 在這趴,博主附上代碼,甚至還用了一些比喻來讓讀者們更好地理解GPT。 舉個栗子,在輸入這一部分,作者將句子比作一條繩子,tokenizer則會將其分割成一小段一小段(單詞),被稱作token。 又比如說,在生成文本這part介紹自動回歸時,博主直接貼上代碼: 在每次迭代中,它會將預測的token追加回輸入,這個預測未來值并將其添加回輸入的過程就是GPT被描述為自動回歸的原因。 60行代碼怎么運行? 了解完GPT的基本概念之后,就直接快進到了如何在電腦上運行這個PicoGPT。 博主先是甩出了他那只有60行的代碼: 然后從克隆存儲庫,安裝依賴項等步驟一步步教你如何在電腦上運行GPT。 其中,還不乏一些貼心的小tips,比如說如果使用的是M1 Macbook,那在運行pip install之前,需要將requments.txt中的tensorflow更改為tensorflow-macos。 此外,對于代碼的四個部分:gpt2,generate,main以及fire.Fire(main),博主也有做詳細解釋。 等到代碼能夠運行之后,下一步博主就準備詳細介紹編碼器、超參數(hparams)以及參數(params)這三部分了。 直接在筆記本或者Python會話中運行下面這個代碼: 一些必要的模型和tokenizer文件就直接下載到model/124M,編碼器、hparams和params也能直接加載。 更具體的內容這里就不多說了,教程的鏈接已經附在文末。 一些基礎神經網絡層的介紹 這一趴涉及到的知識就更加基礎了,因為下一趴是實際GPT自身的架構,所以在此之前,需要了解一些非特定于GPT的更基本的神經網絡層。 博主介紹了GeLU、Softmax函數以及Layer Normalization和Linear。 GPT架構 終于!這部分要來講GPT自身的架構了,博主從transformer的架構引入。
GPT的架構只使用了transformer中的解碼器堆棧(即圖表的右邊部分),并且其中的的“交叉注意”層也沒有用到。
隨后,博主將GPT的架構總結成了三大部分: -文本 + 位置嵌入 -變壓器解碼器堆棧 -下一個token預測頭 并且還將這三部分用代碼展示了出來,是醬紫的: 再后面,就是關于這三部分的更多細節…… 測試構建的GPT 這部分將全部的代碼組合在一起,就得到了gpt2.py,統共有120行代碼,刪除注釋和空格的話,就是60行。 然后測試一下! 結果是這樣的: 成功了! 一些后續補充 最后一部分,博主也總結了這短短60行代碼的不足:非常低效! 不過他還是給出了兩個可以讓GPT變高效的方法: -同時地而不是順序地執行注意力計算。 -實現 KV 緩存。 此外,博主還推薦了一些訓練模型、評估模型以及改進架構的方法和教程。 感興趣的話,直接戳文末鏈接~ 作者介紹 Jay Mody,目前在加拿大一家NLP初創公司Cohere從事機器學習的工作,此前,他還分別在特斯拉和亞馬遜作為軟件工程師實習過一段時間。 除了這篇教程之外,小哥的博客網站上還有更新其他文章,并且都有附代碼~ 代碼傳送門:https://github.com/jaymody/picoGPT/blob/29e78cc52b58ed2c1c483ffea2eb46ff6bdec785/gpt2_pico.py#L3-L58 教程鏈接:https://jaykmody.com/blog/gpt-from-scratch/#putting-it-all-together |
免責聲明:本站部分文章和圖片均來自用戶投稿和網絡收集,旨在傳播知識,文章和圖片版權歸原作者及原出處所有,僅供學習與參考,請勿用于商業用途,如果損害了您的權利,請聯系我們及時修正或刪除。謝謝!
始終以前瞻性的眼光聚焦站長、創業、互聯網等領域,為您提供最新最全的互聯網資訊,幫助站長轉型升級,為互聯網創業者提供更加優質的創業信息和品牌營銷服務,與站長一起進步!讓互聯網創業者不再孤獨!
掃一掃,關注站長網微信