探索 BLOOM:多語言大語言模型綜合指南

Indonesia Data Forum Pioneering and Big Data Growth
Post Reply
urrifat77
Posts: 34
Joined: Tue Dec 03, 2024 6:47 am

探索 BLOOM:多語言大語言模型綜合指南

Post by urrifat77 »

大型語言模型 (LLM) 的興起已成為自然語言處理 (NLP) 領域的決定性趨勢,導致其在各種應用中廣泛採用。然而,這種進步往往是排他性的,大多數由資源豐富的組織開發的法學碩士仍然無法向公眾開放。

這種排他性提出了一個重要的問題:如果有一種方法可以民主化這些強大的語言模型的存取呢?這就是 BLOOM 登場的地方。

本文首先提供有關 BLOOM 起源的更多詳細信息,對BLOOM進行了完整概述。然後,它介紹了 BLOOM 的技術規範以及如何使用它,然後強調其局限性和道德考慮。

什麼是綻放?
BigScience大型開放科學開放取用多 土耳其電話號碼列表 語言語言模型(簡稱BLOOM)代表了語言模型技術民主化的巨大進步。

BLOOM 由來自 39 個國家的 1200 多名參與者(其中大量來自美國)合作開發,是全球共同努力的產物。該計畫由 BigScience 與 Hugging Face 和法國 NLP 社區合作協調,超越了地理和機構的界限。

它是一個開源且僅限解碼器的 Transformer 模型,具有在 ROOTS 語料庫上訓練的 176B 參數,ROOTS 語料庫是包含 59 種語言的數百個來源的資料集:46 種口語和 13 種程式語言。

下面是訓練語言分佈的圓餅圖。

培訓語言分佈

訓練語言分佈(來源)

人們發現該模型在各種基準測試中都取得了出色的性能,並且在多任務提示微調後達到了更好的結果。

該計畫最終在巴黎的 Jean Zay 超級電腦上進行了為期 117 天(3 月 11 日至 7 月 6 日)的培訓課程,並得到了法國研究機構 CNRS 和 GENCI 的大量計算資助的支持。

BLOOM不僅是個技術奇蹟,也是國際合作和集體科學追求力量的象徵。

BLOOM模型架構
現在,讓我們更詳細地描述 BLOOM 的架構,它涉及多個元件。

布魯姆建築

Image

Bloom 架構(來源)

如論文中詳細介紹的,BLOOM 模型的架構包括幾個值得注意的面向:

設計方法:團隊專注於可擴展的模型系列,並在公開可用的工具和程式碼庫的支援下,對較小的模型進行了消融實驗,以優化組件和超參數。零樣本泛化是評估架構決策的關鍵指標。
架構與預訓練目標: BLOOM 是基於 Transformer 架構,特別是因果解碼器模型。與編碼器-解碼器和其他僅解碼器架構相比,此方法被驗證為最有效的零樣本泛化能力。
建模細節:
ALiBi 位置嵌入:選擇 ALiBi 而不是傳統的位置嵌入,因為它根據鍵和查詢之間的距離直接減弱注意力分數。這使得訓練更加順利,表現也更加出色。
Embedding LayerNorm:嵌入層之後立即包含一個附加層歸一化,這提高了訓練穩定性。這個決定部分是受到最終訓練中使用bfloat16的影響,bfloat16比float16更穩定。
這些組件反映了團隊致力於平衡創新與成熟技術以優化模型的性能和穩定性。
Post Reply