久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

Llama3

來自站長百科
跳轉至: 導航、? 搜索

Llama3是科技、社交巨頭Meta于2024年4月發(fā)布的一款開源大模型。據(jù)悉,Llama3共有80億、700億兩種參數(shù),分為基礎預訓練和指令微調兩種模型,使用了15T tokens的訓練數(shù)據(jù),在推理、數(shù)學、代碼生成、指令跟蹤等能力獲得大幅度提升。同時,Llama3還使用了分組查詢注意力、掩碼等創(chuàng)新技術,幫助開發(fā)者以最低的能耗獲取絕佳的性能。

Llama3特點[ ]

Transformer架構[ ]

Llama3采用了純解碼器Transformer架構,這是一種處理序列數(shù)據(jù)的技術,能夠捕獲輸入序列中每個元素之間的重要關系。

技術創(chuàng)新[ ]

Llama3采用了分組查詢注意力(Grouped QA)機制和掩碼技術,這些技術有助于提高模型的性能,同時降低能耗。

為了確保模型不會跨越文檔邊界,通常會與掩碼技術一起使用。在自我注意力中,掩碼被應用于注意力權重矩陣,用于指示哪些位置的信息是有效的,哪些位置應該被忽略。通常當處理文檔邊界時,可以使用兩種類型的掩碼來確保自我注意力不會跨越邊界:

1、填充掩碼:當輸入序列的長度不一致時,通常會對較短的序列進行填充,使其與最長序列的長度相等。填充掩碼用于標記填充的位置,將填充的部分掩蓋,使模型在自我注意力計算中忽略這些位置。

2、未來掩碼:在序列生成任務中,為了避免模型在生成當前位置的輸出時依賴后續(xù)位置的信息,可以使用未來掩碼。未來掩碼將當前位置之后的位置都掩蓋起來,使得自我注意力只能關注當前或之前的位置。

參數(shù)規(guī)模[ ]

Llama3提供了兩種參數(shù)規(guī)模的模型,分別是80億參數(shù)(8B)和700億參數(shù)(70B)。其中,8B版本適合在消費級GPU上高效部署和開發(fā),而70B版本則專為大規(guī)模AI應用設計。

預訓練與微調[ ]

每個版本都包括基礎預訓練和指令微調兩種形式,這使得模型能夠更好地適應不同的應用場景和需求。

性能提升[ ]

Llama3在超過15萬億tokens的公開數(shù)據(jù)集上進行了預訓練,這比前代模型Llama 2的訓練數(shù)據(jù)量有顯著增加,從而在多個領域,如推理、數(shù)學、代碼生成、指令跟蹤等方面的能力獲得了大幅度提升。

多語言支持[ ]

為了實現(xiàn)多語言能力,Llama 3的預訓練數(shù)據(jù)集中包含了超過5%的高質量非英語數(shù)據(jù),涵蓋了30多種語言,這有助于模型處理更廣泛的語言任務。

安全性增強[ ]

基于Llama 3 8B微調后的Llama Guard新版本也已發(fā)布,即Llama Guard 2(安全微調版本),這標志著模型在安全性方面的進步。

開放性與集成[ ]

Llama3的發(fā)布體現(xiàn)了Meta對開放AI領域的持續(xù)投入,并且與Hugging Face生態(tài)系統(tǒng)實現(xiàn)了深度集成,這有助于推動AI技術的普及和應用。

Llama3測試數(shù)據(jù)[ ]

為了測試Llama3的性能,Meta開發(fā)了一個全新的高質量人類評估數(shù)據(jù)集,有1,800個提示,涵蓋12個關鍵用例,包含,征求建議,頭腦風暴,分類,封閉式問題回答,編碼,推理等。

測試結果顯示,Llama3 -700億參數(shù)的指令微調模型的性能,大幅度超過了Claude Sonnet、Mistral Medium和GPT-3.5。

Meta還在MMLU、AGIEval、BIG、ARC等知名測試平臺中,對Llama3 -700億參數(shù)基礎預訓練模型進行了綜合測試,性能大幅度超過了Mistral 7B、Gemma 7B、Gemini Pro 1.0等知名開源模型。

發(fā)展歷程[ ]

  • 2024年4月18日,Meta在官網(wǎng)上宣布公布了旗下最新大模型Llama 3。
  • 2024年4月19日,百度智能云千帆大模型平臺在國內首家推出針對Llama 3全系列版本的訓練推理方案,便于開發(fā)者進行再訓練,搭建專屬大模型。
  • 2024年4月22日,阿里云百煉大模型服務平臺宣布在國內推出針對Llama 3系列的限時免費訓練、部署、推理服務。

相關條目[ ]