“YAYI 2: Multilingual Open-Source Large Language Models”技術(shù)報(bào)告發(fā)布

雅意2.0技術(shù)報(bào)告亮點(diǎn)摘要
千卡集群,從頭預(yù)訓(xùn)練
雅意2.0采用以Transformer為基礎(chǔ)的解碼器架構(gòu),通過(guò)千卡集群分布式訓(xùn)練,并使用ZeRO Stage 3優(yōu)化訓(xùn)練效率。

數(shù)據(jù)語(yǔ)料安全可控
雅意2.0從預(yù)訓(xùn)練階段和指令微調(diào)階段把控安全性,在預(yù)訓(xùn)練階段通過(guò)基于觸發(fā)詞的過(guò)濾模型進(jìn)行初篩,然后使用基于量子啟發(fā)式語(yǔ)言的分類模型再次過(guò)濾;在指令微調(diào)階段,增加了安全性數(shù)據(jù),包含正面引導(dǎo)和拒絕回答兩種類型。

多項(xiàng)評(píng)測(cè)排名第一
雅意2.0在多語(yǔ)種場(chǎng)景下優(yōu)于國(guó)內(nèi)同參數(shù)級(jí)別的開(kāi)源大模型,支持128K長(zhǎng)文推理,在OpenCompass榜單200億-400億參數(shù)模型中,MMLU、AGIEval、CMMLU、GSM8K、HumanEval、MBPP等多項(xiàng)評(píng)測(cè)榜單排名第一。
