全面開(kāi)源的雅意2.0來(lái)了!HuggingFace和Github可下載
雅意全系列模型、代碼、數(shù)據(jù)全面開(kāi)源開(kāi)放
雅意2.0開(kāi)源目前最大規(guī)模的高質(zhì)量中文預(yù)訓(xùn)練數(shù)據(jù)集和信息收取指令數(shù)據(jù)集:
同時(shí),雅意2.0全系列模型,包括YAYI 2 的預(yù)訓(xùn)練模型、YAYI 2 Chat對(duì)話模型、YAYI UIE信息抽取大模型,所有代碼、模型都已通過(guò)GitHub、HuggingFace平臺(tái)向每一位開(kāi)發(fā)者開(kāi)放,均可免費(fèi)申請(qǐng)商用,歡迎大家體驗(yàn)!
Github:https://github.com/wenge-research
Huggingface:https://huggingface.co/wenge-research
雅意2.0能力全面增強(qiáng)
1
模型訓(xùn)練
● 模型參數(shù)大幅提升
● Token壓縮率國(guó)內(nèi)領(lǐng)先,中英雙語(yǔ)國(guó)內(nèi)領(lǐng)先、多語(yǔ)種國(guó)內(nèi)No.1
● 從頭預(yù)訓(xùn)練,數(shù)據(jù)多層過(guò)濾、分布廣泛:240TB多源基礎(chǔ)數(shù)據(jù),1000余道數(shù)據(jù)清洗工序,2.65萬(wàn)億Tokens高質(zhì)量訓(xùn)練數(shù)據(jù)。
2
特色技能
● 多輪對(duì)話角色扮演,可扮演特定人物、執(zhí)行專(zhuān)業(yè)任務(wù),支持自定義角色及表達(dá)風(fēng)格,實(shí)現(xiàn)超長(zhǎng)輪歷史對(duì)話關(guān)聯(lián);
● 最長(zhǎng)128k輸入更長(zhǎng)上下文窗口,支持離線文檔、數(shù)據(jù)庫(kù)、API接入;
● 1000W+圖文數(shù)據(jù)對(duì)齊,多模態(tài)能力提升(圖生文:支持內(nèi)容理解、審核、抽取等30+能力;文生圖:文本描述提升文生圖細(xì)節(jié));
● 內(nèi)容安全風(fēng)控,人類(lèi)價(jià)值觀對(duì)齊、流式內(nèi)容實(shí)時(shí)審核、誘導(dǎo)性拒識(shí);
● 10+智能插件調(diào)用,可根據(jù)用戶(hù)輸入自動(dòng)化選擇插件,支持自定義插件庫(kù);支持搜索引擎、PDF解析、計(jì)算器、天氣、AI繪畫(huà)、數(shù)字人等插件;精準(zhǔn)解析用戶(hù)對(duì)話意圖,降低生成幻覺(jué);
● 10+語(yǔ)種支持,多語(yǔ)言能力提升
● 100種+復(fù)雜信息抽取信息抽取能力提升
3
專(zhuān)業(yè)技能
雅意2.0深度增強(qiáng)安全、金融、媒體、輿情等領(lǐng)域的專(zhuān)業(yè)能力,并覆蓋法律、中醫(yī)等多業(yè)務(wù)場(chǎng)景,著力構(gòu)建雅意大模型行業(yè)生態(tài)。
同時(shí),推出雅意2.0通用產(chǎn)品體系:
● YAYI-Chat:大模型MaaS服務(wù)平臺(tái)
● YAYI-Bot:專(zhuān)家級(jí)行業(yè)助手,雅意移動(dòng)端應(yīng)用
● YAYI UIE:復(fù)雜信息抽取工具箱
● YAYI File:文檔智能問(wèn)答,企業(yè)內(nèi)部非結(jié)構(gòu)數(shù)據(jù)智能處理
4
測(cè)評(píng)指標(biāo)
雅意2.0多項(xiàng)測(cè)評(píng)業(yè)內(nèi)領(lǐng)先
● Token壓縮率中英雙語(yǔ)國(guó)內(nèi)領(lǐng)先、多語(yǔ)種國(guó)內(nèi)第一;
● 中文知識(shí)問(wèn)答能力業(yè)界領(lǐng)先,獲得AGIEval、CMMLU測(cè)評(píng)第一,MMLU測(cè)評(píng)第二,C-Eval、HumanEval測(cè)評(píng)第五
● 零樣本中文信息抽取能力多項(xiàng)全球SOTA(最佳性能表現(xiàn)):事件抽取任務(wù),SOTA;關(guān)系抽取,SOTA;實(shí)體抽取,中文SOTA,英文全面對(duì)標(biāo)ChatGPT