已開源!用大模型把NLP任務(wù)重做一遍,雅意2.0推出多語言信息抽取工具箱YAYI-UIE
YAYI-UIE 基于UIE統(tǒng)一信息抽取框架,在百萬級中英雙語語料上進(jìn)行指令微調(diào)和多任務(wù)學(xué)習(xí),能夠根據(jù)用戶指令,自動(dòng)分析和理解文本內(nèi)容,從中提取出關(guān)鍵信息,為用戶提供精確、高效的數(shù)據(jù)分析和決策支持。
YAYI-UIE 開源地址


GitHub: https://github.com/wenge-research/YAYI-UIE
HuggingFace: https://huggingface.co/wenge-research/yayi-uie
YAYI-UIE 三大信息抽取能力全面領(lǐng)先
YAYI-UIE具備命名實(shí)體識別、關(guān)系抽取、事件抽取三大任務(wù)能力,在與多個(gè)代表性模型的零樣本對比測試中,YAYI-UIE多項(xiàng)能力獲得SOTA(最佳性能表現(xiàn))。
● 命名實(shí)體識別(NER): 識別文本中的特定實(shí)體,例如人名、地點(diǎn)、組織、日期、產(chǎn)品等。在此任務(wù)上,YAYI-UIE英文能力與ChatGPT性能接近,中文整體性能最佳。
● 關(guān)系抽取(RE): 識別文本中的實(shí)體之間的關(guān)系,例如領(lǐng)屬關(guān)系(擁有關(guān)系)、修飾關(guān)系(如形容詞和名詞之間的關(guān)系)、時(shí)間關(guān)系等。在此任務(wù)上,YAYI-UIE中英文效果均實(shí)現(xiàn)整體性能最佳(SOTA)。
● 事件抽?。‥E): 識別文本中的事件以及這些事件之間的關(guān)系,例如發(fā)生了什么事件、狀態(tài)如何變化等。在此任務(wù)上,YAYI-UIE 中文整體性能最佳(SOTA)。
YAYI-UIE 適配各類應(yīng)用場景信息抽取需求
面向安全、金融、生物、醫(yī)療、商業(yè)、新聞媒體等12個(gè)應(yīng)用場景,YAYI-UIE 進(jìn)行了針對性訓(xùn)練及測試,確保適應(yīng)不同行業(yè)和應(yīng)用場景的信息抽取需求。
1. 安全領(lǐng)域
支持演習(xí)、政策動(dòng)態(tài)、制裁事件、網(wǎng)絡(luò)安全、襲擊事件、突發(fā)事件、進(jìn)出口異動(dòng)等相關(guān)信息的抽取。
eg:制裁事件要素抽取,包括制裁時(shí)間、實(shí)施國家、被實(shí)施國家、制裁方案等

2. 金融領(lǐng)域
支持公司上市、財(cái)報(bào)公告、虧損事件、破產(chǎn)、收購事件、中標(biāo)事件、股票減持、股份回購、質(zhì)押事件、約談事件等相關(guān)信息的抽取。
eg:公司上市信息抽取,包括上市公司、發(fā)行價(jià)格、發(fā)行申購日等

3. 輿情領(lǐng)域
支持訪問事件、人才遷移、合作事件、會(huì)議活動(dòng)等相關(guān)信息的抽取。
eg:會(huì)議活動(dòng)信息抽取,包括活動(dòng)名稱、發(fā)生時(shí)間、發(fā)生地點(diǎn)、主辦機(jī)構(gòu)、出席人、活動(dòng)名稱等
4. 商業(yè)領(lǐng)域
支持個(gè)人、產(chǎn)品、公司等相關(guān)信息的抽取。
eg:產(chǎn)品相關(guān)實(shí)體信息抽取,包括產(chǎn)品、品牌、型號、介紹等

5. 生活工作
支持餐廳、簡歷、電影核心要素、娛樂等信息的抽取。
eg:簡歷中實(shí)體信息抽取,包括人物、國籍、籍貫、職稱、民族、專業(yè)、組織、學(xué)歷等

6. 生物領(lǐng)域
eg:生物要素實(shí)體抽取,包括細(xì)胞系、蛋白質(zhì)、RNA、DNA、細(xì)胞類型等

7. 醫(yī)療領(lǐng)域
eg:醫(yī)療診斷信息抽取,包括治療、身體部位、檢查和檢驗(yàn)、疾病和診斷、癥狀和體征等

更多領(lǐng)域復(fù)雜信息抽取應(yīng)用
歡迎登錄以下網(wǎng)址,立即體驗(yàn)!
https://yayi.wenge.com/uie/