生態(tài)發(fā)布會|天津大學計算機學院張鵬分享自然語言的量子不確定性理論和方法
2021年12月21日,“數(shù)智驅(qū)動決策”中科聞歌首屆大數(shù)據(jù)與決策智能生態(tài)發(fā)布會在北京召開。會上,天津大學計算機學院副院長張鵬作了題為《自然語言的量子不確定性理論和方法》的主題報告,介紹了如何使用量子力學解決自然語言不確定性難題這個研究方向的進展與成果。

? ? ? ?針對自然語言不確定性的量子表示問題,張鵬及其團隊提出使用量子多體來表示自然語言的一詞多義以及詞語間的復雜交互,把詞語性的復雜交互很好地利用量子多體來進行表示,并進一步利用張量分解、投影測量等技術(shù)簡化大張量計算語言復雜度,同時推導出量子多體語言模型和卷積神經(jīng)網(wǎng)絡(luò)之間的本質(zhì)聯(lián)系。


? ? ? ?針對現(xiàn)在大規(guī)模預訓練語言模型參數(shù)量巨大的問題,張鵬及其團隊將參數(shù)矩陣重整化為量子多體表示,再使用張量分解技術(shù)大幅壓縮模型參數(shù),還提出了張量化的Transformer語言模型,使用核張量重構(gòu)多線性自注意力機制,大幅壓縮模型參數(shù)。
基于量子多體的模型壓縮(圖片來自張鵬副院長演講方案)
? ? ? ?針對現(xiàn)有語言建模無法合理兼顧語義和語法的問題,他介紹劍橋大學的一項工作,該工作提出了基于前群縮并技術(shù)的語言建模方法,將現(xiàn)有的語言的象征性方法和分布式方法進行了有效結(jié)合。分布組合語義模型(CSC)可以移植到了量子計算平臺,不僅大幅度提升了計算資源的利用率,還大大降低了計算的復雜度。