生態(tài)發(fā)布會(huì)|中科院自動(dòng)化所赫然研究員分享視覺內(nèi)容生成和鑒別
? ? ?2021年12月21日,“數(shù)據(jù)驅(qū)動(dòng)決策”中科聞歌首屆大數(shù)據(jù)與決策智能生態(tài)發(fā)布會(huì)在北京成功舉辦。會(huì)上,中國科學(xué)院自動(dòng)化研究所研究員赫然作題為《視覺內(nèi)容生成和鑒別》的學(xué)術(shù)報(bào)告,全面介紹了視覺內(nèi)容的生成技術(shù),列舉了具體的應(yīng)用和影響,并闡述了合成信息的鑒別方法。
? ? ? ?赫然介紹了深度合成、深度偽造和對(duì)抗樣本的基本概念,并進(jìn)一步闡述了三者之間的關(guān)聯(lián)。他指出,深度合成是基于人工智能技術(shù)實(shí)現(xiàn)對(duì)數(shù)字多媒體內(nèi)容進(jìn)行自動(dòng)合成或編輯的技術(shù),深度偽造指借助深度合成技術(shù)偽造以人為主體的視聽覺內(nèi)容以達(dá)到欺騙的目的,其主要攻擊人的視聽覺系統(tǒng),而對(duì)抗樣本則主要攻擊機(jī)器的智能系統(tǒng)。
? ? ? 赫然表示,目前約64%的深度合成視頻應(yīng)用于娛樂領(lǐng)域,深度合成若以人為中心則主要涉及無中生有、身份替換和人臉重演等方面。無中生有即為從噪聲中合成人臉,其合成的圖像數(shù)據(jù)都是現(xiàn)實(shí)世界不存在的虛擬數(shù)據(jù)。身份替換涉及到的重要技術(shù)之一為人臉換臉,可以把一個(gè)人的臉換到另一個(gè)人的身上;為了使換臉結(jié)果更加逼真,可以使用信息瓶頸方法,將人臉身份相關(guān)的有用信息留下,背景等無關(guān)的信息去掉,即可實(shí)現(xiàn)不同性別不同年齡的精準(zhǔn)換臉。同時(shí),還可以把臉換到不同類型的圖像上,如可以將《哈利波特》男女主角的臉換到卡通人物身上等。除此之外,還可以模擬任何場景下的光照,使更換后的結(jié)果更加貼合真實(shí)場景。深度合成中另一個(gè)具有代表性的工作是人臉重演,可以讓一個(gè)人說他沒有說過的話,其中,語音驅(qū)動(dòng)說話人技術(shù)可以讓不同的人說同樣的話。
深度合成的原理(圖片來自赫然研究員演講方案)
? ? ? ?赫然認(rèn)為,在深度合成技術(shù)廣泛應(yīng)用的同時(shí),如何鑒別合成的虛擬數(shù)據(jù)也成為互聯(lián)網(wǎng)行業(yè)關(guān)注的重點(diǎn)內(nèi)容之一。他指出,可以通過模型指紋線索、圖像拼接線索、時(shí)序閃爍線索、時(shí)序生理信號(hào)線索、音視頻一致性線索、語義合理性線索等來判斷真假,也可以使用多模態(tài)多線索的鑒別方法,利用語音、語義、視頻信息等所有可能用到的信息,再加上輔助分析來鑒別其是否為合成信息。
深度合成的鑒別線索(圖片來自赫然研究員演講方案)
? ? ? ?赫然表示,視覺內(nèi)容的合成與鑒別是一個(gè)對(duì)抗搏弈的過程,隨著合成技術(shù)的發(fā)展,合成數(shù)據(jù)集也變得越來越真實(shí)、越來越難以辨別,由此也出現(xiàn)了利用時(shí)空信息、多特征協(xié)同和自注意力機(jī)制進(jìn)行檢測等新的鑒別方法,但合成和鑒別技術(shù)的更新迭代速度較快,后續(xù)仍有很多實(shí)際問題需要進(jìn)一步研究。