【摘 要】 保密會議室等重要場所圍護結構的缺陷會導致聲音泄漏隱患。聲掩蔽技術通過產(chǎn)生特定的聲音,對泄漏的語音進行干擾,是保障聲音信息安全的重要手段。本文從關鍵技術及評價方法等方面對聲掩蔽技術進行了分析,指出目前存在的問題,并對未來發(fā)展提出了建議,為聲掩蔽系統(tǒng)的研發(fā)、測試、使用及維護提供參考。
【關鍵詞】 聲掩蔽?聲音泄漏?聲音信息安全
1 引言
隨著信息技術的發(fā)展,利用高靈敏度拾音器、拾振器等技術手段及高效的語音復原方法,竊聽者能夠在室外以非入侵方式竊取室內(nèi)的語音,給這些場所的聲音信息安全帶來嚴峻挑戰(zhàn)。
根據(jù)門、窗、墻體、管道等建筑圍護結構和設施的聲學特性,室內(nèi)語音可經(jīng)由空氣傳聲和固體振動傳聲等渠道泄漏至室外,泄漏程度與室內(nèi)聲源聲壓及其聲場分布、圍護結構隔聲、室外噪聲水平、安全距離等因素有關。對聲音信息泄漏的防護可分為2種途徑:一種是屏蔽,即采用吸聲、隔聲、減振等措施將室內(nèi)聲音阻擋在場所邊界內(nèi)或使泄漏的聲音充分衰減,但需要對建筑圍護結構和內(nèi)部管道等設施進行改造,成本高昂,維護升級困難,靈活性差;另一種是干擾,即向聲音泄漏路徑或竊聽風險位置施加其他聲音,以干擾接收者對泄漏語音的理解和恢復,這一技術稱為聲掩蔽(sound masking)。該方法可以彌補場所的聲學缺陷,具有使用靈活、成本低、可重用等優(yōu)點,成為保障聲音信息安全的重要技術手段。
2 聲掩蔽技術現(xiàn)狀
聲掩蔽技術是基于人耳的聽覺掩蔽效應提出的,即一個聲音的存在使另一個聲音的聽覺閾值提高而不易被聽到的現(xiàn)象。利用掩蔽效應,通過向目標區(qū)域施加特定的掩蔽聲,可以掩蓋和干擾泄漏的語音,保護語音信息的安全。按照防范對象,聲掩蔽技術可分為2種應用領域:一種是針對無意聽者的語音隱私保護,常見于開放式辦公室、醫(yī)院、銀行、話務中心等人員密集但隔聲不佳的場所,其目的在于避免談話被他人聽到或對他人造成干擾;另一種是針對惡意聽者的語音信息保護,常用于產(chǎn)生敏感語音信息的場所。二者在應用場景及技術路線上有很大不同。隱私保護主要針對空氣渠道泄漏的聲音和無意收聽,通常只需使用噪聲、流水聲、音樂等較為舒緩的聲音作為掩蔽聲,以提高背景聲壓水平,技術上主要關注掩蔽效果和舒適性。而信息保護用途針對的是潛在的惡意竊聽者,其可能使用各種先進的拾音、拾振裝置及語音復原技術進行竊聽,因而對掩蔽聲的掩蔽能力有更高的要求;除了對空氣聲泄漏的防護,還需防范振動聲泄漏隱患;同時,聲掩蔽系統(tǒng)的防破解、防破壞等安全問題也需要考慮。
國際上對聲掩蔽技術的研究起步較早,美國、澳大利亞和歐洲一些國家都研制出了較為成熟的聲掩蔽產(chǎn)品。國外也出臺了相關標準規(guī)范,如美國情報部門在2002年制定了專門規(guī)范,對敏感信息隔離設施的隔聲及聲掩蔽等聲學防護措施提出了要求;美國軍方也頒布了相關標準對軍用敏感信息隔離設施提出了聲音防護要求。國外研制的聲掩蔽產(chǎn)品眾多,但可獲得的技術資料和產(chǎn)品大多針對隱私保護等普通應用,且漢語與英語有較大區(qū)別,國外技術未必適合漢語特征。因此,研發(fā)安全可控的聲掩蔽技術和產(chǎn)品勢在必行。我國的聲掩蔽技術、產(chǎn)品和規(guī)范目前尚不完善,聲掩蔽系統(tǒng)的有效性和安全性尚有待驗證。
3 聲掩蔽系統(tǒng)的關鍵技術
典型的聲掩蔽系統(tǒng)通常由掩蔽聲發(fā)生器和輸出終端組成。其中,掩蔽聲發(fā)生器產(chǎn)生掩蔽信號,并對其強度和頻譜等特征進行調(diào)節(jié);輸出終端通過揚聲器或激振器等換能裝置將掩蔽聲的電信號轉換為空氣聲或振動聲信號。以下對聲掩蔽系統(tǒng)的關鍵技術進行分析。
3.1 掩蔽聲源的設計
足夠強的掩蔽聲可以掩蓋泄漏的語音,但同時會對附近人員產(chǎn)生干擾,影響其聽覺舒適度。因此,掩蔽聲的掩蔽效果和舒適性通常是矛盾的。掩蔽聲源的設計目標是設計高效、舒適的掩蔽信號,以更小的掩蔽強度達到更優(yōu)的掩蔽效果。常見的掩蔽聲源可以歸納為以下3類。
3.1.1噪聲
噪聲是自然界中最常見的干擾聲源,因此常用作掩蔽聲,如白噪聲、粉噪聲、空調(diào)噪聲、群口噪聲(多人同時說話的噪聲,也稱babble噪聲)等。但噪聲與被掩蔽語音的相關性低,掩蔽效率不高。對常見噪聲掩蔽能力的實驗表明,語音信號與掩蔽聲的功率比(信掩比)在-15dB以下時,被掩蔽的語音基本不可懂,0dB以上基本完全可懂,在-10~0dB時掩蔽效果與掩蔽聲源關系密切,常見噪聲中babble噪聲最優(yōu)、粉噪聲次之、白噪聲最差。這是因為babble噪聲由多人語音構成,與目標語音具備一定的相似性,同其他噪聲相比有更好的掩蔽能力。例如,信掩比在-12dB時babble噪聲可使單詞可懂度下降到10%左右,而相同條件下的空調(diào)噪聲掩蔽后的單詞可懂度接近60%。但babble噪聲隨時間波動更劇烈,且包含可被理解的語義信息,因此,同白噪聲等平穩(wěn)噪聲相比,相同聲壓下的舒適性較差。
3.1.2自然聲
自然界產(chǎn)生的聲音(如瀑布、降雨、溪流、鳥鳴、風聲等)通常具有很好的聽覺舒適度,對人的消極影響小,因此常用于聲景觀和聲掩蔽系統(tǒng)中。與噪聲相同,自然聲也存在掩蔽能力不足的缺陷。實驗表明,在各種自然聲中流水聲表現(xiàn)出較高的掩蔽效率和舒適性。
3.1.3類語音
聲音的掩蔽效應可以分為能量掩蔽和信息掩蔽,前者通過掩蔽聲在時間和頻率上的能量重疊對目標語音形成干擾,而后者產(chǎn)生的機理尚不十分明確,通常被認為是掩蔽聲提高了聽覺中樞系統(tǒng)的加工負荷,使其處理目標語音時資源不足。同能量掩蔽相比,信息掩蔽利用了人腦更深層次的信息處理機制,可能以更低的能量實現(xiàn)更高效的掩蔽。研究表明,提高掩蔽聲和目標語音的相似性是產(chǎn)生信息掩蔽的可能途徑,特別是認知、語義等特征上的相似性會極大提高聽者的區(qū)分難度。
類語音(speech-like noise)是一種具備語音特征但又沒有明確語義的聲音信號,即聽上去有人說話但又不知所云。類語音在心理聲學特征上與被掩蔽語音接近,因此掩蔽效率比噪聲和自然聲更高。同時,語義的缺失使其對周圍人注意力的影響減小,有利于改善掩蔽聲的舒適性。一種實現(xiàn)策略是通過目標語音來構建掩蔽聲,以獲得二者最佳的相似性。例如,將實時采集的目標語音分段并逐段進行時間反轉可破壞其語義信息但保留其聲學特征,因而成為構造類語音掩蔽聲的一種有效方法,即時間反轉法。研究表明,與空調(diào)噪聲、babble噪聲等掩蔽聲源相比,時間反轉類語音具有最強的掩蔽能力,在-12dB信掩比下句子可懂度幾乎為0。但同babble噪聲類似,其舒適性不如平穩(wěn)噪聲和自然聲。此外,需要特別注意的是,盡管時間反轉類語音生成方法可以對幀長等參數(shù)進行保護,但其聲音信息完全來自目標語音,一旦反轉規(guī)則被破解將完全喪失掩蔽能力,因此設計中需要更充分地考慮算法的安全性。
除上述3類聲源外,音樂等類型的聲音也可用作掩蔽聲。不同類型的掩蔽聲源在掩蔽效率、舒適性及安全性方面各有不同,混合使用則有望取長補短。例如,可以用平穩(wěn)噪聲進行基礎的能量掩蔽,用類語音實現(xiàn)高效的信息掩蔽,用自然聲或音樂改善舒適性,同時復雜的掩蔽聲特征也提高了竊聽者還原目標語音的難度。但可用于掩蔽的聲源眾多,混合方式及各聲源的比例不勝枚舉,如何設計出更高效、更安全、更舒適的掩蔽聲仍需進一步研究。
3.2 掩蔽聲的調(diào)節(jié)
聲掩蔽系統(tǒng)的使用場景不同于傳統(tǒng)的擴聲系統(tǒng),對聲源進行高保真的聲音重放不是主要目的。相反,若根據(jù)掩蔽聲源、目標語音及現(xiàn)場聲學環(huán)境的特征對掩蔽聲進行調(diào)節(jié),則可能改善系統(tǒng)的性能。例如,針對噪聲、自然聲等作為掩蔽聲源與目標語音相似度不足的問題,可以通過濾波、均衡等處理使其具備與語音相近的頻譜,以提高掩蔽效率。更進一步地,由于建筑圍護結構的隔聲在不同頻率處不同,泄漏的語音與室內(nèi)語音在頻譜上存在較大差異,若將目標語音與圍護結構隔聲等特征作為掩蔽聲頻譜調(diào)節(jié)的依據(jù),可產(chǎn)生更高效、更精細的掩蔽聲。針對類語音等掩蔽聲源與目標語音特征相似而舒適性不高的問題,向其中適當增加混響可以在保持掩蔽效果的同時提高舒適性。根據(jù)目標語音聲壓的變化自適應地調(diào)節(jié)掩蔽聲的聲壓,可以獲得更為穩(wěn)定的掩蔽效果。此外,對掩蔽聲源進行隨機處理可以擴大掩蔽聲的樣本空間,提高其被破解或預測的難度,增加系統(tǒng)的安全性。
3.3 掩蔽聲的輸出
針對需要防護的聲音泄漏渠道,掩蔽聲的輸出分為空氣聲和振動聲(或固體聲)2種類型。
3.3.1空氣聲掩蔽
由揚聲器作為輸出換能器,對經(jīng)由空氣傳播的聲音泄漏進行防護。傳統(tǒng)的以隱私保護為目的的聲掩蔽系統(tǒng)大多為此種類型,通常在圍護結構周邊存在聲音泄漏隱患的空間內(nèi)使用,如走廊、吊頂、通風管道等,特別是走廊內(nèi)的門、窗等薄弱區(qū)域。揚聲器的部署位置和密度應綜合考慮掩蔽聲的空間衰減、揚聲器的指向性、背景噪聲水平、室內(nèi)聲源位置、聲音泄漏位置和泄漏程度等因素,使掩蔽聲的聲場分布與聲音泄漏的分布相匹配。
3.3.2振動聲掩蔽
由激振器作為輸出換能器,產(chǎn)生振動信號,對經(jīng)由固體振動傳播的聲音泄漏進行防護。室內(nèi)語音將導致墻體、門、窗、管道等固體結構的微弱振動,由于固體中的聲波衰減慢、傳播距離遠,而人耳又不易察覺,故振動成為廣泛存在但又容易被忽視的聲音泄漏渠道,也是極易被利用的泄密隱患。例如,窗戶的振動可能被激光拾振器、指向性傳聲器等裝置在遠距離外探測到,墻體的振動可能被埋置的拾振器或光纖傳聲器采集,管道的振動可能被遠端的拾振器拾取。雖然空氣聲掩蔽裝置產(chǎn)生的聲音可以在圍護結構上形成振動干擾,但實驗表明,正常聲壓下空氣聲掩蔽無法掩蓋泄漏的振動聲。因此,在窗戶、門、墻壁、管道壁等振動聲泄漏的高風險區(qū)域應施加振動聲掩蔽,并結合圍護結構的構造、室內(nèi)聲源分布、受控區(qū)域分布及安全距離等因素進行綜合部署。
4 聲掩蔽系統(tǒng)的評價
4.1 有效性
對同一種掩蔽聲源,其輸出功率越高,則掩蔽能力越強,但作為一種噪聲源對周圍人的影響也越大。因此,聲掩蔽系統(tǒng)的有效性可用功率約束條件下的掩蔽效果來評價,或稱為掩蔽效率。與用信噪比描述噪聲的相對功率類似,掩蔽聲的相對功率可用“信掩比”來描述,即被掩蔽語音信號與掩蔽聲的功率之比,并用二者聲壓級(對空氣聲)或加速度級(對振動聲)之差來測量和計算,也常稱作目標-掩蔽比(Target-to-Masker Ratio,TMR)。掩蔽效果則用掩蔽后的語音質(zhì)量、清晰度、可懂度等反映語音損傷程度的指標來評價,可以分為主觀與客觀2類。相同信掩比條件下,若掩蔽后的語音質(zhì)量越差、越難聽懂,則掩蔽效率越高。
4.1.1主觀評價
通過聽音實驗,由受試者對掩蔽后的語音進行主觀評價。常用方法包括以下2種。
(1)診斷押韻測試
國家標準GB/T 13504-2008提供了一種診斷押韻測試(Diagnostic Rhyme Test,DRT)方法,利用輔音對語音清晰度貢獻大、對噪聲敏感的特點,設計押韻的字表,由聽音人記錄聽到的字,并統(tǒng)計正確識別的比例。標準將DRT得分分為5個等級,其中得分小于65%時,音質(zhì)評價等級為不可接受。
(2)清晰度/可懂度測試
國家標準GB/T 15508-1995提供了一種語言清晰度測試(speech articulation test)方法,朗讀或播放一組意義不連貫的音節(jié),統(tǒng)計聽音人正確記錄的比例。可懂度測試可采用類似的方法,將語料更換為有意義的詞或句,并統(tǒng)計聽懂的比例。標準給出了音節(jié)清晰度與單詞可懂度的統(tǒng)計關系,清晰度在40%以內(nèi)時,單詞可懂度近似等于音節(jié)清晰度的1.5倍。
4.1.2客觀評價
主觀實驗耗時耗力,現(xiàn)場測試時部分位置可能難以到達。因此,可以借助一些與主觀評價比較一致的客觀評價方法,以簡化測試過程。常用的客觀評價方法主要有以下4種。
(1)清晰度指數(shù)
清晰度指數(shù)(Articulation Index,AI)由國家標準GB/T 15485-1995推薦,依據(jù)語音的各個頻帶對清晰度的貢獻不同,測量各頻帶的信噪比并加權平均,得到0~1之間的AI值。標準還給出了AI與音節(jié)清晰度、單詞可懂度和單句可懂度之間的統(tǒng)計關系。若要求單詞可懂度不超過20%,則AI一般應不超過0.05,AI在該范圍內(nèi)近似等于單句可懂度。AI已被澳大利亞等國家采納為語音私密度的評價標準,具備私密性的AI通常也不超過0.05。美國材料與試驗協(xié)會標準ASTM E1130-16也提供了一種基于AI的開放空間內(nèi)語音私密度的客觀測量方法,支持對聲掩蔽效果的評價。
(2)語音可懂度指數(shù)
語音可懂度指數(shù)(Speech Intelligibility Index,SII)在AI的基礎上得到改進,并納入美國標準ANSI S3.5-1997,取值也為0~1。具備私密性的SII通常不超過0.1。
(3)語音傳輸指數(shù)
語音傳輸指數(shù)(Speech Transmission Index, STI)是國家標準GB/T 12060.16-2017推薦的可懂度客觀評價方法,能夠反映包括噪聲、混響、非線性失真及擴聲系統(tǒng)在內(nèi)的語音傳輸通道上各種干擾因素對可懂度的影響,取值范圍0~1,最差等級為STI<0.36。具備私密性的STI一般不超過0.1。但該方法對起伏噪聲敏感,對于類語音等具備波動性的非平穩(wěn)掩蔽聲,評價效果并不理想。
(4)語音質(zhì)量感知評價
語音質(zhì)量感知評價(Perceptual Evaluation of Speech Quality,PESQ)是國際電信聯(lián)盟(ITU)建議的基于人類聽覺模型的語音質(zhì)量客觀評價算法。其主要過程是將原始語音與處理或失真后的語音經(jīng)過電平調(diào)整、濾波、時間對齊和聽覺變換,提取其失真參數(shù)并映射成反映主觀平均意見分(Mean Opinion Score,MOS)的客觀分值,范圍-0.5~4.5。MOS將語音質(zhì)量分為5級,最差等級分值為1。研究表明,PESQ<2.3時,句子可懂度<50%;PESQ<2.0時,句子可懂度<20%。但語音可懂度與語音質(zhì)量并不完全一致,特別是對低質(zhì)量語音,即低質(zhì)量并不一定意味著低可懂度。實驗發(fā)現(xiàn),極低質(zhì)量的語音(如信噪比低于-5dB)PESQ得分與語音失真程度的關聯(lián)不再顯著。這是因為極低信噪比下語音被噪聲淹沒,PESQ算法對語音的分析和處理(如時間對齊)將出現(xiàn)較大誤差,導致結果的不確定性加劇。
表1 聲掩蔽有效性的評價指標
上述客觀指標主要針對較高質(zhì)量語音的評價進行設計,在評價聲掩蔽系統(tǒng)或語音私密性方面存在局限性或未經(jīng)驗證;同時,能否用于評價振動聲掩蔽的效果也有待研究。表1匯總了上述主、客觀評價指標,其中參考值為依據(jù)現(xiàn)有文獻給出的取值范圍。需要說明的是,公開文獻大多針對語音的隱私保護,并未考慮各種竊聽手段的威脅,而安全防護應用通常有更高的要求,故參考值僅用于排除可能的語音泄漏隱患,不能作為評價保密性的依據(jù)。同時,對低質(zhì)量語音的客觀評價結果通常不穩(wěn)定,可以允許一定的波動。
此外,美國材料與試驗協(xié)會標準ASTM E2638-10提供了一種封閉房間語音私密性的客觀測量方法,得到室外薄弱位置處的信噪比和語音隱私等級。但該標準只針對房間邊界外發(fā)生的有意或無意竊聽,不適用于借助電子或電聲設備進行的惡意竊聽。
4.2 安全性
聲掩蔽系統(tǒng)的安全性尚無明確界定,本文從聲掩蔽系統(tǒng)可能面臨的攻擊入手,對安全性進行分析。
4.2.1主動攻擊安全防護
主動攻擊通過對聲掩蔽系統(tǒng)的入侵或破壞使其失去防護能力,如篡改掩蔽聲源和系統(tǒng)設置、破壞或替換輸出終端等。針對此類攻擊,聲掩蔽系統(tǒng)應具備權限管理策略,并設計聲源、線路、終端等組件的異常監(jiān)測及報警功能。
4.2.2被動攻擊安全防護
被動攻擊指通過對聲音信號的采集和分析,從中去除或削弱掩蔽聲并修復目標語音。被動攻擊的手段多樣、隱蔽且不斷發(fā)展,要求聲掩蔽系統(tǒng)在設計和使用過程中應更加謹慎,建議遵循以下原則。
(1)掩蔽聲的產(chǎn)生應具備良好的隨機性和非周期性。
(2)不同的設備應避免使用相同的掩蔽聲源,并應經(jīng)常更換。
(3)掩蔽聲與目標語音的相關性應適度。二者特征越接近,越難被分離;但掩蔽聲的生成不應過度使用目標語音的特征,特別是與語義、聲紋等敏感信息相關的特征,以防止通過分析、破解掩蔽聲而實施的信息竊取。
4.3 舒適性
掩蔽聲的存在將對周圍的人產(chǎn)生干擾,導致聽覺舒適性降低。舒適性一般以人的主觀感受來評價,如滿意度、煩惱度、干擾度、侵入感、自然度、注意力集中度等。盡管在保密場合下,舒適性不是關注的重點,但良好的舒適性將提高參與者合理使用聲掩蔽系統(tǒng)的積極性。因此,聲掩蔽系統(tǒng)的設計和部署還應綜合考慮掩蔽效果和舒適性的平衡問題。一般來說,相同聲壓條件下,平緩的聲音比劇烈波動的聲音更舒適,如平穩(wěn)噪聲比babble噪聲舒適、流水聲比雷聲舒適;沒有語義或聽不懂的聲音比能聽懂的聲音更舒適,如類語音和外語通常比母語更不容易分散人的注意力;此外,通過控制室內(nèi)說話音量、設置安全距離、合理使用振動聲掩蔽等都可以減小所需的掩蔽聲聲壓,從而改善舒適性。
5 結語
在聲音信息泄漏途徑多而隱蔽、竊聽手段日益先進的形勢下,聲掩蔽技術的應用將是一項復雜的系統(tǒng)工程。如何設計高效、安全、舒適的聲掩蔽系統(tǒng),以及如何準確、可靠地進行評價,都有待進一步研究。未來,隨著我國對聲音信息安全的日益重視和相關標準的出臺,聲掩蔽技術和產(chǎn)品將得到快速發(fā)展和廣泛應用。
(原載于《保密科學技術》雜志2023年3月刊)