VoIP測試:語音品質對比之黃金準則 智慧應用 影音
Hackthon
ST Microsite

VoIP測試:語音品質對比之黃金準則

VoIP產品越來越重視通話品質,成為產品優劣的決勝關鍵。劉家任攝
VoIP產品越來越重視通話品質,成為產品優劣的決勝關鍵。劉家任攝

前言:VoIP網路電話產品優劣主要取決於語音通話品質;為了確保良好的通話品質,語音電話的專門測試設備以及數據網路,皆著重於實體的類比與網路介面在各種情況下的音質表現。通訊產品的音訊子系統是最關鍵的使用者介面,因為只要有任何延遲或中斷,終端使用者通常是第一個發現的。語音引擎系統的測試方法必須著重於使用特定測試組態對裝置進行測試,工程師也必須能夠分析規格相容性的結果。

本文:
VoIP產品是透過私人內部網路或公共網際網路提供音訊來進行通訊,產品本身可透過一般網路介面執行多項功能,例如同步語音服務以及IP網路資料服務。

圖1  一般VoIP閘道測試拓撲。

圖1  一般VoIP閘道測試拓撲。

圖2  左:模糊語音輸入訊號-近端訊號功率(綠色)會隨著遠端訊號功率(紅色)而變化。右:一般模糊語音狀況。

圖2  左:模糊語音輸入訊號-近端訊號功率(綠色)會隨著遠端訊號功率(紅色)而變化。右:一般模糊語音狀況。

圖3  針對G.711 u-Law語音編碼(Vocoder)測得的MOS-LQO與延遲(與第4屆ETSI SQTE結果進行比對)。D2 Technologies參考設計的結果即ATA項目的紅色數據。

圖3  針對G.711 u-Law語音編碼(Vocoder)測得的MOS-LQO與延遲(與第4屆ETSI SQTE結果進行比對)。D2 Technologies參考設計的結果即ATA項目的紅色數據。

圖4   針對G.729AB語音編碼(Vocoder)測得的MOS-LQO與延遲(與第4屆 ETSI SQTE結果進行比對)。D2 Technologies參考設計的結果即ATA項目的紅色數據。

圖4   針對G.729AB語音編碼(Vocoder)測得的MOS-LQO與延遲(與第4屆 ETSI SQTE結果進行比對)。D2 Technologies參考設計的結果即ATA項目的紅色數據。

通訊子系統可能會發生IP網路封包遺失、延遲、位元錯誤、系統重排(reordering)、封包優先權衝突等問題,這是因為語音傳遞與其他資訊流量共用硬體資源所致。除此之外,由於音訊取樣時脈飄移的緣故,語音端點並不會與主要時脈同步,進而使信號抖動情形更為嚴重。

因此,為證實VoIP裝置的品質或測量其規格相容性,通常會採用兩種較為周全理想的「黃金」準則:1、PSTN 效能標準:針對PSTN本身或透過PSTN模擬器進行測驗;以及2、「理想」IP網路中的產品效能:即在不含信號中斷、錯誤或各種類型延遲的理想條件下。藉由以上對比標準,即可得知所有VoIP產品的在各方面的品質「評比」。

測試方法與拓樸

測試語音閘道需使用專門的音訊測試設備以及網路測試設備。語音閘道的類比介面是由IP電話的音訊擴音器?麥克風輸出端子、或FXS/FXO閘道所使用的 PSTN介面之RJ11電話連線所構成。語音閘道的數位介面則是網路實體介面,例如:乙太網路、WiFi、WiMax 或其他無線技術。進行VoIP通訊時,網路介面會互相交換IP/UDP/RTP封包。

A、類比網路電話的測試設備
測試時,工程師會將語音品質測試(VQT)分析器連接至VoIP裝置,以圖1所示的拓撲進行語音測量。VQT設備會依照設定,撥出特定的電話號碼至測試裝置,如此即可與另一部測試的裝置或VoIP/PSTN閘道建立VoIP通話。

測試過程中,VQT設備會透過類比電話語音介面(通話的「近端」或「發話方」)從測試裝置上撥出電話、等候設定的延遲時間,然後接起遠端位置上正在響的電話線(通話的「遠端」或「終止端」)接聽。在整個過程中,便會透過測試裝置建立VoIP音訊連線:即音訊路徑。

VQT設備接著便會利用特定的音頻功率,將類比訊號傳送至該音訊路徑。測試設備會記錄類比訊號的輸出,接著設備便掛斷遠近兩端的電話以終止通話。這樣的程序會在測試過程或固定時間內不斷重複。每次測試記錄的輸出都會以特定演算法,用來與該測試設備的原始輸入訊號進行比對,以計算出聽音品質。

視測試設備的設定而定,測試人員會將多次測試所得的數據除以總測試次數、時限或每次測試的特定訊號,以取得平均值。在某些情況下,會使用標準誤差計算方式來彌補可能的偏差值。

一般來說,測試裝置皆支援音訊壓縮的多重語音編碼器(如G.711 u-Law或G.729AB)。由於每種語音編碼器在壓縮演算過程中,都經過獨特的人為設定,因此品質等級皆不相同,所以編碼器必須個別進行測試。

在類比測試設備中預先錄製的輸入訊號,是由測試設備製造商精心提供準備,以構成過濾的語音片段,達到所需的頻率回應;或者,有些是以相似於人類口音片段的時間與頻率波動構成合成音訊。這些輸入訊號通常是專用訊號,並且另存為音訊檔(WAV格式)、或以專屬的二位元格式儲存。

在多數設備中,輸入訊號都是以所使用的音訊頻率來命名,例如男音(低頻音)、女音(中高頻音)或童音(高頻音)。而合成口音的優點在於,它能夠建立更廣的音訊輸入範圍,不限於特定語音或特定語言的特定音韻模式。

使用測試設備測得的聽音品質等級,視以下因素而定:
1、裝置於測試期間所使用的語音編碼器。
2、迴音消除器、抖動緩衝器、封包遺失補償演算法以及在裝置測試期間運作的其他語音引擎各方面。
3、測試設備中所使用的輸入訊號。
4、輸入訊號功率。
5、類比訊號功率耗損(或增益),即所謂的「迴線損失」。
6、網路故障參數(如適用)。
7、測試的拓撲網路組態。
8、所使用的聽音品質演算法,以及評等方式(時間平均值、重複平均值等)。

聽音品質評分所採用的演算法,可計算出測試者所給定的主觀平均得分(MOS) 相關度極高的分數。演算法也可採用ITU發表的聽音標準,如ITU-T Recommendations P.800系列—「Methods for subjective determination of transmission quality」(傳輸品質主觀認定法)。

聽音品質演算法使用傳送至受測裝置的單向語音錄製,產生品質評分;而演算法無法測量雙向效能。品質評分的等級依品質演算法的不同而有別;一般而言,品質分數通常介於1(最低分-表示完全無語音連線)至 5(最高分-表示最高音訊品質)之間。雖然聽音演算法測試了迴音消除的整體音質,但無法測試模糊語音的情況、語音活動偵測、自然背景音品質等項目,因此迴音消除的效能是在 VQT以外的環境下測試的。

常見的聽音演算法有兩種:
1、PAMS:支援使用固定延遲IP網路測試組態的先進演算法。
2、PESQ:支援在IP網路中有小幅延遲變數測試的先進演算法。

有鑒於測試本身的變化不一,因此在聽音評分中,只有當測得數值與使用同樣聽音演算法測出的對照值差異超過+/- 0.3時,才算是超過或低於標準。此外,若網路或受測裝置在輸入訊號與輸出訊號間產生可變動的延遲時,聽音演算法也很難執行預測性的測試,因此可採用其他針對延遲變化的測試法,以確保受測裝置維持音訊穩定度。

迴音消除器(Echo Canceller)測試

根據G.168規格,語音引擎中的迴音消除器必須能夠消除模糊語音,而這些規格可確保終端使用者不會在語音通話中聽到迴音。在發生模糊語音的情況下,近端和遠端兩邊會出現同時談話的聲音,語音引擎的迴音消除器必須在傳遞語音訊號時僅消除迴音(雜訊)。為了測試效能,測試人員會使用特定的輸入?輸出訊號,故意製造出模糊語音的情況,並測得結果。

在迴音消除器消除模糊語音的情況下,近端和遠端會使用類似的音頻等級,相互爭奪語音路徑。在這樣的情況下,迴音消除器必須以適當的遲滯,在消除模式間切換,並且在消除近端迴音的同時,傳遞近端或遠端的訊號。若迴音消除器無法做出適當的修正或調整,便會聽到嚴重的迴音。Head Acoustics發現,無論在任何情況下,D2 Technologies的vPort都能夠符合、甚至超越G.168標準。

IP網路測試設備

測試拓撲中的數據網路減損減損設備將會模擬各種網路狀況;組態則是設定為在正常模式或減損減損模式下運作。在正常模式中,所有IP封包都會通過而不經過修改;而在減損減損模式中,設備會在IP/UDP/RTP網路傳輸中加入延遲、遺失、重排或位元錯誤。

由於不同減損設備供應商皆有其獨特的組態選項,因此在不同網路減損設備上,封包遺失組態參數也大不相同。減損組態可能會指出在特定時限內封包遺失的比例、或總封包數的封包遺失比例。封包遺失的分布情形也可能因各設備供應商不同而異,隨機或以統計數據為導向,選擇要減損的封包。稍後的範例中將會說明其中幾項差異。

在語音測試中也可選擇封包監控(packet sniffer)。如要確認網路減損組態以及測試時是否套用合適的語音編碼器,建議使用此項監控程式。單純的語音編碼器組態錯誤,可能會導致評分測量失準。若使用網路減損設備,則測試人員通常會建議進行音訊封包分析。此外,網路減損組態的細微差異、或者看似單純的減損組態錯誤,也可能對語音品質評分產生重大影響,因此應審慎監控。

測試拓撲中可選擇是否要包含IP資料封包流量產生器—可在受測裝置上模擬網路介面間支援網路資料路由的高網路負載路由。資料封包流量應連接用於進行語音的同一網路介面。受測裝置的硬體組態通常需要連接外部網路交換器,以便將流量產生器和網路減損路由器連接至單一網路介面。

當IP語音封包的封包優先權與高傳輸資料流量的IP封包優先權相互競爭時,流量產生器的用途即在於測試受測裝置的乙太網路佇列作業以及封包處理能力;此項測試通常會因VoIP封包服務品質(QoS)DSCP位元組態的不同,而反覆執行好幾次。

若使用資料流量產生器,也可突顯語音引擎排定高優先權的能力、以及系統軟體的即時語音處理能力。由於高資料封包傳輸量在將資料傳送至整個網路介面時,會消耗大量的系統資源(在系統晶片中以Mhz計算),因此,必須在毫秒分辨率的嚴謹期限下處理語音封包的語音引擎,以及必須允許軟體工作優先的基本作業系統,便被置於最糟的情況下。

若受測裝置的網路硬體中含有封包優先權,則在此類情況下所測得的VQT評分,應維持在接近流量或無流量的情況,直到達到封包傳輸臨界值為止(例如:產生100M位元的資料流量後,傳入100M位元的乙太網路介面,最後可能導致語音品質不佳)。

分析語音品質測試結果:G.711u及G.729AB

TMOS與MOS-LQO針對受測裝置(D2 Technologies vPort)在不同網路條件下所分析出的比對結果,如圖3所示。最低值、平均值以及最高值等欄位,是在第4屆ETSI語音品質測試大會暨研討會(SQTE)調查中,針對市面上眾多競爭產品所測得的數據。

調查結果中亦包括「參考連線」(Ref. connect.),表示理想的類比測量方式。此結果呈現出「最高黃金準則」評比;此外,此項測量方式也符合不受IP封包處理或延遲影響的PSTN電路交換類比連線之最低延遲(2.5 毫秒)。相較於參照測量的理想延遲,受測裝置在高度減損的網路情況中,採用更長的延遲,這說明了vPort動態抖動緩衝器的高度因應反應力:當網路條件的可變延遲與封包遺失情況開始低落時,抖動緩衝器便會增加內部緩衝區,以舒緩網路中斷作業階段的音訊傳輸量。

結果顯示,圖3第1行的「0a VAD」是在有自然環境雜訊並啟用語音活動偵測的情況下所測得的參考數據,而啟用與未啟用情況的測試結果並無差異。

在前述表格中,值得注意的其中一項測試情況即為2a,其中受測裝置的 MOS-LQO分數稍微低於最低平均值,但延遲則偏向最高值。這樣的情況表示測試期間所使用的抖動緩衝器經過調整:為了使延遲的變化較為固定,在少量封包遺失的情況下,抖動緩衝器會改用較大的延遲容量來處理網路損失。

而抖動緩衝區改用較長的緩衝時間後,語音引擎會假設人耳偏好音質較不間斷且固定的延遲,而非較短但有雜訊的語音品質。語音引擎中抖動緩衝器的敏感度調整加上測試情況6a的高分,說明了採用較大延遲確實可緩和網路減損測試的全面品質評分。在實際情況中,雖然終端使用者應該會較為注重網路條件變化時語音轉換是否流暢,但可能無法分辨差異在+/- 0.1之間的評等(如前述)。

語音引擎的未來效能測試

通訊技術市場的競爭極為激烈,也因此,各大廠商無不致力於持續研發更高品質且易於操作的產品。隨著無線網路(WiFi和WiMax)業者提供VoIP的普及,語音引擎技術也將更臻成熟。無線網路為語音引擎帶來的全新挑戰,使得語音引擎必須達到即使在高封包流失率的網路中,也能提供高品質音頻的境界。

存取點之間的漫遊、過度擠塞以及移轉(hand-off),都會使得前述的語音品質問題更加惡化。諸如802.11r以及802.11k的無線標準,旨在處理網路資料問題並改善網路穩定度,但封包遺失的頻率與抖動情況卻會因網路路由的改變而提高。導致封包遺失率提高的存取點過度擠塞問題,係由其他移轉程序管理,而如此將會使得網路延遲更為嚴重,並產生瞬間封包遺失的問題。

目前產品中的語音引擎,必須進行以上使用案例的模擬測試情境,並採用新技術以因應各種隨時可能發生的網路情況。而測試情境將採用新的聽音品質演算法,在延遲變化的更完善測量回應下執行。(本文由D2 Technologies提供)

◎測試背景說明:
本文以Head acoustics GmbH針對D2 Technologies的vPort Voice/Data Gateway Router進行測試後所發表的特定測試結果、以及語音品質評等作為論述之參考。HEAD acoustics為一獨立語音或音效測試設備與服務公司,專門測試VoIP網路電話的TIA 810、TIA920、G.168迴音消除、P.340、EG 201 377-2、G.122以及G.131規格。

D2 Technologies則是嵌入式網際網路通訊協定(IP)通訊軟體公司,提供採用多核心MIPS64網路應用程式處理器運作的vPort VoIP閘道系統參考設計。參考設計係與Cavium Networks共同擬定—Cavium Networks專門提供高度整合的半導體產品,能夠以高度智能處理網路、通訊、儲存以及資訊安全應用程式。

受測軟體包括D2 Technologies的vTSP語音引擎(供softDSP (FXS)網路電話應用程式使用),以及D2 Technologies的語音應用程式和vSIP通訊協定堆疊(以 Cavium Network的單?多核心MIPS處理器運作的GNU/Linux 2.6 SMP版本)。