脈衝編碼調製通常稱為 PCM,是一種數位音訊編碼方法,用於把連續變化的模擬聲音轉換成一組有順序的數位數值。它是現代音訊技術的重要基礎之一,廣泛應用於電話通訊、VoIP 系統、音訊錄製、廣播、數位儲存、對講系統、會議平臺、嵌入式裝置以及專業通訊網路。
PCM 不像 MP3、AAC、Opus 或 G.729 等編解碼器那樣透過感知壓縮來減少資料量。它是在固定時間間隔測量原始模擬波形,並把每一次測量結果儲存為數位值。因此,當可靠性、相容性、可預測的音質和簡單處理比極限壓縮率更重要時,PCM 常常是優先選擇。
從模擬聲音到數位數值
現實世界中的聲音是連續的。人的語音、一個音符或麥克風訊號都會隨著時間平滑變化,而電腦和數位通訊系統只能處理離散數值。PCM 的作用,就是透過反覆取樣模擬訊號,併為每個取樣點分配數位數值,在模擬世界和數位系統之間建立橋樑。
這個過程可以理解為對音訊波形連續拍攝很多張快照。每張快照記錄某個特定時刻的訊號強度。當每秒採集的樣本足夠多、每個樣本的精度也足夠高時,數位版本就能以較高準確度表示原始聲音。
這也是 PCM 在許多音訊系統中被用作參考格式的原因。它提供了一種清晰而有結構的方法,把音訊從模擬世界帶入數位網路、處理器、檔案和播放裝置。
PCM 的工作方式
取樣
取樣是 PCM 的第一步。系統會按照固定間隔測量模擬音訊訊號,每秒測量的次數稱為取樣率。取樣率越高,系統越能捕捉訊號隨時間變化的細節。
例如,傳統電話系統通常使用 8 kHz 取樣率,也就是每秒取樣 8000 次。CD 音質音訊使用 44.1 kHz,而專業音訊和部分通訊系統可能使用 48 kHz 或更高取樣率。需要多高的取樣率,取決於要保留的頻率範圍。
量化
完成取樣後,每個測得的值都必須被舍入到某個數位等級,這個過程稱為量化。可用等級的數量取決於位深,位深越高,訊號幅度的表示就越精細。
例如,8 位 PCM 的可表示等級少於 16 位 PCM。等級越少,量化噪聲可能越明顯;位深越高,動態範圍通常越好,音訊也更乾淨。語音通訊往往可以使用低於音樂製作的精度,但具體品質仍要看應用需求。
編碼
當訊號完成取樣和量化後,每個數值會被編碼成二進位資料。這個數位流隨後可以儲存在檔案中,透過網路傳輸,由軟體處理,或透過數位類比轉換器重新轉換為模擬聲音。
編碼步驟讓音訊能夠適配數位系統。系統不再直接處理連續變化的電壓,而是處理數位。這使得音訊可以被複製、路由、混音、分析、錄製和傳輸,並且行為更加可預測。
重建
當 PCM 音訊播放時,數位數值會被重新轉換為模擬波形。數位類比轉換器根據取樣值重建訊號,並透過揚聲器、耳機、功放或通訊終端輸出聲音。
重建品質取決於取樣率、位深、時鐘精度、濾波、數位類比轉換器品質以及整個播放鏈路。PCM 提供的是數位表示,最終聽感仍然取決於完整的音訊系統。
為什麼 PCM 成為核心音訊格式
PCM 被廣泛採用,是因為它直接、穩定,並且便於數位系統處理。與複雜的壓縮格式不同,PCM 使用基於取樣的直接結構儲存音訊,因此編輯、混音、測量、傳輸和格式轉換都更容易。
在專業音訊和通訊系統中,可預測性非常重要。工程師需要明確音訊如何表示、需要多少頻寬,以及在不同裝置之間會怎樣表現。PCM 正好提供了這種可預測性。
PCM 重要的另一個原因是相容性。許多音訊格式、編解碼器、電話標準和媒體系統,要麼直接使用 PCM,要麼會在進一步處理之前先把音訊轉換成 PCM。
PCM 不只是一個音訊格式,它也是數位音訊的基礎,讓聲音能夠以一致的結構被測量、儲存、傳輸、處理和還原。
PCM 的音訊優勢
清晰且可預測的聲音品質
PCM 能夠提供清晰音訊,因為它不依賴感知壓縮,而是直接表示訊號。當取樣率和位深適合應用時,PCM 可以高準確度地保留語音和聲音細節。
這使 PCM 適合用於音質不應過度依賴壓縮演算法判斷的場景。錄音、廣播、通話監聽、語音分析和專業通訊流程都能從這種可預測性中受益。
較低的處理複雜度
PCM 對裝置和軟體來說相對容易處理。由於音訊已經以取樣形式存在,系統可以直接進行增益控制、混音、濾波、回聲消除、降噪、錄音、波形分析和播放,而不必先解碼複雜的壓縮格式。
這種簡單性在實時通訊中很重要。較低的處理複雜度有助於減少時延、提高可靠性,並讓嵌入式裝置、通訊終端和媒體伺服器更容易實現。
良好的相容性
PCM 被大量裝置、作業系統、音訊介面、電話系統、媒體平臺和專業工具支援。廣泛相容性使它成為跨系統傳遞音訊時的常見選擇。
例如,錄製的語音檔案、呼叫中心錄音、會議平臺、SIP 閘道器和音訊編輯軟體,在處理基於 PCM 的音訊時通常比處理專用格式更少遇到相容問題。
便於編輯和分析
由於 PCM 資料以取樣為基礎,因此非常適合編輯和分析。音訊軟體可以直接對 PCM 音訊進行剪下、標準化、混音、濾波、視覺化或測量。語音識別和語音分析工具也常在分析前把輸入音訊轉換為 PCM。
這也是即使最終交付使用壓縮編碼,PCM 仍然重要的原因。音訊可以先以 PCM 形式採集、處理和編輯,然後再編碼為其他格式。
需要關注的技術特性
取樣率
取樣率決定音訊訊號每秒被測量的次數。在語音通訊中,8 kHz 通常對應窄帶語音,而 16 kHz 或更高取樣率可以支援更寬的語音訊率範圍和更好的清晰度。音樂、廣播和專業音訊通常使用更高取樣率。
取樣率的選擇需要平衡。更高取樣率可以捕捉更多音訊細節,但也會增加儲存、處理和傳輸頻寬。對許多語音系統來說,目標不是最大音訊範圍,而是清晰且高效地傳輸語音。
位深
位深決定每個音訊取樣能多精確地表示訊號幅度。位深越高,動態範圍越大,量化噪聲越低。常見 PCM 位深包括 8 位、16 位、24 位,有些製作環境還會使用 32 位浮點格式。
語音通訊系統使用的位深可能低於錄音棚製作,因為語音與音樂的需求不同。但如果位深不足,音訊可能會顯得雜訊明顯或不夠自然。
位元率
PCM 的位元率由取樣率、位深和聲道數量共同決定。例如,8 kHz、16 位、單聲道未壓縮音訊所需頻寬,明顯低於 48 kHz、16 位、立體聲音訊。
這對網路規劃很重要。PCM 可以提供可靠品質,但相比壓縮編解碼器,它可能消耗更多頻寬。組織應根據應用需求、網路容量和音質要求選擇 PCM 引數。
單聲道與立體聲
語音通訊通常使用單聲道,因為一個聲道已經足以傳遞講話內容。音樂、廣播和媒體製作則可能使用立體聲或多聲道 PCM,以保留空間資訊。
聲道越多,資料量越大。對企業通訊而言,單聲道 PCM 往往更合適,因為它更簡單、更高效,並且足以滿足語音通訊。
時鐘精度
PCM 依賴穩定的取樣時序。如果取樣時鐘不穩定,音訊可能出現咔嗒聲、漂移、失真或同步問題。這在專業音訊、電話閘道器、數位調音系統和同步廣播環境中尤其重要。
當音訊在多個裝置或系統之間傳遞時,時鐘問題會更加複雜。正確同步有助於保持 PCM 音訊清潔、穩定。
PCM 在電話與語音通訊中的應用
PCM 在數位電話系統中有很長的歷史。傳統數位電話網路使用基於 PCM 的方法把模擬語音轉換為數位通道。在許多系統中,語音以 8 kHz 取樣,並使用 A-law 或 μ-law 等 8 位壓擴方法編碼。
這些電話 PCM 格式的目標,是在固定數位通道結構內讓語音可懂。雖然它們不能提供高保真音訊,但效率高、行為可預測,並且被廣泛支援。
在現代 VoIP 中,基於 PCM 的 G.711 等編解碼器仍被廣泛使用。G.711 編碼簡單、時延低、相容性強,但在較低位元速率下,它比 G.729 或 Opus 等壓縮編解碼器佔用更多頻寬。
PCM 常見應用場景
VoIP 與 SIP 系統
當低時延和相容性很重要時,VoIP 系統經常使用基於 PCM 的編解碼器。例如 G.711 常見於 SIP 電話、IP PBX 系統、閘道器、呼叫中心和運營商互聯。
在網路穩定時,基於 PCM 的語音可以保持清晰。但由於它不是高度壓縮格式,管理員必須認真規劃頻寬,尤其是在大量併發通話同時進行時。
音訊錄製
PCM 是錄音的標準選擇之一,因為它以直接且便於編輯的形式保留音訊。例如,WAV 檔案常用於儲存 PCM 音訊。這使其適合呼叫錄音、會議、採訪、廣播製作、培訓資料和品質監測。
錄音系統後續可能會把 PCM 音訊轉換為壓縮格式以提高儲存效率,但在採集或編輯階段,PCM 常被優先採用,因為它可以避免反覆壓縮帶來的損失。
廣播與媒體製作
廣播和媒體製作流程常使用 PCM,因為它能提供高品質、可預測的音訊。工程師可以更精確地編輯、混音、處理和母帶製作 PCM 音訊。
即使最終媒體以壓縮格式分發,PCM 也常在製作流程中持續使用,直到最後匯出階段,以便儘量保持品質。
嵌入式音訊裝置
許多嵌入式系統內部使用 PCM,因為它處理方式直接。對講機、報警器、語音終端、錄音裝置、廣播系統、數位助手和通訊模組等裝置都可能採集或播放 PCM 音訊。
當裝置需要可靠播放、簡單處理或與其他數位音訊元件相容時,PCM 很有價值。
語音識別與語音 AI
語音識別系統通常需要 PCM 格式的音訊,或會在分析前把輸入音訊轉換為 PCM。穩定的取樣率、位深和乾淨的音訊輸入,有助於提高識別表現。
對語音 AI 而言,PCM 是特徵提取、聲學建模、轉寫和命令識別的實用輸入格式。不過,識別品質仍取決於麥克風品質、背景噪聲、說話清晰度和模型設計。
PCM 與壓縮音訊編解碼器的比較
與許多現代音訊編解碼器相比,PCM 屬於未壓縮或結構很輕的音訊表示方式。這帶來了可預測的品質和較低的處理複雜度,但也意味著資料量更大。壓縮編解碼器透過移除資訊或更高效地表示音訊來降低位元率,但需要更多編碼和解碼工作。
| 音訊方法 | 主要優勢 | 典型限制 |
|---|---|---|
| PCM | 直接表示、低時延、高相容性,便於處理。 | 比壓縮格式需要更多頻寬和儲存空間。 |
| G.711 | 基於 PCM 的電話編解碼器,相容性強、時延低。 | 位元速率高於許多壓縮語音編解碼器。 |
| Opus | 適合語音、音樂、低時延和可變頻寬的靈活編解碼器。 | 可能需要更復雜的處理和相容性規劃。 |
| MP3 或 AAC | 適合音樂和媒體內容的高效儲存與分發。 | 並不適合所有實時通訊或反覆編輯流程。 |
在實際系統中,兩種方式常常同時使用。PCM 可用於採集、內部處理和編輯,而壓縮編解碼器則用於儲存、流媒體或頻寬受限的傳輸。
通訊系統中的實際優勢
在低時延很重要的場景中,PCM 尤其有價值。由於 PCM 不需要複雜壓縮演算法,它可以減少處理延遲。這對實時語音通訊、對講系統、排程音訊、會議和閘道器轉換都很有幫助。
另一個優勢是故障排查更直觀。當音訊以直接 PCM 形式表示時,工程師可以更容易檢視波形、測量電平、發現削波、分析噪聲並處理訊號。這使 PCM 在診斷和品質保障中很有用。
相容性同樣重要。基於 PCM 的音訊可以在許多工具和系統之間流轉,而不需要專用解碼器。當音訊需要被不同平臺錄製、儲存、監聽、轉換或分析時,這能減少整合問題。
使用 PCM 前的設計考慮
頻寬規劃
PCM 可能比壓縮音訊消耗更多頻寬。在小型系統中,這可能不是問題。但在大型 VoIP 部署、呼叫中心或多站點通訊網路中,總頻寬需求可能變得很明顯。
管理員在為大規模場景選擇基於 PCM 的傳輸方式之前,應計算預計併發會話數、取樣率、位深、聲道數量、分組開銷和網路條件。
儲存需求
PCM 音訊檔案通常大於壓縮檔案。對錄音系統來說,這會影響儲存成本、保留週期規劃、備份策略和歸檔效能。
一些系統會先用 PCM 錄製以保證品質,然後再轉換為壓縮格式用於長期儲存。這樣可以在品質和儲存效率之間取得平衡。
音訊品質目標
並不是每個應用都需要高取樣率或高位深。語音尋呼系統、電話通話、音樂製作工作室和語音識別引擎都有不同要求。
PCM 引數應與音訊的真實用途匹配。更高規格並不總是更好,如果它只帶來不必要的頻寬或儲存負擔,就沒有實際意義。
互操作性
PCM 的相容性很廣,但細節仍然重要。使用 8 kHz μ-law PCM 的系統,未必能直接匹配期望 16 kHz 線性 PCM 的系統。檔案容器、位元組序、取樣格式和聲道結構也會影響互操作。
清晰的格式定義有助於避免播放錯誤、音訊失真、速度變化或整合失敗。
PCM 的概念很簡單,但取樣率、位深、壓擴規則和聲道格式等實現細節,決定了系統能否正確協同工作。
維護與故障排查建議
當 PCM 音訊聽起來不佳時,問題並不一定來自 PCM 格式本身。技術人員應檢查麥克風電平、模數轉換品質、削波、噪聲底、時鐘穩定性、取樣率不匹配、網路丟包、播放裝置品質和增益設定。
如果音訊播放過快或過慢,可能是取樣率被錯誤解釋。如果聲音失真,系統可能使用了錯誤的取樣格式、位元組序、壓擴規則或位深。如果噪聲較大,則需要檢查模擬輸入級或量化設定。
在 VoIP 系統中,基於 PCM 的編解碼器在穩定網路上表現良好,但遇到丟包或抖動時仍會受影響。由於 PCM 本身不具備高階壓縮恢復能力,網路品質和抖動緩衝配置仍然重要。
什麼時候 PCM 是合適選擇
當系統需要低時延、高相容性、可預測音質、簡單處理或精確編輯時,PCM 是很強的選擇。它常用於內部音訊處理、專業錄音、電話相容、語音分析,以及希望音訊儘量接近取樣源的系統。
如果頻寬或儲存極其有限,PCM 可能不是最佳選擇。在這些情況下,壓縮編解碼器可能提供更好的效率。最終決策應基於品質、時延、處理複雜度、頻寬、儲存和互操作性的平衡。
FAQ
PCM 是一種編解碼器嗎?
PCM 通常被描述為音訊編碼方法,而不是壓縮編解碼器。它把音訊取樣直接表示為數位值。某些電話編解碼器,例如 G.711,是基於 PCM 原理構建的。
PCM 比 MP3 更好嗎?
PCM 和 MP3 服務於不同目的。PCM 提供直接、未壓縮的音訊,適合編輯、錄製和處理。MP3 透過壓縮減少檔案大小,更適合需要小檔案的儲存或分發場景。
為什麼電話系統使用 PCM?
電話系統使用 PCM,是因為它能提供可預測的語音品質、低時延和可靠的數位表示。傳統數位電話和 G.711 VoIP 編解碼器都與基於 PCM 的語音編碼密切相關。
更高的 PCM 取樣率一定意味著更好的音訊嗎?
不一定。更高取樣率可以捕捉更寬的頻率範圍,但實際收益取決於聲源、麥克風、播放系統和應用。對普通語音而言,極高取樣率可能只增加資料量,而沒有明顯改善。
PCM 音訊失真的原因有哪些?
常見原因包括削波、位深解釋錯誤、取樣率不匹配、位元組序錯誤、壓擴規則錯誤、模擬輸入品質差、增益過高或播放裝置問題。