什麼是正常執行時間（Uptime）？它如何工作？-貝克電信

正常執行時間，是指某個系統、服務、設備、應用程式、網路或平台保持可用且正常運作的時間長度。簡單來說，它告訴使用者，某個東西持續無中斷地運作了多久。當網站可以被存取、伺服器正在執行、通訊平台保持上線，或者網路設備持續穩定運作時，那些工作期間都會被計入正常執行時間。

正常執行時間是 IT、網路、電信、雲端服務、工業系統、網站、資料中心、資安平台以及企業通訊環境中，最關鍵的可靠性指標之一。它能幫助組織了解自身的系統是否足以穩定支撐日常營運。一項擁有高正常執行時間的服務，絕大多數時間都是可用的；而正常執行時間不佳的服務，則可能經常遭遇中斷、當機、重啟或無法使用等問題。

在實際營運中，正常執行時間不僅僅是一個技術數字。它直接影響著客戶體驗、業務連續性、服務口碑、應急回應效率、生產力以及操作面上的信任感。如果一套系統在需要時卻無法使用，就算功能再強大，其實際價值也會大打折扣。這就是為什麼在討論正常執行時間時，往往會連帶提及監控、冗餘、維護計畫、服務等級協議以及災難復原等因素。

什麼是正常執行時間

定義與核心意義

正常執行時間，指的是系統或服務處於功能正常且可供使用的那段期間。它可以套用在伺服器、路由器、交換器、網站、應用程式、資料庫、雲端平台、IP PBX、安全系統、工業控制器，或是任何使用者所依賴的連網設備上。只要系統能夠被存取，並如預期般提供服務，就可以被視為處於「運作中」的狀態。

正常執行時間的核心在於「隨時間推移的可用性」。它不只代表設備有電。一部伺服器或許已經開機，卻無法回應使用者要求；一台網路設備可能在運轉，但已經無法正確傳送流量；一個網站可能部分載入，但關鍵功能卻已失效。因此，在實際衡量正常執行時間時，系統通常必須能夠真實支撐其預定的服務目標。

這就是為什麼正常執行時間應該依據系統的實際目的來定義。對網站進行正常執行時間檢查時，可能會著重於頁面是否正常回應；針對通訊服務，則會關注註冊、信令與通話完成能力；對於資料庫平台，重點在於查詢回應是否正常；而對於監控系統，則會看資料收集與告警功能是否持續可用。

正常執行時間不只是看設備有沒有電，更要看當使用者需要時，預期的服務是否真的可用。

正常執行時間與可用性

正常執行時間和可用性關係非常密切，在日常討論中時常被混用。不過，可用性通常被視為更廣泛的服務指標。正常執行時間描述的是系統保持運作的時間長度，而可用性則可能進一步包含該系統在真實條件下，能否真正為使用者提供所需的功能。

舉例來說，一個伺服器程序可能在執行中，但若因為網路問題導致使用者無法觸及，這項服務仍可能處於「不可用」的狀態。在這種情況下，伺服器本身或許擁有正常執行時間，但面向使用者的服務卻並未實現完整的可用性。這項區別在由許多組件共同協作的複雜系統中尤其重要。

在實際的服務管理上，組織最在意的通常是「使用者感受到的可用性」。服務必須從使用者的視角來看是可用的，而不僅僅是從設備本機的狀態面板上顯示正常即可。

正常執行時間概念示意圖，展示伺服器、網路設備、雲端服務與企業應用程式如何隨時間保持可用 — 正常執行時間衡量的是系統、服務、網路和設備，能夠持續運作並供實際使用的時間。

正常執行時間如何工作

測量運作時間

正常執行時間的原理，基本上是測量系統保持在健康可用狀態的時間長度。這可以從系統開機時間、服務啟動時間、監控回應時間，或是某個約定好的服務可用性窗口開始進行計量。具體採用的方法，取決於被測量的對象，以及組織如何定義「運作中」。

對單一設備而言，正常執行時間可能顯示為自上次重開機以來所經過的時間。對一個網站來說，正常執行時間可能是透過外部探針，檢查網站是否正確回應來測量。至於網路服務，正常執行時間則可能取決於使用者能否順利連線、驗證身分、交換資料並完成預期的交易。

最有用的正常執行時間測量，必然與服務的行為緊密連結。一套技術上看起來還在跑、但主要功能已經失效的系統，在嚴謹的營運模型中，絕對不該被算作完全可用。

追蹤停機時間與可用性百分比

正常執行時間通常以某個特定期間（例如一個月或一年）內的百分比來呈現。基本公式是將系統可用的時間，與測量的總時間進行比較。如果服務幾乎在整個期間內都處於可用狀態，它的正常執行時間百分比就會很高；如果曾經歷過長時間的停機，百分比就會明顯下滑。

例如，一個月內 99.9% 可用的服務，其實際停機時間遠比 99% 可用的服務來得少。這些百分比數字看起來差異不大，但實際的停機時間落差可能相當可觀。對於支撐業務營運、客戶存取或關鍵通訊的系統來說，即使是小數點後的微小差異，影響也非常大。

這就是為什麼正常執行時間常被用於服務等級協議之中。服務提供者可能承諾達到某個正常執行時間百分比，而客戶則依此承諾來理解預期的服務可靠性。

正常執行時間百分比看似簡單，但微小的差異往往代表著截然不同的實際停機時間。

常見的正常執行時間等級與其含義

理解 99%、99.9% 與 99.99% 正常執行時間

在談論正常執行時間時，經常會聽到「幾個9」的說法。一個擁有 99% 正常執行時間的系統，雖然在多數時間都在運作，但一年之中仍會容許出現相當可觀的停機時間。99.9% 正常執行時間的系統更加可靠，所允許的停機時間大幅縮短。而達到 99.99% 正常執行時間的系統，門檻則嚴苛許多，通常需要更強大的設計、監控以及營運紀律作為支撐。

正常執行時間的目標訂得愈高，實現起來就愈困難。從 99% 提升到 99.9% 可能需要更完善的監控與維護；從 99.9% 再提升到 99.99%，則往往需要冗餘設計、自動故障轉移、高可用性架構、更嚴謹的變更控制，以及更快速的故障回應機制。

在實際規劃中，組織不該只因為這些目標聽起來很響亮就盲目追求。應當根據業務風險、成本、使用者期望以及營運上的重要性，來選擇匹配的目標。

為什麼更高的正常執行時間成本也更高

更高的正常執行時間，通常意味著更高的投資。一台沒有冗餘的單一伺服器，部署起來既簡單又便宜，但它存在明顯的單點故障隱患。一套高可用性系統，則可能需要備援伺服器、冗餘電源、多條網路路徑、負載平衡器、具備故障轉移能力的資料庫、監控工具，以及經驗豐富的運維人員。

成本不只花在硬體上。它還包括規劃、測試、維護程序、人員培訓、軟體架構、事件回應流程，有時甚至還包含異地備援。每增加一層防護，固然能提升系統的韌性，但同時也會增加複雜度。

因此，正常執行時間應被視為一項設計需求，而不只是行銷口號。所要求的可靠性等級，必須有真實的架構和營運流程作為支撐。

正常執行時間等級比較圖，展示 99%、99.9% 與 99.99% 可靠性下的停機時間差異與影響 — 更高的正常執行時間百分比能減少停機時間，但通常需要更強的冗餘、監控與營運控制才能達成。

影響正常執行時間的關鍵因素

硬體可靠性與電源穩定性

硬體可靠性是影響正常執行時間最基礎的因素之一。伺服器、儲存裝置、交換器、路由器、電源供應器、風扇、磁碟以及其他實體組件都有可能故障。如果關鍵組件在沒有備援路徑的情況下失效，服務就可能中斷。

電源穩定性同樣至關重要。即便是設計再強固的系統，一旦供電中斷或不穩，仍然會出問題。資料中心和關鍵設施通常會配置不斷電系統 (UPS)、備援發電機、雙迴路供電以及電源監控，來降低這方面的風險。

即使在規模較小的環境中，一些簡單的改善措施，像是採用可靠的電源保護裝置，並確實保養設備，也能明顯提升正常執行時間。

網路連線能力與路由穩定性

網路連線能力對正常執行時間有著極大的影響，因為許多服務都必須透過區域網路、廣域網路或網際網路才能觸及使用者。伺服器本身可能很健康，但要是網路路徑不通，使用者依然會感受到服務中斷。交換器故障、路由錯誤、DNS 問題、防火牆設定失誤，以及 ISP 端的中斷，都可能影響服務的可用性。

透過建置冗餘的網路連結、選用不同的網路供應商、設計完善的路由、妥善管理 DNS，並進行不間斷的監控，皆有助於改善正常執行時間。在企業通訊系統中，網路穩定性尤其重要，因為語音、視訊、即時通訊和雲端應用全都仰賴可靠的連線。

就實務而言，正常執行時間應該沿著整條服務路徑來進行測量，而不僅侷限在主要設備上。

正常執行時間與系統架構

冗餘與故障轉移

冗餘是提升正常執行時間最常見的架構方法之一。它指的是，當主用組件故障時，有預先準備好的備援組件或路徑可以接手。這可能包含冗餘的伺服器、電源供應器、磁碟、交換器、網路連結、資料庫、閘道器，甚至資料中心。

故障轉移，則是將服務從故障的組件切換到備援組件的過程。在設計良好的系統中，故障轉移可以自動發生，使用者幾乎感受不到中斷；而在較簡單的系統裡，則可能需要人工介入。

冗餘和故障轉移並不能消除所有風險，但能大幅降低單一故障就導致整體服務停擺的機率。在停機會對業務或安全造成重大衝擊的系統中，它們是必不可少的。

負載平衡與高可用性設計

負載平衡也能夠協助維持正常執行時間，它能把流量分散到多台伺服器或服務實例上頭。當其中一台伺服器過載或故障時，其他伺服器可以持續處理請求。只要實作方式正確，這麼做能同步改善效能與系統韌性。

高可用性設計會結合多種技術，包括冗餘、故障轉移、叢集、複寫、健康狀態檢查、自動復原以及監控。其目的是在個別組件發生故障時，仍能維持整體服務的可用性。

高可用性系統必須經過審慎的測試。冗餘組件只有在故障發生當下，確實能夠順利接手，才算真正發揮作用。

正常執行時間是從架構中建立出來的，而非一廂情願。一套可靠的系統，必須具備那些早在故障發生之前，就已經設計好並測試過的備援路徑。

正常執行時間的監控

內部監控與外部監控

正常執行時間監控，就是在檢查某個系統或服務是否還處於可用的狀態。內部監控是從環境內部觀察各個組件，例如伺服器的 CPU、記憶體、磁碟健康狀況、程序狀態、資料庫狀態以及本機網路連通性。外部監控則是從外頭，以更貼近使用者的視角來檢查服務。

這兩種方法都很有用。內部監控能在使用者被影響之前，就偵測到故障的早期跡象；外部監控則能確認服務是否真的能夠從外部被存取。一個系統可能在內部看起來一切正常，卻因為 DNS、路由、防火牆或上游網路的問題，而無法從外界觸及。

一套完善的監控策略，通常會結合內部與外部檢查，以拼湊出更全面的正常執行時間樣貌。

健康狀態檢查、告警與事件回應

健康狀態檢查是用來確認系統是否如預期般運作的自動化測試。簡單的檢查可能只確認伺服器能否回應請求；進階一點的檢查，則會驗證登入、資料庫回應、通話註冊、交易完成狀態或是 API 行為是否正常。

告警會在正常執行時間受到威脅或發生停機時，通知管理員。然而，光有告警是不夠的。組織還必須擁有一套事件回應流程，明確定義由誰來調查、問題如何向上通報、如何告知使用者，以及如何將服務復原。

當監控能夠將「偵測」與「行動」緊密連結起來時，才能發揮最大價值。能快速得知服務停機固然很好，但前提是團隊必須有能力做出有效的回應。

正常執行時間與 SLA

服務等級協議 (SLA)

服務等級協議（通常簡稱為 SLA）可能會明確定義服務提供者或內部團隊所承諾提供的正常執行時間百分比。例如，某家供應商可能承諾在每個月的計費週期內，達到 99.9% 的正常執行時間。SLA 中也可能會闡明哪些情況算是停機時間、哪些維護時段會被排除在外，以及當目標未能達成時，會提供怎樣的補償或服務點數。

SLA 的具體條文十分重要，因為正常執行時間的解讀方式可能存在極大差異。有些合約會排除計畫性維護；有些只計算服務全面中斷，而不包含局部效能降級；有些則是從供應商的網路內部進行測量，而非從客戶的實際所在地點出發。

因此，使用服務的一方，應當仔細閱讀 SLA 中的各項定義。對外宣傳的正常執行時間百分比固然重要，但背後的測量規則同樣不容忽視。

計畫性維護與非計畫性停機

計畫性維護，是指預先排定、可能會暫時影響系統可用性的作業，例如韌體升級、軟體更新、硬體更換、資料庫維護、安全性修補，或是基礎架構的變更。許多正常執行時間的計算方式，會將計畫性維護與意外中斷區分開來。

非計畫性停機，則是系統因硬體故障、軟體崩潰、網路中斷、設定錯誤、網路攻擊、斷電或是人為疏失等意外狀況，而導致的服務不可用。這一類停機通常傷害更大，因為使用者對此毫無準備。

良好的正常執行時間管理，會致力於降低非計畫性停機，並清楚溝通計畫性維護的時程，讓使用者能夠提前做好準備。

提升正常執行時間的維護建議

落實預防性維護

預防性維護有助於在問題演變為中斷之前，就預先加以處理，從而改善正常執行時間。具體行動包括：檢查紀錄檔、更新韌體、套用安全性修補程式、更換老舊硬體、監控儲存容量、測試備份，以及檢視系統效能趨勢等。

預防性維護應該要有排程並留下文件紀錄。隨意的變更可能引發新的問題，但是有節制的維護則有助於降低風險。目標是在不造成不必要中斷的前提下，讓系統持續保持健康狀態。

在實際運維中，只要維護團隊能在種種警訊真正演變為故障之前就採取行動，許多的服務中斷都是可以避免的。

謹慎地控制變更

組態變更是造成停機的常見原因之一。一條防火牆規則、路由調整、軟體更新、憑證更換、資料庫調整或存取權限變更，若未經過妥善審查，都可能意外導致服務中斷。變更控制正是在降低這類風險。

良好的變更控制涵蓋了文件化、審批、測試、回滾計畫、適當的時間窗口選擇，以及變更後的驗證。針對關鍵系統，變更應安排在影響較小的時段進行，並在事後密切監控。

正常執行時間往往既仰賴強固的硬體，也同樣仰賴有紀律的運維操作。

許多正常執行時間的問題，源頭並非設備損壞，而是失控的變更、鬆散的維護習慣，或是缺少了必要的驗證步驟。

正常執行時間測量的應用場景

網站、雲端服務與應用程式

網站、雲端服務和應用程式利用正常執行時間測量，來評估使用者能否在需要時存取數位服務。電商網站、SaaS 平台、網路銀行、客戶入口網站、串流平台以及企業應用程式，都高度依賴高可用性。

在這些環境中，停機可能導致營收損失、客戶感到挫折、商譽受損以及內部工作流程中斷。透過監控正常執行時間，組織可以快速發現問題，並評估服務效能是否滿足了使用者的期望。

對於面向客戶的服務來說，正常執行時間往往是最顯而易見的可靠性標誌。

網路、通訊系統與基礎設施

正常執行時間在網路和通訊系統中同樣至關重要。路由器、交換器、防火牆、IP PBX 平台、SIP 伺服器、閘道器、派遣系統、對講機網路、安全系統和監控平台，全都需要可靠的運作。一旦這些系統故障，語音通訊、資料存取、警報、門禁控制以及營運協調都可能受到影響。

基礎設施層面的正常執行時間格外重要，因為許多其他服務都建構在它之上。一個雲端應用程式本身可能是健康的，但如果本地網路斷線，使用者就無法存取。一套通訊平台可能在運作中，但要是某個閘道器或中繼線路發生故障，通話就無法完成。

這就是為什麼基礎設施的正常執行時間，通常需要在多個層面進行監控，從實體設備一路到面向使用者的服務表現。

常見的停機原因

技術故障

技術故障包含硬體故障、軟體崩潰、記憶體洩漏、資料庫問題、磁碟失效、網路設備故障、供電中斷、冷卻系統異常以及資源耗盡等。這些是許多環境中最常見的停機原因。

有些技術故障是突然發生的，有些則是逐漸演變的。一顆磁碟可能在徹底損壞前就先出現警示；一台伺服器可能在當機前先開始變慢；一條網路鏈路可能在完全中斷之前，就先出現封包遺失的現象。透過監控，就能更早察覺這些跡象，讓團隊能夠及早介入。

透過冗餘設計、告警、容量規劃以及預防性維護，都有助於減輕技術故障所帶來的衝擊。

人為疏失與流程缺陷

人為疏失是造成停機的另一項主要因素。一個下錯的指令、意外的刪除、設定錯誤的防火牆規則、套用到錯誤的韌體版本、過期的憑證，或是測試不周的更新，都可能導致服務中斷。在很多情況下，系統並非因為硬體脆弱而故障，而是因為操作流程不夠嚴謹。

流程控管有助於降低這類風險。文件化、權限控管、同儕審查、變更審批、備份、預備環境以及回滾計畫，都能夠減輕人為錯誤所帶來的破壞力。教育訓練也很重要，因為管理員既需要充分理解系統，也需要明白每一次變更可能帶來的後果。

強韌的正常執行時間管理，會將人員、流程和技術視為一個整體的可靠性系統。

如何提升正常執行時間

為失敗而設計

改善正常執行時間，必須從「為失敗而設計」開始。任何組件最終都可能故障。一套可靠的系統，會假設故障必定發生，並為此預先準備好備援路徑、監控、復原程序，以及經過驗證的故障轉移行為。

這種思維會改變設計時的心態。團隊不再只是問「這個組件會不會壞」，而是會問「要是它壞了，會發生什麼事」。如果答案是整個服務會隨之停擺，那麼設計就有改進的空間；如果答案是流量會切換到備援路徑，使用者可以繼續工作，就代表系統的韌性更強。

「為失敗而設計」正是支撐高正常執行時間的核心原則之一。

衡量使用者的實際感受

正常執行時間的改善，應聚焦在使用者的實際體驗上，而不僅僅是內部的狀態。伺服器儀表板上可能顯示程序正在執行，但使用者也許依然無法登入、無法撥打電話、無法開啟檔案或無法完成交易。因此，只要情況允許，監控就應納入端對端的服務檢查。

以使用者為中心的測量，有助於揭露那些單靠組件層級檢查無法發現的隱藏問題。同時，它也能幫助組織了解停機時間所造成的真實業務衝擊。如果使用者無法完成手上的服務任務，那麼從他們的視角來看，系統就並非真正可用。

最好的正常執行時間管理機制，會同時測量技術上的健康程度，以及面向使用者的服務行為。

總結

正常執行時間，是衡量一個系統、設備、服務或平台能持續運作並保持可用的時間尺度。它是網站、雲端平台、網路、通訊系統、資料中心、工業基礎設施和企業應用程式中一項關鍵的可靠性指標。高正常執行時間，意味著使用者能夠在需要的時候確實依賴這項服務。

正常執行時間透過追蹤可用的服務時間，並與測量總時間進行比較來運作。它受到硬體可靠性、網路連通性、電源穩定性、軟體品質、系統架構、監控、維護以及營運紀律等多重因素所影響。要實現強韌的正常執行時間，通常需要冗餘設計、故障轉移、預防性維護、嚴謹的變更控制，以及貼近真實情境的服務監控。

就實際意義而言，正常執行時間不單只是一個百分比數字。它是一面鏡子，反映出一個系統在設計、操作、監控和維護層面上，為支撐真實使用者和真實業務需求所做的一切努力。

常見問題

正常執行時間用簡單的話怎麼解釋？

簡單來說，正常執行時間是指一個系統或服務能夠正常運作並可供使用的時間長度。只要網站、伺服器、網路或設備正處於正常運作的狀態，那段時間就算作正常執行時間。

它普遍被用來衡量系統的可靠性。

如何計算正常執行時間？

正常執行時間通常是將系統可用的時間，與測量時段的總時間進行比較來計算。結果往往會以百分比呈現，像是 99.9% 的正常執行時間。

詳細的計算方式，取決於可用性與停機時間是如何被定義的。

為什麼正常執行時間很重要？

正常執行時間之所以重要，是因為使用者與企業都仰賴系統在需要的時候能夠確實可用。糟糕的正常執行時間可能導致生產力下降、通訊中斷、客戶心生不滿、服務中斷以及營收損失。

高正常執行時間能夠支援可靠性、業務連續性以及使用者的信任感。

什麼是 Presence？它在整合通訊中的作用

下一個

什麼是地圖化調度？有哪些特徵？

貝克電信