1 容錯性的研究
1.1 容錯的定義
“容錯”原是計算機系統設計技術中的一個概念。容錯(fault—tolerance)就是容忍錯誤的簡稱,是指設備的一個或多個關鍵部分發生故障時,能夠自動地進行檢測與診斷,并采取相應措施,保證設備維持其規定功能,或用犧牲性能來保證設備在可接受范圍內繼續工作。
1.2 容錯技術的發展
容錯技術近2O年發展很快。首先在先進的計算機中實現,例如航天飛行控制、人造衛星、潛艇導航、空中交通管制、銀行業務管理等領域,都要求計算機成年累月連續無故障地工作,從而促進了容錯計算機的迅速發展。目前世界上已有上百家計算機公司推出了容錯計算機。容錯計算機的平均故障間隔時間MTBF可達15年一2O年。1986年9月,美國國家科學基金委員會和IEEE控制系統學會聯合舉辦的一次專題討論會上,國際控制界52位著名專家匯聚于美國Santa Clara大學,討論控制科學的發展及當前面臨的挑戰,容錯控制FTC(Fauh Tolerance Contro1)被列為當今和未來的七個挑戰性課題之一。同年,張翰英教授發表論文,提出在我國“必須加速發展實用性容錯系統”的研究。此后,周東華、程一、葛建華、胡壽松等又將容錯技式樣用工夫動態系統及傳感器失效的研究。1997年,IFAC故障診斷與安全性委員會主席Patton教授撰寫了容錯控制的綜述文章。目前,容錯技術的研究已經有了很大的發展,并取得了許多重要研究成果。隨著計算機的廣泛應用和智能結構、智能材料與人工智能的發展,容錯技術必將得到更快的發展和更廣泛的應用。
2 移動計算環境
隨著移動通信和Intemet技術的發展,以及便攜式終端設備的普及,用戶要求更大范圍地移動,希望能在任何時間、任何地點,可以通過便攜式移動設備很方便地訪問網絡資源,得到所需要的服務;不僅是到另外一個地方,甚至在移動過程中仍然能夠保持網絡連接、同時使用戶訪問不受移動漫游、切換帶來的干擾。這就出現了移動計算。
2.1 移動計算的定義
移動計算=分布Stag技術+移動通信+數據庫。
移動計算是一個全新的概念,是隨移動通信、無線網絡、Internet、數據庫、分布式計算等技術發展而新興起的技術,已成為重要的前沿領域。移動計算是基于無線通信技術和便攜式移動計算設備的分布式計算模式。移動網絡與無線網絡經常聯系在一起,但是仍有區別,移動網絡很可能是有線的,而無線網絡很可能是固定的。其關系圖如圖l所示:
圖1 移動網絡與無線網絡的關系
2.2 移動計算環境的組成
移動計算環境通常由固定網絡、移動網絡、無線通信、筆記本電腦/PDM手機以及移動著的用戶構成。它是傳統的固定網絡分布計算環境利用了先進無線通信技術后的擴充,也就是說,移動計算的解決方案應該包括有線和無線兩個方面。
如圖2所示,我們考慮一個包含許多移動終端,用戶(Mc)和一些靜態主機,即基站(Bs)或者叫做移動支持基站(MSS)的移動計算系統。各基站通過靜態的有線網絡相互連接。有線網絡在提供可靠的信息傳輸過程中必然會產生一定的延遲,但是時間不長。基站覆蓋的地理范圍稱為“單元(cel1)”。移動終端只有在某個基站的范圍之內時才能與基站通信,主機可以移動到相鄰的單元,例如,隨時都可能跨區切換,因此,由于相鄰單元信道的不可用性,主機與基站之間斷接的可能性總是存在的。
圖2 移動計算環境的典型體系結構
2.3 移動計算環境的特點
移動計算作為分布式計算環境的一種新的發展趨勢,.主要存在如下幾個特點:
(1)移動性。必須適應不同地點的連接請求,并且經常在移動時要求保持連接;在不同服務器覆蓋范圍之間移動,跨區切換比較常見。
(2)低可靠性。由于其便攜性和工作環境,移動計算可靠性較低,更容易受到干擾而出現網絡故障。可能長時間發生網絡斷接,一些假設條件不同于傳統的分布式系統。移動計算裝置本身也有一些潛在的不安全因素,如碰撞、磁場干擾、易于遺失和失竊等。
(3)不安全性。無線通信衰落、易受干擾、易被截獲。
(4)帶寬有限性。從GSM 波特率9.6Kbps,GPRS 170Kbps到EDGE 384Kbps,3G 2Mbps,其帶寬都遠低于固定網絡中的數據帶寬。
(5)位置相關性。移動意味著變化,從而導致位置的不斷變換。而應用程序可能與位置相關,或者位置成為不透明因素。
(6)電源能力有限。通過蓄電電池供電,但容量非常有限,一般只能2—5個小時,而計算密集型程序能耗更大,電源會更加緊張。
(7)頻繁斷接性。移動計算機在移動過程中,一般不采用保持持續聯網的工作方式,而是主動/被動地間歇性入網、斷接和重接,甚至跨區切換。
(8)非對稱性。包括通信與資源安全乃至QoS的非對稱性,訪問的是地理上分布的節點。由于電源能力的限制,移動設備上的資源與功能是有限的。
(9)復雜性。為支持移動性必須加入更多的功能并最終達到網絡負載均衡;移動性也必然要求跨軟、硬件平臺的兼容性。
3 移動計算容錯性的研究
與有線的固定環境相比,移動環境中的無線網絡連接更加脆弱,移動主機可靠性更差,所以移動計算系統更應該需要實現錯誤恢復的機制。而且,容錯移動計算系統的實現將極大地支持如賬務處理、電子商務等重要的移動金融業務,移動游戲或分布式信息系統的訪問等應用也可以從容錯技術的發展中受益。
然而,移動計算系統所處的無線網絡性能較差,具有誤碼率高、帶寬低、停產衰減不穩定等特性;同時網絡性能變化很大,連接時斷時續,加上網絡中移動設備的移動變化進一步惡化網絡環境,比如網絡拓撲的變化、帶寬等網絡資源的變化,使得整個網絡環境更加不穩定,這些都為移動計算的容錯性提出了進一步的挑戰。
當前,針對移動計算環境的特點,人們提出了多種容錯算法與技術田,本文將討論其中比較成熟的兩類移動容錯技術,即基于檢查點和消息日志的容錯恢復技術與基于移動Agent的容錯技術研究。
3.1 基于檢查點和消息日志的容錯恢復
隨著分布式計算系統服務在移動環境中的擴展,很多支持分布式服務的算法經過修改都可用于移動計算系統。檢查點恢復是分布式服務為系統提供的容錯服務。分布式系統中有很多檢查點和恢復策略翻,見表1。
表1 無線分布網絡的檢查點和日志策略
然而,分布式系統的的檢查點恢復機制并不能直接應用于移動環境。根據移動計算系統環境的特點,一個支持移動計算容錯性的好的檢查點算法應當考慮如下因素:
(1)低帶寬。因為無線網絡帶寬低、檢查點機制不應當包含大量的系統消息或在一條應用消息中包含大量的額外信息。
(2)有限空間。由于MC空間的有限性,MC攜帶的檢查點要通過無線網絡傳給MSS。所以應該控制檢查點的執行頻率。
(3)移動性處理。MC的移動性使得MC的恢復信息可能存儲于多個MSS中。當一個MC出現故障時,應提供一個機制追蹤并搜尋正確的恢復信息。
(4)斷接操作。MC與網絡的頻繁斷接可能會影響MC之間對檢查點或恢復的同步。
以下是幾種主要的無線分布網絡的檢查點和日志策略:
CCP,協同檢查點策略,需要系統中的所有進程協調檢查點行為,需要大量的系統消息,不適用于低帶寬的移動環境。
SCP,同步檢查點機制,只要求相關進程同步執行檢查點,減少了協同消息的數量,但要保證嚴格的協同,即在執行檢查點時要阻塞參與進程的正常計算。
通過減少CCP和SCP的協作消息數量與參加協作的進程數量得到的CCP與SCP已經在移動計算中提出。
CICP,基于通信模式的檢查點策略利用一個獨立的進程根據其通信狀態的變化執行檢查點,在移動環境中對這個策略進行了擴展。但是這個策略的檢查點頻率完全依賴于MC的通信模式,無法受控于MC。最壞的情況是MH對于第一條流出消息都要進行一次檢查點行為,這是無線網絡帶寬無法實現的在CICP引入通信的檢查點策略中,應用消息攜帶一個檢查點序列號,使進程最終可以獲得一致的檢查點。實現了對該算法在移動環境中的擴展。
但是如果考慮恢復的話,所有上述檢查點策略都需要顯示的協作以避免實時時鐘問題。另外,由于進程要回滾到一組一致的檢查點狀態,故障后重計算的量也很大。
支持異步恢復并減少重計算量的一個方法是消息日志。若有系統故障,在異步恢復中進程獨立決定并回滾。另外回滾之后進程可以立即進行重計算而無需等待其它進程的協作消息。提出了在移動環境中基于悲觀消息日志(PML,Pessimistic message logging)的異步恢復策略。然而,考慮到悲觀消息日志要頻繁地訪問穩定存儲器,這個方法仍不適應移動環境的特點。
CML,隨機消息日志,可以避免對穩定存儲的頻繁訪問,但在應用消息中要攜帶大量的依賴信息,無法解決移動計算系統低網絡帶寬的問題。
OML,樂觀消息日志,提出的OML可以控制穩定日志的頻率實現異步恢復,它使用一個很小的信息,vector clock可以檢測到可能引起實時時鐘問題的異常消息。文獻中在此基礎上進一步優化,提出移動計算系統中基于樂觀消息日志的異步恢復策略,充分利用MSS的動態日志空間由MSS實現消息日志,MSS同時還負責依賴性的追蹤,而MC只攜帶最少的信息,如此則MC的移動性將由MSS實現完整的追蹤,其消息開銷也比較小。此外,根據MH和MSS同時故障的可能性,策略通過選擇一個合適的穩定日志記錄頻率還可以在一定程度上減少不正確的依賴產生的回滾開銷。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:移動計算容錯行為研究(上)