本期主題:空氣品質感測物聯網

發行人 :蔡俊鴻

本期主編:張順欽

總編輯 :秦靜如

       

       

106年12月

從空氣盒子系統談環境感測的時空大數據分析

謝欣紘、何昱彰、劉謹瑋、陳伶志 / 中央研究院資訊科學所

摘要

  近年來公民環保意識提升,空氣品質成為一般大眾所關心的重大議題,其中又以懸浮微粒(Particulate Matter)相關的空氣污染引起最廣泛的重視。臺灣民間自主性的發起空氣盒子計畫,藉由開放精神與公民參與佈建了規模龐大的空氣盒子空品監測系統。該系統開啟了小尺度、即時性與適地性的環境監測。然而針對這樣廣泛部署的環境物聯網, 資料品質的穩定將成為挑戰。本研究建構了一個即時的感測器異常狀態監測架構(Anomaly Detection Framework, ADF),這個架構由四個模組組成:1)時間片段異常檢測(Time-Sliced Anomaly Detection, TSAD),利用即時資料串流檢測時間異常(Temporal Anomaly, T)、空間異常(Spatial Anomaly, S)或時空異常(Spatio-Temporal Anomaly, A),2)即時污染源偵測(Real-time Emission Detection, RED),為區域污染即時檢測,3)感測器可靠度評估(Device Ranking, DR),替感測器作可靠度評估,以及4)感測器故障檢測(Malfunction Detection, MD),找出功能可能異常的感測器。本文將說明此異常監測架構的演算法設計。

一、前言

  近年來環保意識抬頭,人民對於居住環境品質的重視提升,其中又以空氣品質為主的環境議題最為受到廣泛重視。空氣、食物與水同時為人類生存的三大要素,但是人類可以在沒有食物的狀況下存活三個月、在沒有水的狀況下倖存三天,卻沒有人可以不呼吸空氣超過三分鐘;此外,人類尚且有多樣食物種類可以選擇,有先進的設備可以濾化飲用水,至今卻仍沒有任何方式可以無時無刻過濾遭到污染的空氣。空氣污染在短期內可能造成呼吸系統的不適,甚至引起氣喘與心肺方面的問題,長期下來則可能導致相關癌症的誘發,以及因為這些健康危害所導致的勞動力減低、醫療照護需求增加,進而衍生的社會經濟問題,影響社會發展程度可觀。

  對於空氣品質的監測,尤其是空氣中的細懸浮微粒(PM 2.5),民間自發性地發起了空氣盒子佈建計畫。此計畫是一個利用新興的物聯網技術進行環境監測的環境物聯網系統。民眾自行設計、開發低成本的PM2.5感測器,以開放精神將機器的軟體與設計細節公佈,並向社會大眾號招佈建。時至今日,空氣盒子的佈建數量在全臺灣已經超過兩千個站點,其中又以大臺北、臺中、臺南與高雄等城市的佈建密度最高。對比傳統的環境監測系統,空氣盒子系統承繼傳統物聯網系統低功耗、低成本與無線網路傳輸的特性,不但在測站佈建的數量與密度上可以輕而易舉超越傳統龐大且昂貴的專業環境監測系統,環境物聯網透過無線網路的資料傳輸能力更大幅改善了以往環境監測使用人力傳遞資料的效率,並且開啟了小尺度、即時性與適地性環境觀測的創新應用。

空氣盒子計畫的測站佈建情形
圖I一). 空氣盒子計畫的測站佈建情形

  由於環境物聯網系統是民間自主參與,隨著部署環境的不同,感測器是否能夠提供穩定、準確的感測將是個重要議題。當感測器異常或故障時,它的感測數值可能會過高或過低,但實際狀況還牽扯到幾項因素,例如感測器部署的位置,若民眾將感測器裝設於室內,當大環境中有空氣污染的情形時,室內機的感測數值就會明顯比周遭環境低了許多,因此該感測器將無法反映外部環境的狀況。另外在感測器鄰近區域要是突然產生空氣污染源,例如民眾焚燒垃圾、寺廟燒香或是工廠排放廢氣等等,亦會造成鄰近感測器數值的突然升高。本研究針對上述可能的狀況,利用時空資料分析的方法提出感測器異常偵測、鄰近污染源檢測、室內機判定以及機器可靠度評比。本研究以資料科學的方式,來推估感測器可能遭遇的狀況,進而輔導民眾或有關單位作因應處理,以期增進空氣盒子系統整體的感測品質。本文將介紹空氣盒子感測器異常分析的各項演算法。

二、感測器異常偵測的動機

  空氣盒子計畫的初衷,在於使用低成本、準確度與專業儀器相比誤差在許可範圍的自造感測器,藉由公民參與的方式提升測站的裝設密度以及規模,來彌補政府專業測站其密度與規模難以增進的現況。提升感測器佈建的數量可以提供民眾更即時、更在地化的空品監測。然而在這樣的系統當中,感測器的量測品質便會受到質疑。為了解決這種大規模空品監控系統對於資料品質的疑慮,本研究發展了一套感測器異常狀態判定演算法用於對大規模環境感測器回傳的感測資料做去蕪存菁。這套系統可以判斷環境感測器回傳的資料是否超出合理範圍,且可以推斷出可能的異常事件。這套演算法的核心架構如圖(二)所示。下文將分別討論各個模組的詳細內容。

  智慧環境感測網的資料導入與應用

  除了環保署既有各類環境監測資料,台灣現有微型感測器如LASS,起初由創客(Maker)自行發起,組織民眾與專家實作、提供開放資料API。而環保署為了擴大環境感測網密度,鼓勵公民參與,在生活環境佈建空氣感測器,這些個人感測器讓民眾擁有監測其呼吸到的空氣的能力。本年度環保署持續開發新型感測器,能以其他傳輸方式將即時資料上傳於「環境即時通」可查閱相關即時資訊。

  透過電子地圖服務和感測數據結合在一起,以手機作為社群互動載具,結合環境監測資訊查詢服務(由上到下)、提供民眾互動提供個人環境感受訊息(由下到上);藉由雙方資訊流通、企圖提供給大眾更精準的環境監測情況。

感測器異常監測的演算法架構
圖(二). 感測器異常監測的演算法架構

三、時間片段異常偵測模組(Time-Sliced Anomaly Detection, TSAD)

  模組將連續的感測器數值分割成固定長度的離散序列用來異常狀態的處理。在開始之前我們必須先定義何謂異常狀態;有三種類型的異常可能會發生在即時的感測資料串流中,分別為:空間異常、時間異常及時空異常。這些異常的判斷將利用該點的感測值與其鄰居的相似度以及該點的感測值於連續時間中的一致性。三種類型的異常將詳細定義如下:

  (一)空間異常(S):

  在某一時間片段中,如果該點感測值遠高於(或遠低於)其鄰居的中位數,則視為空間異常。其中,鄰居的定義為一感測器方圓n公里內的所有感測器皆屬於此感測器之鄰居。有許多原因會造成感測器被判定為空間異常,例如:感測器被放置於使用空氣清淨機的室內,或被放置於污染源附近,如正在燃燒金紙的寺廟旁或餐廳旁等,亦有可能是感測器沒有適當地安裝或感測器已故障。

  (二)時間異常(T):

  當感測器連續的回傳資料有顯著性增加,且增加的幅度超過設定門檻值就會被認定是時間異常,感測器若是鄰近污染源(如:工廠、寺廟或是餐廳)、未被正確安裝或功能失常可能會造成感測器被判定為時間異常。

  (三)時空異常(A):

  當感測器的感測值同時發生上述兩種異常狀態時,則稱為時空異常。

四、即時污染源偵測模組(Real-time Emission Detection, RED)

  即時污染源偵測模組(RED)從TSAD模組獲取運算結果後進一步分析某一個小範圍內的排放情形。RED模組背後的原理為:假設當某地方突然產生一個污染源,離此地最近的感測器數值勢必會劇烈的增加,根據排放量和當時的大氣條件,污染範圍將逐漸擴大。根據從TSAD獲取的初步分析結果可以將當時的資料分成以下五種狀態:‘S’ (空間異常)、‘T’(時間異常)、‘A’(時空異常)、‘O’(正常)和‘M’(資料遺失)。若是感測器的上一筆資料被判定為T或A,而緊接著下一筆資料也被判定為S或A,則這個感測器將被RED模組判定為接近污染源。RED模組只能找出小範圍內的排放,不適用於大範圍或是擴展成大範圍的污染情形,因為大範圍還需要考慮風向以及地形等方面的可能影響。為求判斷精確,RED模組需要連續串流的資料做為參考資料,不允許資料的缺失。

五、感測器可靠度評估模組(Device Ranking, DR)

  感測器可靠度評估(DR)是根據每日TSAD模組的運算結果給予每個感測器一個可靠度評估值,此評比是根據一天中感測值的異常比率來計算,愈高的可靠度評估值代表著該感測器的量測值擁有愈高的可靠度。計算方法為:將各個感測器於一天內符合空間異常(S)、時間異常(T)及空間時間異常(A)的數量相加;接著,除以該裝置一天內有效的資料數,此結果為異常比率。由於可靠度與異常比率成反比,將結果以數字一減去,即為可靠度評估結果。

可靠度評估於g0v零時空污觀測網的呈現方式
圖(三). 可靠度評估於g0v零時空污觀測網的呈現方式

  評估值會介於0和1之間,我們將其分成五等份並將結果呈現於g0v零時空污觀測網(http://airmap.g0v.asper.tw/),圖(三a)為新北市永平國小於某個時段的感測資訊,其中左上角的星等即代表可靠度評估值的等第大小,由於此測站量測到的值皆與鄰近的測站相去不遠,因此標示為五等星。圖(三b)為龍山寺附近的測站,其星等被判定為一等星,由於其量測到的值與鄰近的測站有明顯差異,以至於一天內空間異常的數量較多。

  感測器可靠度評估值可用來表示該感測器在鄰近區域以及相近時間內的一致性程度。一般來說,愈高的可靠度評估值代表愈高的可靠度。然而愈低的可靠度評估值並不能完全表示該感測器的效能不佳,而只能反映出該感測器需要被深入的檢查或是在鄰近區域部署更多感測器用以提供更多鄰近區域的資訊。

六、感測器故障偵測模組(Malfunction Detection, MD)

  感測器故障偵測模組用以找出故障的感測器,此模組是根據TSAD模組每日的運算結果來分析。為了實作MD模組,我們將TSAD中的空間異常類別更進一步的分類,將‘S’分為‘SL’和‘SH’;其中‘SL’代表感測器為空間異常且其感測值比鄰近的測站低,而”SH”則是代表感測器為空間異常且其感測值比鄰近的測站高。MD模組的分析結果可分為以下四種:

  (一)裝置在室內的感測器:

  空調系統能清淨空氣,因此室內的感測器所感測到的PM2.5數值會比較低,因此容易造成資料分析上的困難。雖然我們建議所有投入空氣盒子計畫的參與者將感測器安裝在通風良好的戶外,但仍發現有一些感測器被安裝在室內環境。為了偵測該感測器是否極有可能被安裝在室內,當感測器屬於異常類別‘SL’的比率大於三分之一,則該感測器將被視為室內裝置。其中比例門檻設為三分之一是假設一天工作八小時占一天的三分之一,亦即當超過此門檻值將被判定為該感測器安裝在室內。被判定為室內感測器用將以房子的符號呈現於g0v零時空污觀測網,如圖(四)。圖中室內機其感測值為2明顯低於其鄰近的測站感測值(如:26, 27)。

室內感測器於g0v零時空污觀測網的呈現方式
圖(四). 室內感測器於g0v零時空污觀測網的呈現方式

  (二)感測器裝設於污染排放源附近:

  判斷方法類似室內感測器的偵測,我們根據每日TSAD的結果,若‘SH’大於三分之一則該感測器將被視為接近污染排放源(例如:工廠、寺廟或餐廳)。被判定為接近污染源附近的感測器將以煙囪的符號呈現於g0v零時空污觀測網,如圖(五)。其感測值38明顯高於其鄰近的測站感測值(如:23,24,31)。

接近污染源的感測器於g0v零時空污觀測網的呈現方式
圖(五). 接近污染源的感測器於g0v零時空污觀測網的呈現方式

  (三)故障的感測器:

  感測器沒有被適當安裝、受到灰塵阻塞或是年久失修,都會造成感測器長時間下來產生極端值(非常高/非常低)。因此弱‘S’ 或‘SL’ 超過2/3則會被判定為感測器故障。

  (四)狀態無法判定的感測器:

  由於偵測感測器是否故障需仰賴偵測空間異常的技術,其中空間異常的判定需要和足夠的鄰居作比較。因此,當一感測器其鄰居數小於N時(N=3為實驗結果值),我們將其視為無法判斷。

七、結果與討論

  我們用ADF分析2016/12/16 00:00~2016/12/25 23:59連續十天的真實資料,資料包含1272台感測器其散佈於全臺五座城市(臺北、新北、臺中、臺南和高雄),以下我們分別呈現RED、DR和MD三個模組的分析結果。

  1) 圖(六)是RED模組以每個小時為單位,連續十天偵測全台五都污染源數量所得之折線圖。

RED全台五都連續十天即時污染源偵測數量
圖(六). RED全台五都連續十天即時污染源偵測數量

  從圖中我們有三個發現:

  1. Observed圖顯示全台五都每個小時的污染源數量在0至17之間。

  2. Trend圖可以發現12月23 日早晨是整體趨勢的最低點, 對照當時天氣是因為有一場大雨造成五都的空氣品質變好。

  3. Seasonal圖上可以看出每一天污染源的規律變化,整體的高點會出現在8點至18點之間,符合一般工廠的工作時間。

  透過TrendSeasonal證明RED可以偵測到符合一般市民認知的污染源數量趨勢。

  在這十天內,有376個感測器曾經偵測到污染源,由圖(七)可以發現94%的感測器偵測到污染源的數量低於十次,只有2%的感測器偵測到高於20次的污染源,證明RED可以偵測環境中突發性的排放污染源事件。

單一感測器偵測污染源數量累積圖
圖(七). 單一感測器偵測污染源數量累積圖

  2) 我們利用DR模組算出每天每一台感測器的可靠度,並利用連續兩天可靠度差值評估DR整體效果。圖(八)顯示只有21%的感測器可靠度低於0.8,另外連續兩天可靠度差值有84.5%的感測器會超過0.2,這些結果說明大多數感測器四周的空氣品質是穩定的且連續時間的資料一致性高。

感測器可靠度評估累積圖
圖(八). 感測器可靠度評估累積圖

  3) 在連續偵測的十天中,總共有327台感測器被判定無法偵測,當中203台是常態性,124台是則是偶發性,如圖(九)。這些感測器多數的共通點是鄰居站點數量較少,當鄰居數量小於三個時會被判定無法偵測,而在十天之中可能有些感測器因為不明原因關機,就可能會造成這些感測器被MD模組判定成無法偵測。

感測器無法偵測數量
圖(九). 感測器無法偵測數量

八、結論

  本研究提出用於大規模環境感測系統中的感測器異常狀態偵測演算法。此演算法架構包含四個模組:時間片段異常檢測(TSAD)、即時排放源偵測(RED)、感測器可靠度評比(DR)、感測器故障偵測(MD)。

  利用即時的空氣盒子資料串流,依據即時排放源偵測結果我們於每小時報告判斷出的地域性污染源。此外,根據感測器可靠度評比模組,每個感測器會有自己的可靠度評分。最後,感測器故障偵測模組會判定感測器是否被安置室內、接近污染源或是故障的情形。上述這些分析結果,我們採取開放精神公開給大家使用。藉由異常狀態偵測分析可以消弭各界對資料品質的疑慮,進而從中發現異常事件,以便能更即時的發展出應對措施。

九、參考文獻

  1. X. Tang, “An Overview of Air Pollution Problem in Megacities and City Clusters in China,” AGU Spring Meeting Abstracts, May 2007.

  2. VUFO - NGO Resource Centre Vietnam, “Vietnam Named among Top Ten Nations with Worst Air Pollution,” http://www.ngocentre.org.vn/news/vietnam-named-among-top-ten-nations-worst-air-pollution, Sept. 19 2013.

  3. B. Ostro, Outdoor air pollution: Assessing the environmental burden of disease at national and local levels, ser. WHO Environmental Burden of Disease Series. World Health Organization, 2004, no. 5.

  4. Y.-F. Xing, Y.-H. Xu, M.-H. Shi, and Y.-X. Lian, “The impact of PM2.5 on the human respiratory system,” Journal of Thoracic Disease, vol. 8, no. 1, pp. 69–74, January 2016.

  5. M. Markiewicz, “A Review of Mathematical Models for the Atmospheric Dispersion of Heavy Gases. Part I. A Classification of Models,” Ecological Chemistry and Engineering S, vol. 19, no. 3, pp. 297–314, July 2012.

  6. S.-C. C. Lung, I.-F. Maod, and L.-J. S. Liu, “Residents’ particle exposures in six different communities in Tai- wan,” Science of The Total Environment, vol. 377, no. 1, pp. 81–92, May 2007.

  7. S.-C. C. Lung, P.-K. Hsiao, T.-Y. Wen, C.-H. Liu, C. B. Fu, and Y.-T. Cheng, “Variability of intra-urban exposure to particulate matter and co from asian-type community pollution sources,” Atmospheric Environment, vol. 83, pp. 6–13, February 2014.

  8. M. Alvarado, F. Gonzalez, A. Fletcher, and A. Doshi, “Towards the Development of a Low Cost Airborne Sensing System to Monitor Dust Particles after Blasting at Open-Pit Mine Sites,” Sensors, vol. 15, pp. 19667– 19 687, 2015.

  9. M. Budde, R. E. Masri, T. Riedel, and M. Beigl, “Enabling low-cost particulate matter measurement for participatory sensing scenarios,” in International Conference on Mobile and Ubiquitous Multimedia, 2013.

  10. Y. Cheng, X. Li, Z. Li, S. Jiang, Y. Li, J. Jia, and X. Jiang, “AirCloud: A Cloud-based Air-Quality Monitoring Sys- tem for Everyone,” in ACM SenSys, 2014.

  11. S. Devarakonda, P. Sevusu, H. Liu, R. Liu, L. Iftode, and B. Nath, “Real-time air quality monitoring through mobile sensing in metropolitan areas,” in ACM SIGKDD International Workshop on Urban Computing, 2013.

  12. Y. Gao, W. Dont, K. Guo, X. Liu, Y. Chen, X. Liu, J. Bu, and C. Chen, “Mosaic: A Low-Cost Mobile Sensing System for Urban Air Quality Monitoring,” in IEEE Infocom, 2016.

  13. K. Weekly, D. Rim, L. Zhang, A. M. Bayen, W. W. Nazaroff, and C. J. Spanos, “Low-cost coarse airborne particulate matter sensing for indoor occupancy detection,” in IEEE International Conference on Automation Science and Engineering, 2013.

  14. Y. Zhuang, F. Lin, E.-H. Yoo, and W. Xu, “AirSense: A Portable Context-sensing Device for Personal Air Quality Monitoring,” in ACM MobileHealth, 2015.

  15. “Taipei AirBox,” http://pm2.5.taipei/.

  16. L.-J. Chen, W. Hsu, M. Cheng, and H.-C. Lee, “LASS: A Location-Aware Sensing System for Participatory PM2.5 Monitoring,” in ACM MobiSys, 2016.

  17. Y. Zhang, N. Meratnia, and P. Havinga, “Outlier Detection Techniques for Wireless Sensor Networks: A Survey,” IEEE Communications Surveys & Tutorials, vol. 12, no. 2, pp. 159–170, April 2010.

  18. Edimax Inc., “AirBox: PM2.5 Sensing for Smart Cities,” https://airbox.edimaxcloud.com.

  19. “PM2.5 concentration indexes and activity advices,”http: //taqm.epa.gov.tw/taqm/tw/fpmi.aspx.

  20. L. Community, “PM2.5 Open Data,” https://sites.google.com/site/pm25opendata/open-data. J. W. Tukey, Exploratory data analysis. Addison-Wesley Pub. Co., 1977.