本文是一篇综述性论文,题为《机器学习模型在预测饮用水化学污染物中的应用:前景、挑战与机遇》,由Xindi C. Hu、Mona Dai、Jennifer M. Sun和Elsie M. Sunderland共同撰写,发表于《Current Environmental Health Reports》期刊,2022年12月17日在线发布。该综述旨在探讨机器学习算法在预测美国饮用水污染物空间分布中的应用,并总结了近十年来相关研究的进展、挑战和未来发展方向。
饮用水安全是全球公共卫生的重要议题,然而,气候变化、基础设施老化、监测数据不足以及资源有限等问题使得确保饮用水安全面临多重挑战。美国《安全饮用水法案》(Safe Drinking Water Act, SDWA)虽然规定了90多种化学物质的标准,但仍有大量化学物质未被纳入监管范围。特别是依赖私人水井的4000多万美国人,由于缺乏公共供水系统的监测和报告要求,面临更高的健康风险。因此,开发预测模型以识别高风险区域并优化监测资源分配,成为近年来研究的热点。
本文综述了近十年来使用机器学习算法预测美国饮用水化学污染物的27项研究,重点关注了砷(arsenic)和硝酸盐(nitrate)等污染物。通过分析这些研究,作者总结了机器学习模型在饮用水污染物预测中的应用现状、方法学进展以及未来的研究方向。
大多数研究(81%)使用了公开数据源,其中美国地质调查局(USGS)的国家水信息系统(NWIS)是最常用的地下水数据来源。此外,加利福尼亚州的地下水环境监测与评估计划(GAMA)等州级数据库也被广泛引用。然而,公共供水系统的数据相对较少,仅有少数研究使用了美国环保署(EPA)的安全饮用水信息系统(SDWIS)。
研究中使用的主要预测变量包括地质、水文、土壤化学、气候等自然因素,以及土地利用等人为因素。这些变量在多个污染物模型中具有一致性,表明它们在预测饮用水污染物浓度方面具有普遍适用性。然而,如何将这些变量从局部扩展到全国范围仍是一个挑战。
大多数研究(70%)开发了二元分类模型,用于预测污染物浓度是否超过特定阈值。这些模型在预测硝酸盐和砷的浓度方面表现良好,准确率在0.67至0.94之间。相比之下,连续回归模型的预测性能较差,尤其是在处理高度截尾数据(如大量未检测到的污染物浓度)时表现不佳。
约三分之二的研究通过表面地图展示了污染物浓度超过阈值的概率或预测浓度。少数研究还计算了健康或政策指标,例如社区供水系统检查失败的风险评分。这些地图可以与人口统计数据或疾病负担数据叠加,帮助将饮用水质量问题与健康、环境恢复和环境正义问题联系起来。
机器学习模型在预测饮用水污染物方面显示出巨大潜力,尤其是在识别高风险区域以优化监测资源分配方面。然而,现有研究主要集中在二元分类模型上,连续模型的开发仍面临挑战。未来的研究方向包括: 1. 改进连续模型:提高连续模型的预测性能,以更好地支持流行病学研究中的暴露评估。 2. 开发全国性模型:借鉴砷和硝酸盐的全国性模型,开发适用于其他污染物的全国性预测模型。 3. 数据共享与互操作性:加强数据共享,特别是新兴污染物(如PFAS)的数据,以促进模型开发和验证。 4. 方法学改进:开发更有效的技术处理不平衡数据,并在模型训练中考虑空间自相关性。
本文通过系统综述,总结了机器学习在饮用水污染物预测中的应用现状,并提出了未来研究的方向。这些模型不仅可以帮助优化监测资源的分配,还能为制定更严格的饮用水质量标准提供科学依据。此外,通过改进数据共享和方法学,机器学习模型有望在未来的公共卫生和环境政策中发挥更大的作用。
本文为机器学习在饮用水污染物预测中的应用提供了全面的综述,并为未来的研究提供了重要的指导。