本文介绍了一项关于互联网审查事件检测的研究,题为《Modeling and Detecting Internet Censorship Events》,由Elisa Tsai、Ram Sundara Raman、Atul Prakash和Roya Ensafi共同完成,研究团队来自密歇根大学。该研究于2024年2月26日至3月1日在网络与分布式系统安全(NDSS)研讨会上发表。
随着全球互联网审查的加剧,尤其是在选举、政治动荡、抗议和战争等关键时期,互联网服务提供商(ISP)通过深度包检测(DPI)等技术快速实施审查政策。尽管现有的公开审查数据集(如OONI和Censored Planet)为理解全球审查事件提供了宝贵资源,但由于数据量庞大、审查动态变化以及不同网络之间的异质性,审查事件的检测仍然具有挑战性。现有的手动分析方法难以扩展,而基于时间序列的自动检测方法则缺乏可解释性。因此,研究团队提出了CenDTect,一种基于决策树的无监督学习系统,旨在克服手动分析的可扩展性问题,并提供可解释的审查事件检测结果。
CenDTect系统通过迭代并行DBSCAN(基于密度的空间聚类算法)来识别具有相似屏蔽模式的域名,并使用一种新的距离度量——交叉分类准确率(cross-classification accuracy)来衡量域名之间的相似性。研究团队分析了2019年1月至2022年12月期间Censored Planet的超过700亿个数据点,发现了192个国家的15,360个HTTP(S)事件集群和77个国家的1,166个DNS事件集群。
研究流程分为以下几个步骤: 1. 数据预处理:从Censored Planet和OONI等公开数据集中提取原始数据,并进行预处理,包括IP元数据(国家、AS、IP组织)的标注和时间戳的解析。 2. 决策树生成:为每个域名生成决策树,捕捉其在特定时间段和地理位置的屏蔽行为。决策树通过Gini不纯度算法生成,保留了可解释性。 3. 聚类分析:使用DBSCAN算法对决策树进行聚类,识别具有相似屏蔽策略的域名。通过迭代聚类,系统能够发现重叠的事件集群。 4. 事件解析与应用:对每个事件集群的代表性决策树进行语义解析,生成包含地理位置、时间跨度和屏蔽方法的规则。这些规则可用于突出事件发现、搜索引擎和实时警报等应用。
CenDTect系统成功检测到了多个审查事件,包括32个国家的100多个自治系统(AS)中的持久性ISP屏蔽,以及2022年期间在选举、政治动荡、抗议和战争期间观察到的11个临时屏蔽事件。研究团队通过手动验证38个潜在的审查事件列表(PCEL),确认了所有手动检查确认的事件都可以通过CenDTect的输出轻松表征。
此外,研究还揭示了全球范围内审查行为的异质性。许多国家(如中国、哈萨克斯坦、阿曼和委内瑞拉)表现出ISP级别的持久性屏蔽行为,而其他国家(如埃及、俄罗斯和印度)的屏蔽行为则在不同ISP之间存在显著差异。研究还发现,即使在“自由”国家,组织级别的屏蔽也普遍存在,例如美国的59个组织屏蔽集群。
CenDTect系统通过自动化的方式提供了可解释的审查事件检测结果,使得审查数据对研究人员、记者和非政府组织(NGO)等数据消费者更加易于访问。研究结果表明,自动化审查检测具有巨大潜力,尤其是在全球范围内发现持久性和临时性屏蔽事件方面。CenDTect的简单性和可解释性使其成为审查观测站和数据消费者的有力工具。
研究团队计划将CenDTect集成到Censored Planet平台中,以支持更高效的审查事件分析。未来的研究可以进一步探索如何利用自然语言处理(NLP)等技术改进ISP识别,并扩展CenDTect的功能以覆盖更多类型的审查事件。
总之,CenDTect为互联网审查事件的自动化检测提供了新的思路和工具,具有重要的科学价值和实际应用意义。