本文由梁春阳、林广发、张明锋等作者共同完成,发表于《地球信息科学学报》2018年第6期。研究团队主要来自福建师范大学地理研究所、福建省陆地灾害监测评估工程技术研究中心以及海西地理国情动态监测与应急保障研究中心。该研究得到了国家重点研发计划、福建省公益科研院所专项和福建省测绘地理信息局科技资助项目的支持。
随着社交媒体的普及,灾害事件发生时,大量带有地理信息的文本和图像数据迅速在社交网络中传播,这为灾情的实时感知提供了新的数据源。然而,由于社交媒体用户分布的空间异质性和信息传播模式的差异,社交媒体签到数据在反映灾害时空分布时存在一些问题,如签到点密度与灾害实际发生密度之间的对应关系、签到点之间的空间关系等。本研究以2016年第14号台风“莫兰蒂”为例,探讨社交媒体数据在反映台风灾害时空分布中的有效性,并提出了一种基于用户活跃度的加权模型,以消除用户分布的空间异质性对数据分析的影响。
数据采集与预处理
研究基于新浪微博平台,采集了2016年9月14日至17日期间与台风“莫兰蒂”相关的微博数据,共17万余条,其中包含签到位置信息的微博27,218条。研究还使用了全国县级行政区划矢量地图和灾情资料数据作为辅助数据源。
微博文本分类
研究采用隐含狄利克雷分布主题模型(Latent Dirichlet Allocation, LDA)和支持向量机(Support Vector Machine, SVM)算法对微博文本进行分类,构建了包含签到位置信息的灾情点事件数据库。通过人工筛选800条微博作为训练集,使用卡方检验和词频-逆文档频率(TF-IDF)算法进行特征选择,最终得到13,088条含有签到位置信息的灾情微博。
用户分布加权模型
为消除社交媒体用户分布的空间异质性,研究提出了一种基于签到点用户活跃度的加权模型。该模型通过计算用户签到活跃度,对灾情签到数据进行加权处理,从而更准确地反映灾害的时空分布。
空间自相关分析
研究使用全局自相关统计量Moran’s I对加权前后的签到数据进行分析,发现加权后的签到数据在现实地理空间中存在显著的空间自相关性。研究还通过反距离权重和K近邻权重矩阵,进一步验证了灾情签到数据的空间分布模式。
时空分析
研究根据灾情特征词(如“雨”、“停电”)对灾情微博进行划分,探讨了灾情签到数据的时空变化过程。结果表明,加权后的灾情签到数据能够更好地反映台风灾害的时空变化趋势,并与实际灾情资料高度吻合。
社交媒体数据的有效性
研究表明,社交媒体数据能够有效反映台风灾害的时空分布。通过加权模型处理后的灾情签到数据,能够更准确地反映灾害的时空变化过程。
空间自相关性
研究发现,灾情签到数据在现实地理空间中存在显著的空间自相关性,尤其是在市级城市空间粒度下,加权后的Moran’s I值稳定在0.28左右,表明灾情签到数据在空间上呈现聚集状态。
时空分析结果
通过时空分析,研究发现台风“莫兰蒂”对登陆点厦门的影响最为严重,且灾情签到数据的时空变化趋势与实际灾情资料高度一致。
科学价值
本研究提出了一种基于用户活跃度的加权模型,有效解决了社交媒体用户分布的空间异质性问题,为社交媒体数据在灾害应急管理中的应用提供了新的方法。
应用价值
研究结果表明,社交媒体数据可以作为灾害应急管理的重要数据源,能够快速感知灾情信息,辅助政府决策。研究提出的加权模型和时空分析方法,可以为灾害应急管理提供科学依据。
新颖的加权模型
研究提出的基于用户活跃度的加权模型,有效消除了社交媒体用户分布的空间异质性,提高了灾情签到数据的准确性。
多方法结合
研究结合了LDA主题模型、SVM分类算法、空间自相关分析和时空分析等多种方法,全面探讨了社交媒体数据在灾害时空分布中的应用。
实际应用验证
研究通过实际台风灾害案例验证了社交媒体数据的有效性,为灾害应急管理提供了新的数据源和分析方法。
未来研究将进一步探讨社交媒体数据在不同空间粒度和划分方式下的表现,并结合深度学习框架(如Word2Vec模型)提高文本分类和数据检索的精度,构建更加科学和严谨的社交媒体数据实时监测和动态展示系统。