本文由Izzat Alsmadi和Michael J. O’Brien共同撰写,分别来自美国德克萨斯A&M大学圣安东尼奥分校的计算与网络安全系和教务长办公室。该研究发表于2020年6月的《Information Processing and Management》期刊,题为《How many bots in Russian troll tweets?》。研究的主要目标是开发一种模型,能够基于推文或账户级别的特征预测某个Twitter账户是否为机器人账户,并将该模型应用于Twitter的俄罗斯水军推文数据集(Russian Troll Tweets, RTT)。
随着互联网和社交网络的普及,机器人(bots)的使用对公众舆论产生了深远影响。特别是在线社交网络(Online Social Networks, OSNs)中,机器人账户通过操纵热门话题和标签,能够显著影响公众意见。研究表明,超过一半的互联网流量由机器人生成,而Twitter上的机器人账户甚至占据了所有推文的近四分之一。这些机器人账户不仅用于市场营销和政治宣传,还可能被国家或国家支持的机构用于网络战和政治操控。因此,如何有效区分人类账户和机器人账户成为了一个重要的研究课题。
研究分为以下几个步骤: 1. 推文内容分析:研究人员构建了一个包含约90,000个Twitter账户的推文内容语料库,发现人类账户和机器人账户在语言形式上存在显著差异。机器人账户的推文通常更加正式和结构化,而人类账户的推文则更加随意,包含更多的俚语和粗话。 2. 推文频率分析:研究人员提出了一种基于推文频率的新特征,用于区分机器人和人类账户。研究发现,机器人账户的推文频率通常较高,尤其是在某些时间段内。 3. 账户标签方法:研究采用了两种方法来标记Twitter账户是否为机器人。第一种方法使用了多个公开的数据集,这些数据集中的机器人账户由人类用户标记。第二种方法则是研究人员自行构建了一个“机器人或非机器人”数据集,提取了90,000个Twitter账户的机器人评分。 4. 集成模型构建:研究人员构建了一个集成模型,该模型结合了多个分类器,并根据加权评分做出最终决策。研究表明,结合推文和账户级别的特征能够显著提高预测准确性。
研究的主要结果包括: - 推文内容分析:机器人账户的推文语言更加正式,而人类账户的推文则更加随意,包含更多的俚语和粗话。 - 推文频率分析:机器人账户的推文频率显著高于人类账户,尤其是在某些时间段内。 - 账户标签方法:通过结合多个公开数据集和自行构建的数据集,研究人员能够有效地区分机器人和人类账户。 - 集成模型:结合推文和账户级别的特征,集成模型在预测机器人账户方面表现出较高的准确性。
该研究的科学价值在于提出了一种新的方法来区分Twitter上的机器人账户和人类账户,特别是在处理俄罗斯水军推文数据集时表现出色。研究结果表明,结合推文内容和账户级别的特征能够显著提高机器人检测的准确性。这一发现不仅对学术界具有重要意义,也对社交媒体平台的实际运营提供了有价值的参考。例如,Twitter可以基于该研究开发自己的机器人检测工具,帮助用户识别可疑账户。
研究还探讨了机器人账户的不同目标(如市场营销和政治宣传)对其行为的影响,并指出在构建高精度预测模型时,应考虑这些不同的目标。此外,研究还发现,某些特定的词汇(如营销和垃圾邮件相关的词汇)在机器人账户的推文中出现频率较高,这为进一步的机器人检测提供了新的思路。
总的来说,该研究为理解社交媒体中机器人账户的行为提供了新的视角,并为未来的相关研究奠定了坚实的基础。