利用大型语言模型评估社交媒体上对胰高血糖素样肽-1受体激动剂的公众看法

在全球范围内,肥胖的流行趋势不断上升,给公共卫生带来了重大的影响。肥胖独立地与心血管疾病的发病率和死亡率相关联,估计每年将为卫生系统带来超过2000亿美元的经济负担。近年来,胰高血糖素样肽-1(GLP-1)受体激动剂因其在体重减轻和心血管风险降低中独立于糖尿病的作用而成为改变实践的治疗方案。在这一背景下,史丹福大学的Sulaiman Somani、Sneha S. Jain、Ashish Sarraju、Alexander T. Sandhu、Tina Hernandez-Boussard和Fatima Rodriguez等人展开了一项关于GLP-1受体激动剂在社交媒体上公众认知的研究,并在《Communications Medicine》2024年发布了他们的研究成果。

该研究采用了大型语言模型对超过39万条Reddit上与GLP-1 RA相关的讨论进行了分析。结果显示公众对这一治疗方案有着高度兴趣,讨论主题主要围绕GLP-1 RA在体重减轻中的体验、不同GLP-1 RA及其与其他疗法的副作用对比、GLP-1 RA获取及供应问题以及使用GLP-1 RA及相应体重减轻的积极心理效益。值得注意的是,这些讨论在情感上大多呈中性至正面。

研究方法包括数据策划、主题建模和情感分析等关键步骤。数据收集阶段,研究者利用名为PullPush的应用程序编程接口搜集Reddit上所有关于GLP-1 RA的讨论。在主题建模阶段,使用预训练的双向编码器表示从Transformer(BERT)类似的架构模型进行讨论嵌入,通过减少维度复杂性并运用基于密度的聚类算法进行讨论主题的划分。情感分析部分则采用了预训练的BERT模型对社交媒体帖子的情绪进行分类。

该研究的结果揭示了公众在Reddit上讨论的GLP-1 RA相关主题多达168个,并进一步将这些主题聚集成33个讨论组,涵盖了从药物有效性、副作用比较、获取途径到积极心态的多个主题。情感分析显示,讨论帖子中的31.8%展现了负面情绪,50.1%为中性,而17.4%表达了正面情感。

该研究的结论强调了公众对GLP-1 RA的高度兴趣,并对药物副作用的监测、提高药物可获得性以及认识到这类药物在体重管理中的身心双向效益提出了潜在的公共卫生干预措施。通过大型语言模型和人工智能(AI)驱动的主题建模流程,研究提供了一个有效工具用于挖掘社交媒体中的公众情绪,并导向未来研究和公共健康努力的方向。

《Communications Medicine》上发表的这项研究展示了社交媒体数据在医疗健康研究中的应用潜力,也突出了大型语言模型在处理和分析大规模非结构化文本数据上的有效性。这进一步说明了理解患者看法对于指导临床决策、研究和政策努力的重要性。