UK Biobank的原则性提炼揭示了人类变异的潜在结构

2024-07-10 Wed
在本报告中，我们详细评估了一篇刊登于Nature Human Behaviour杂志的科研论文，标题为《原则性提炼英国生物库表型数据揭示人类变异的潜在结构》。该研究由Caitlin E. Carey、Rebecca Shafee、Robbee Wedow等负责，在线发表时间为XX年XX月XX日，出处为https://doi.org/10.1038/s41562-024-01909-5。
研究背景和意义随着公共和私人对大规模数据收集和整合的投资，近年来出现了称为生物库的数据仓库，将健康成果与成千上万个个体的生物样品关联起来。生物库包含丰富而详细的从电子健康记录（EHR）、自报调查措施、实验室检验和体力及认知评估中提取的数千个变量。尽管这些庞大的资源现在推动了人类健康和疾病的发现，但数据的广度和深度可能会模糊生物库中存在的更大模式。为了更全面考虑相关的人类健康景观，需要一种能够识别潜在结构并将数千个变量简化为更少数目构成体的方法，以便于人们理解和拓展。
维度降低是许多领域中普遍的任务，因此在生物库规模数据上已经应用了各种方法。尽管如此，因子分析在生物库分析中尚未被广泛关注，其将观察到的变量间的相关性模型化为一个或多个共享的连续潜在因素。该方法基于模型，比描述性总结（例如，主成份分析）或“黑箱”算法解更直接促进统计推断，并直接优化提取在可能情况下与观察到的项目有简单关系的因素。
在本研究中，我们对更广泛的多模式生物库表型集合进行了因子分析方法的改进和扩展应用，旨在评估所识别的结构在揭示可能被意外遮蔽的关系方面是否具有信息量，并通过因子得分来强化与表型和遗传数据链接的分析。
此外，研究还强调考虑构造如社会经济地位、创伤或体力活动在数据集中的结构时，当评判公共卫生模式时考量人类表型组时综合性质的重要性。
研究作者及其机构背景主要作者包括 Caitlin E. Carey，来自哈佛大学医学院。其他研究人员分别来自不同的科研机构，如Rebecca Shafee、Robbee Wedow、Amanda Elliott、Duncan S. Palmer、John Compitello、Masahiro Kanai、Liam Abbott、Patrick Schultz、Konrad J. Karczewski等，他们分别属于加利福尼亚大学系统、纽约大学、布罗德研究所以及其他协作研究中心。
研究流程及发现接下来，我们将详细报告研究过程中的每一步以及发现的主要成果。
研究流程研究的总体流程通过以下几个主要步骤进行：
a) 选择研究对象：选择了不相关亚洲血统的个体作为研究样本。
b) 数据处理与准备：处理和整理了UK Biobank中多样化的表型数据。
c) 确定模型结构：采用多阶段因子分析方法，包括探索性因子分析（EFA）和验证性因子分析（CFA）。
d) 因子得分计算：基于最终的因子模型，计算了每个个体的潜在因子得分。
主要发现这项研究主要发现如下：
1） 识别了35个正交潜在因子，涵盖了505个观察项的情况，这些因子捕捉了已知疾病分类、分解了社会经济地位的元素、突出了精神状况对于健康的相关性，并改进了亲卫生行为的度量。
2） 因子得分与未来的死亡率、遗传信号和健康结果之间的关联性进行了示范。
3） 因子的遗传相关性和遗传富集揭示了生物标记和疾病之间的联系。
研究结论及其价值通过适应大规模生物库数据并能提取出解释性及操作性强的潜在结构的因子分析方法，本研究强调了原则性维度缩减的价值，并揭示了人类变异的重要见解。该研究的结果明确指出了对人类变异结构的关注，并为进一步的健康和福祉发现研究提供了重要的支持。
研究对医学领域尤其具有重要意义，因为所提取的因素以假设自由和数据驱动的方式捕捉了诸如哮喘和冠状动脉病的诊断、原因和后果，从更广阔的关系结构中简化和明晰了疾病分类。
此外，因子得分的遗传性和遗传发现的功率增强表明，在研究复杂的人类表型时可考虑跨表型的多个指标，特别是那些无法通过实验检测的人类表型。
研究亮点与特点通过应用基于模型的数据缩减技术对生物库中的数百种多样化项目进行分析，本研究成功地将表型景观提炼为可理解的潜在构建体，彼此间具有可解释性的变异轴。
值得注意的是，经过这种分解，社会经济地位内在于多种因子，该发现支持了分离教育、收入、职业和社会地位其他元素的长期假设，为未来在不同社会政治、文化和诊断环境中识别这些可扩展性的构建体提供了基础。
总结研究结果表明，原则性因子分析在表型数据集之间的模型化相关性方面，提供了一种全新视角和工具，这对于理解人类健康、行为和疾病的复杂关系至关重要。