语言模型-术语-FmRead学术前沿

一、学术背景与研究意义近年来，蛋白质液-液相分离（phase separation，PS）作为调控细胞内生物分子的关键机制，受到生命科学领域的广泛关注。相分离不仅推动了无膜细胞器（biomolecular condensates）的形成，还广泛影响着生化反应速率、蛋白质组织与定位，并与癌症和神经变性疾病等重大疾病的发生密切相关。尽管相分离现象的生物学意义逐渐被认识，但其驱动机制和调控密码仍显复杂且难以捉摸，尤其是在驱动相分离的蛋白质区域识别方面，科学界仍然面临诸多挑战。传统的相分离预测方法，大多依赖已有的蛋白质注释信息或人工设定的特征参数。这些方法虽然在已知蛋白质上表现良好，但面临着对未知蛋白质、变体和不同物种间广泛泛化能力的严重不足。同时，针对蛋白质序列的局部驱动区域（residue-...

T细胞受体（TCR）特异性预测的新突破——SCEPTR模型的提出学术背景 T细胞受体（TCR）在免疫系统中扮演着至关重要的角色，它们通过与主要组织相容性复合物（MHC）呈递的肽段结合，决定了免疫反应的特异性。理解TCR与特定肽段-MHC复合物（pMHC）的相互作用是免疫学中的一个重大挑战。尽管高通量实验技术的发展为我们提供了大量TCR序列数据，但精确预测TCR与特定pMHC的结合能力仍然是一个难题。当前，蛋白质语言模型（PLMs）在高通量数据分析中展现出了强大的潜力，但在TCR特异性预测任务中表现欠佳，尤其是在数据稀缺的情境下。因此，如何有效利用无标注的TCR序列数据来训练模型，成为解决这一问题的关键。论文来源本文由Yuta Nagano、Andrew G.T. Pyo、Martina...

大型语言模型在翻译CT和MRI自由文本放射学报告中的能力学术背景在全球化的背景下，患者的流动性增加，放射学报告作为疾病诊断和管理的重要工具，常常需要被翻译成不同的语言。然而，语言障碍可能会影响这些报告的有效使用，进而影响患者的及时和准确管理。随着远程医疗的兴起，患者越来越多地寻求远程专家咨询或第二意见，这进一步加剧了语言障碍的挑战。如果没有准确的翻译，这些报告可能会被误解或忽视，导致诊断延迟和潜在的错误。由于具备医学专业知识的人工翻译并不总是随时可用，基于人工智能的模型，特别是大型语言模型（LLMs），提供了有前景的替代方案。尽管这些模型最初是为通用语言处理任务设计的，但它们在翻译等应用中也展示了良好的效果。然而，LLMs在翻译放射学报告方面的能力尚未得到充分探索，尤其是在处理低资源语...

蛋白质结构预测：挑战、进展及研究范式的变化蛋白质结构预测是一个吸引了生物化学、医学、物理学、数学和计算机科学等多个领域研究者的重要跨学科研究课题。研究者们采取了多种研究范式去解决同一个结构预测问题：生物化学家和物理学家试图揭示蛋白质折叠的原理；数学家，尤其是统计学家，通常从假设给定目标序列的蛋白质结构概率分布开始，然后找到最可能的结构；而计算机科学家将蛋白质结构预测视为一个优化问题——寻找具有最低能量的结构构象或最小化预测结构与天然结构之间的差异。最近，深度学习在蛋白质结构预测中也取得了巨大成功。在这篇综述中，本文呈现了一项对蛋白质结构预测努力的调查。我们比较了不同领域研究者采用的研究范式，重点是深度学习时代研究范式的转变。作者简介及论文出处本文由Bin Huang, Lupeng K...

5’非翻译区(5’UTR)是信使RNA(mRNA)分子起始端的一个调控区域,在调节翻译过程及影响蛋白质表达水平方面发挥着关键作用。语言模型已展现出解码蛋白质和基因组序列功能的有效性。在这项研究中,作者们介绍了一种针对5’UTR的语言模型,简称为UTR-LM。研究背景事实上,5’UTR在调控mRNA的翻译过程中扮演着重要角色,可以影响mRNA的稳定性、定位和翻译效率。之前已有大量研究探索了5’UTR的生物学特征,包括它的二级结构、可能与之互作的RNA结合蛋白,以及5’UTR突变对基因表达的影响等。mRNA的复杂功能及其对人类健康的潜在影响,凸显了需要开发更具普遍适用性的计算方法。研究来源本研究由普林斯顿大学电子与计算机工程系的Mengdi Wang教授课题组、斯坦福大学病理系的Le C...

解码蛋白质相分离密码：基于语言模型和构象嵌入的PSTP算法助力病理变异解释

T细胞受体表示对比学习的研究

大型语言模型在翻译CT和MRI自由文本放射学报告中的能力

蛋白质结构预测：挑战、进展与研究范式的转变

5'非翻译区语言模型用于解码mRNA的非翻译区域和功能预测