5'非翻译区语言模型用于解码mRNA的非翻译区域和功能预测

5'非翻译区语言模型用于解码mRNA的非翻译区域和功能预测

5’非翻译区(5’UTR)是信使RNA(mRNA)分子起始端的一个调控区域,在调节翻译过程及影响蛋白质表达水平方面发挥着关键作用。语言模型已展现出解码蛋白质和基因组序列功能的有效性。在这项研究中,作者们介绍了一种针对5’UTR的语言模型,简称为UTR-LM。 研究背景 事实上,5’UTR在调控mRNA的翻译过程中扮演着重要角色,可以影响mRNA的稳定性、定位和翻译效率。之前已有大量研究探索了5’UTR的生物学特征,包括它的二级结构、可能与之互作的RNA结合蛋白,以及5’UTR突变对基因表达的影响等。mRNA的复杂功能及其对人类健康的潜在影响,凸显了需要开发更具普遍适用性的计算方法。 研究来源 本研究由普林斯顿大学电子与计算机工程系的Mengdi Wang教授课题组、斯坦福大学病理系的Le C...

高斯过程概率多实例学习用于CT颅内出血检测的双曲正切逻辑函数表示

人工智能领域一直以来都存在着一个”弱监督学习”的问题,即在训练数据中,只有部分标记是可观测的,而其余的标记则是未知的。多实例学习(Multiple Instance Learning,简称MIL)就是解决这一问题的一种范式。在MIL中,训练数据被分组为若干”袋”(bag),每个袋包含多个实例(instance)。我们只能观测到每个袋的标记,而无法获知每个实例的具体标记。MIL的目标是基于袋的标记,预测新袋及其包含实例的标记。 MIL范式在诸多科学领域得到了广泛应用,尤其在医学影像领域表现卓著。此文关注的是一个实际的医学问题——颅内出血(ICH)检测。在这一问题中,一个CT扫描被视为一个袋,而扫描的每个切片则是一个实例。如果至少有一个切片显示出血证据,那么整个扫描就被标记为阳性(患病);否则为...