云计算百科
云计算领域专业知识百科平台

蛋白质语言模型多标签膜蛋白类型预测DeepLoc 2.1

摘要

DeepLoc 2.0 是个流行的用于预测蛋白质亚细胞定位和分选信号的网络服务器。本文介绍了DeepLoc 2.1,除了上述预测外,还能将输入的蛋白质分类为跨膜蛋白、外周蛋白、脂锚定蛋白和可溶性蛋白等膜蛋白类型。该服务器利用预训练的基于transformer的蛋白质语言模型,采用3阶段架构进行基于序列的多标签预测。在严格同源分区构建的4,933个真核蛋白质序列测试集上与其他成熟工具的比较评估,DeepLoc 2.1 在性能上优于现有的模型,其中较大的 ProtT5 模型相比 ESM-1B 模型具有微小的优势。

https://services.healthtech.dtu.dk/services/DeepLoc-2.1

图片

网页服务器

图片

图1 网络服务器预测结果的示例展示。表格中所有结果都可在页面顶部下载为逗号分隔文件(CSV),其中包括亚细胞定位、膜蛋白类型和分选信号的预测结果。注意力图和注意力值可单独下载。预测的亚细胞定位、膜蛋白类型和分选信号标签会列出,并附有预测得分表。表格中预测的定位和膜蛋白类型以绿色高亮显示,颜色的深浅表示预测的确定性。如果没有任何得分超过阈值,则选择最接近其阈值的标签。类似标志的图中的高值表示序列中对亚细胞定位预测重要的区域,可能对应于分选信号。这只是一般性的指导,对于更深入和精确的分析,可以使用专门的工具如SignalP、TargetP或NetGPI。

数据

表1 保留测试集的组成

图片

结果和讨论

表2 DeepLoc 2.1模型、ESM-1B和ProtT5的性能指标

图片

表3 比较Mem-ADSVM服务器(一种基于同源性的4类膜关联性多标签预测器)与DeepLoc 2.1的MCC阈值优化模型的性能指标。测试集包含2014年后收录在UniProtKB数据库中的分区V中的803个样本。

图片

表4 比较MemPype服务器(一种针对具有3种膜关联性的真核蛋白质的单标签膜类型预测器)与DeepLoc 2.1的MCC阈值优化模型的性能指标。测试集包含分区V中的4431个样本,由真核单标签样本以及外周和可溶性类别的多标签阳性样本组成。

图片

表5 比较MemType-2L服务器(一种针对所有4种膜关联性的单标签预测器)与DeepLoc 2.1的MCC阈值优化模型的性能指标。测试集包含4,414个长度超过50个氨基酸的单标签序列。

图片

参考

[1] Nucleic Acids Res. 2024 Jul 5;52(W1):W215-W220. doi: 10.1093/nar/gkae237

注:AI辅助翻译,如有错误欢迎指出。请以复制粘贴,附上本号名片的方式转载此文。

赞(0)
未经允许不得转载:网硕互联帮助中心 » 蛋白质语言模型多标签膜蛋白类型预测DeepLoc 2.1
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!