
Bio_Embeddings: 从蛋白质序列提取蛋白质嵌入
5星
- 浏览量: 0
- 大小:None
- 文件类型:ZIP
简介:
Bio_Embeddings旨在开发创新算法,用于从大规模蛋白质序列数据中高效地学习和提取蛋白质嵌入表示。这种方法有望革新生物信息学与药物发现领域。
了解bio_embeddings的资源:
通过嵌入技术从序列快速预测蛋白质结构及功能。
阅读当前文档的相关内容。
与我们交流探讨:可以直接留言或联系项目团队成员进行深入讨论。
我们在ISMB 2020和LMRL 2020会议上介绍了bio_embeddings管道。您可以查阅相关资料了解更多信息。
查看管道配置文件,以获取更多细节。
项目目标:
通过提供单一、一致的界面以及接近零的学习门槛,促进基于语言模型的生物序列表示法在迁移学习中的应用;
可重复的工作流程
支持多种表示深度(不同实验室训练的不同模型,在不同的数据集上进行训练)
为用户处理复杂性问题(例如CUDA OOM抽象),并提供有据可查的警告和错误消息。
该项目包括:
基于生物学序列(如SeqVec,ProtTrans,UniRep等)上训练的开放模型的一般Python嵌入器;
一条管道:将序列转换成矩阵表示形式(每个氨基酸对应一个位置向量)或矢量表示形式(整个序列简化为单一向量),适用于后续机器学习模块。
全部评论 (0)
还没有任何评论哟~


