Advertisement

基于GNNs的蛋白质-蛋白质相互作用研究

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
本研究利用图神经网络(GNNs)技术深入探究蛋白质间的相互作用机制,旨在提升对复杂生物系统理解及药物设计效率。 探索图注意力网络(GAT)架构和图卷积网络(GCN)架构来对蛋白质-蛋白质相互作用数据集中的节点进行分类。在PyTorch中实现。 运行方法: 1. 安装requirements.txt文件中列出的依赖项。 2. 要运行训练脚本,请使用以下命令:python train.py --model_type= --input_dir= --output_dir=

全部评论 (0)

还没有任何评论哟~
客服
客服
  • GNNs-
    优质
    本研究利用图神经网络(GNNs)技术深入探究蛋白质间的相互作用机制,旨在提升对复杂生物系统理解及药物设计效率。 探索图注意力网络(GAT)架构和图卷积网络(GCN)架构来对蛋白质-蛋白质相互作用数据集中的节点进行分类。在PyTorch中实现。 运行方法: 1. 安装requirements.txt文件中列出的依赖项。 2. 要运行训练脚本,请使用以下命令:python train.py --model_type= --input_dir= --output_dir=
  • 新方法利序列信息预测
    优质
    本研究提出了一种基于蛋白质序列的新方法,有效提升了蛋白质之间相互作用的预测准确性,为理解生命过程中的分子机制提供了有力工具。 蛋白质-蛋白质相互作用(PPI)在几乎所有细胞过程中都至关重要,包括代谢循环、DNA转录与复制以及信号级联反应。然而,用于识别这些相互作用的实验方法既耗时又成本高昂。因此,开发能够预测PPI的计算方法显得尤为重要。 本研究提出了一种仅依赖蛋白质序列信息来预测PPI的方法。该方法结合了极限学习机(ELM)这一创新的学习算法与一种新颖的局部蛋白质序列描述符表示法。这种局部描述符揭示了蛋白质序列中连续和不连续区域中的氨基酸相互作用,从而有助于从蛋白质序列中提取更多关于PPI的信息。 极限学习机是一种基于随机生成输入到隐藏单元权重并解析线性方程组以获得隐藏层至输出层的精确权值来实现快速准确分类的方法。在分析酿酒酵母(Saccharomyces cerevisiae)的PPI数据时,该方法达到了89.09%的预测精度、89.25%的灵敏度和88.96%的准确性。 通过广泛的实验比较了本研究提出的方法与现有的支持向量机(SVM)技术。结果显示,所提方法在预测PPI方面具有良好的前景,并可作为现有技术支持的有效补充手段。
  • Bio_Embeddings: 从序列提取嵌入
    优质
    Bio_Embeddings旨在开发创新算法,用于从大规模蛋白质序列数据中高效地学习和提取蛋白质嵌入表示。这种方法有望革新生物信息学与药物发现领域。 了解bio_embeddings的资源: 通过嵌入技术从序列快速预测蛋白质结构及功能。 阅读当前文档的相关内容。 与我们交流探讨:可以直接留言或联系项目团队成员进行深入讨论。 我们在ISMB 2020和LMRL 2020会议上介绍了bio_embeddings管道。您可以查阅相关资料了解更多信息。 查看管道配置文件,以获取更多细节。 项目目标: 通过提供单一、一致的界面以及接近零的学习门槛,促进基于语言模型的生物序列表示法在迁移学习中的应用; 可重复的工作流程 支持多种表示深度(不同实验室训练的不同模型,在不同的数据集上进行训练) 为用户处理复杂性问题(例如CUDA OOM抽象),并提供有据可查的警告和错误消息。 该项目包括: 基于生物学序列(如SeqVec,ProtTrans,UniRep等)上训练的开放模型的一般Python嵌入器; 一条管道:将序列转换成矩阵表示形式(每个氨基酸对应一个位置向量)或矢量表示形式(整个序列简化为单一向量),适用于后续机器学习模块。
  • PPI网络数据集
    优质
    PPI蛋白质互作网络数据集包含大量关于蛋白质之间相互作用的信息,有助于研究生物分子功能及疾病机制。 网络表示学习涉及使用ppi-class_map.json、ppi-feats.npy、ppi-G.json、ppi-walks.txt和ppi-id_map.json这些文件进行相关研究与分析。
  • 二级结构预测:机器学习-SS预测
    优质
    本研究聚焦于利用机器学习技术提升蛋白质二级结构(SS)预测精度。通过分析和建模氨基酸序列信息,开发高效准确的预测模型,促进生物信息学领域的发展与应用。 蛋白质二级结构预测可以通过分析其氨基酸序列来进行。首先将所有氨基酸序列合并,并采用20种不同类型的氨基酸及其对应的3个或8个二级结构(分别用E、H和t表示,或者使用另外的8类)。通过滑动窗口技术,在不同的窗口大小下进行处理:例如在21和13的位置上寻找中间位置的氨基酸作为目标结构。每个窗口中的每一个氨基酸都被转换成一个热编码,并且将所有这些单个热编码连接起来形成一个21x20矩阵,这被视为一种黑白图像输入给模型。 尝试了使用CNN、RNN、LSTM或GRU进行预测,但对精度的影响不大。基准测试的结果如下: - 预测3种二级结构:准确率为73% - 预测8种二级结构:准确率为52% 该研究依赖于一些特定的库和工具,包括火狐(Torch)、大熊猫、脾气暴躁的Matplotlib 和海生scikit学习。测试是在Python 3.8.3 x64环境下进行的。 此方法可以应用于不同的数据集以提高预测精度。
  • 数据集——portein.txt
    优质
    protein.txt是一个包含各种蛋白质相关信息的数据文件,包括氨基酸序列、结构特性等关键数据,为生物学和医学研究提供重要资源。 protein.txt是一个用制表符分隔的文本段落件,其中包含欧洲蛋白质消费数据(Protein Consumption in Europe)。该数据集提供了25个欧洲国家对9类食物的蛋白质消耗情况,由25行10列组成。每一行记录代表一个国家的蛋白质消费数据。
  • 现有描述符邻与重叠片段对提升序列分类效果论文
    优质
    本研究探讨了利用改进的蛋白质描述符——相邻与重叠片段对,以增强蛋白质序列分类准确性的方法和结果。 在蛋白质序列分类的研究领域里,广泛采用的方法是利用各种描述符(如k聚体组成的组成)将变化长度的蛋白质序列转化为固定长度的数值表示形式。这类位置无关的描述符非常有用,因为它们可以适用于任何长度的序列。然而,在这种转化过程中可能会丢失重要的子序列的位置信息,而这对于分类性能至关重要。 为了解决这个问题,我们采取了一种策略:先对原始序列进行分段处理,并计算每一段的数值特征。这种方法有助于部分引入位置信息(例如前部和后部片段中丝氨酸的比例)。通过一系列实验调整分割的数量以及重叠区域的长度,我们发现结合序列划分与特征选择的方法能够显著提升分类性能。 我们在三种不同的蛋白质分类问题上对这一方法进行了评估,并且在所有案例中都观察到了明显的改善效果。这些测试所使用的数据集均包含足够数量的不同氨基酸序列样本。我们的研究成果表明,在蛋白质序列分类中采用片段分析策略具有解决生物信息学领域其他类型序列问题的巨大潜力。
  • D-PPIN:动态网络数据集
    优质
    D-PPIN是涵盖多种生物条件下动态变化的蛋白质相互作用数据库,为研究蛋白质在不同生理状态下的功能提供了重要资源。 密码D-PPIN是一个动态网络数据集,包含12个不同的酵母细胞动态蛋白质-蛋白质相互作用网络。在每个动态网络(例如Krogan_LCMS)中,节点代表编码蛋白质的基因,边则表示特定时间点上的蛋白质间相互作用,并且每条边都带有相应的时间戳记(如node_u, node_v, 时间戳记, 权重)。构建D-PPIN的过程需要两个主要组件:首先是静态蛋白质-蛋白质相互作用网络;其次是该静态网络中每个蛋白随时间变化的基因表达值序列。通过分析这些主动和共表达的蛋白质,可以构造出动态网络。 简而言之,论文《Tu BP, Kudlicki A, Rowicka M, McKnight SL. 酵母代谢周期中的逻辑:细胞过程的时间间隔》提供了用于构建D-PPIN所需的静态网络及酵母瞬时基因表达数据。
  • 当前机器学习位点识别方法状况
    优质
    本篇文章综述了目前利用机器学习技术识别蛋白质相互作用位点的研究进展与挑战,旨在为未来相关领域的科研工作提供参考。 高通量实验技术正在不断革新系统生物学领域的研究方法。研究人员对这些新技术充满期待,并希望加以利用。然而,在蛋白质-蛋白质相互作用的平台中,生产和生物信息学方面面临着许多挑战。特别是在预测蛋白质相互作用位点时,特征提取、特征表示、预测算法和结果分析等问题日益凸显。开发一种能够基于蛋白质的一级序列或/和3D结构来推断其界面残基的强大且有效的预测方法,对于促进科学研究的进展及加快研究成果的发布至关重要。当前,利用机器学习的方法在预测蛋白质相互作用位点方面得到了广泛关注。本段落旨在概述当这些策略应用于推测蛋白质交互位置时的整体流程现状。
  • 无序结构预测方法.caj
    优质
    本文针对无序蛋白质的特性,探讨并分析了现有的几种主要结构预测方法,并提出了一种新的预测模型,以提高对无规蛋白序列的理解和功能预测。 论文探讨了将信号处理领域的知识应用于生物技术中的无序蛋白质结构预测方法的研究。