Advertisement

PPI蛋白质互作网络数据集

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
PPI蛋白质互作网络数据集包含大量关于蛋白质之间相互作用的信息,有助于研究生物分子功能及疾病机制。 网络表示学习涉及使用ppi-class_map.json、ppi-feats.npy、ppi-G.json、ppi-walks.txt和ppi-id_map.json这些文件进行相关研究与分析。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • PPI
    优质
    PPI蛋白质互作网络数据集包含大量关于蛋白质之间相互作用的信息,有助于研究生物分子功能及疾病机制。 网络表示学习涉及使用ppi-class_map.json、ppi-feats.npy、ppi-G.json、ppi-walks.txt和ppi-id_map.json这些文件进行相关研究与分析。
  • D-PPIN:动态的
    优质
    D-PPIN是涵盖多种生物条件下动态变化的蛋白质相互作用数据库,为研究蛋白质在不同生理状态下的功能提供了重要资源。 密码D-PPIN是一个动态网络数据集,包含12个不同的酵母细胞动态蛋白质-蛋白质相互作用网络。在每个动态网络(例如Krogan_LCMS)中,节点代表编码蛋白质的基因,边则表示特定时间点上的蛋白质间相互作用,并且每条边都带有相应的时间戳记(如node_u, node_v, 时间戳记, 权重)。构建D-PPIN的过程需要两个主要组件:首先是静态蛋白质-蛋白质相互作用网络;其次是该静态网络中每个蛋白随时间变化的基因表达值序列。通过分析这些主动和共表达的蛋白质,可以构造出动态网络。 简而言之,论文《Tu BP, Kudlicki A, Rowicka M, McKnight SL. 酵母代谢周期中的逻辑:细胞过程的时间间隔》提供了用于构建D-PPIN所需的静态网络及酵母瞬时基因表达数据。
  • ——portein.txt
    优质
    protein.txt是一个包含各种蛋白质相关信息的数据文件,包括氨基酸序列、结构特性等关键数据,为生物学和医学研究提供重要资源。 protein.txt是一个用制表符分隔的文本段落件,其中包含欧洲蛋白质消费数据(Protein Consumption in Europe)。该数据集提供了25个欧洲国家对9类食物的蛋白质消耗情况,由25行10列组成。每一行记录代表一个国家的蛋白质消费数据。
  • 基于GNNs的-用研究
    优质
    本研究利用图神经网络(GNNs)技术深入探究蛋白质间的相互作用机制,旨在提升对复杂生物系统理解及药物设计效率。 探索图注意力网络(GAT)架构和图卷积网络(GCN)架构来对蛋白质-蛋白质相互作用数据集中的节点进行分类。在PyTorch中实现。 运行方法: 1. 安装requirements.txt文件中列出的依赖项。 2. 要运行训练脚本,请使用以下命令:python train.py --model_type= --input_dir= --output_dir=
  • 新方法利用序列信息预测间相
    优质
    本研究提出了一种基于蛋白质序列的新方法,有效提升了蛋白质之间相互作用的预测准确性,为理解生命过程中的分子机制提供了有力工具。 蛋白质-蛋白质相互作用(PPI)在几乎所有细胞过程中都至关重要,包括代谢循环、DNA转录与复制以及信号级联反应。然而,用于识别这些相互作用的实验方法既耗时又成本高昂。因此,开发能够预测PPI的计算方法显得尤为重要。 本研究提出了一种仅依赖蛋白质序列信息来预测PPI的方法。该方法结合了极限学习机(ELM)这一创新的学习算法与一种新颖的局部蛋白质序列描述符表示法。这种局部描述符揭示了蛋白质序列中连续和不连续区域中的氨基酸相互作用,从而有助于从蛋白质序列中提取更多关于PPI的信息。 极限学习机是一种基于随机生成输入到隐藏单元权重并解析线性方程组以获得隐藏层至输出层的精确权值来实现快速准确分类的方法。在分析酿酒酵母(Saccharomyces cerevisiae)的PPI数据时,该方法达到了89.09%的预测精度、89.25%的灵敏度和88.96%的准确性。 通过广泛的实验比较了本研究提出的方法与现有的支持向量机(SVM)技术。结果显示,所提方法在预测PPI方面具有良好的前景,并可作为现有技术支持的有效补充手段。
  • 关键识别算法的研究——基于动态加权PPI.pdf
    优质
    本文探讨了一种新颖的关键蛋白质识别算法,该算法通过构建和分析动态加权蛋白质相互作用(PPI)网络来有效识别生物系统中的核心蛋白。研究为理解复杂生命过程提供了新视角。 与静态蛋白质-蛋白质相互作用(PPI)网络相比,动态PPI网络能更准确地反映蛋白质之间的实际交互情况,并有效减少假阴性结果。目前的关键蛋白预测方法主要基于静态PPI网络进行研究,忽略了这些网络的动态特性。为了精确预测关键蛋白,可以利用基因表达数据提取出蛋白质在不同时间点上的相互作用信息,结合传统的静态PPI网络构建一个更为全面和准确的动态PPI网络模型。 在此基础上引入GO(Gene Ontology)术语对这个新生成的动态网络进行加权处理,并提出了一种新的预测方法——DWE。该方法通过计算蛋白质在动态网络中所有边权重之和除以该蛋白在网络中的出现次数来衡量其关键性程度,即越重要的蛋白质,在整个相互作用过程中会表现出更高的平均交互强度。 实验结果显示,基于动态加权PPI网络的这种新策略能够显著提升对关键蛋白质预测的准确性,并且DWE方法在与其他几种主流的关键蛋白质预测模型对比中展现出更强的优势。
  • 组学的分析
    优质
    蛋白质组学数据分析是研究生物体内所有蛋白质组成、结构及功能的技术领域。它通过对大规模实验数据进行处理和解析,揭示生命过程中的关键分子机制。 蛋白质组学数据的分析涉及对生物体内所有蛋白分子进行系统性的研究。通过先进的技术手段和算法模型,研究人员能够全面了解特定条件下表达的所有蛋白质种类及其变化情况。这有助于深入理解生命过程中的各种生理及病理机制,并为疾病诊断、药物开发等领域提供重要的科学依据和技术支持。
  • 分析期末业:预测(Protein Prediction)
    优质
    本项目为数据分析课程期末作业,旨在通过机器学习算法预测蛋白质结构。我们收集并分析了大量生物化学数据,训练模型以提高对蛋白质功能和相互作用的理解。 数据分析作业:蛋白质预测。这是我的期末数据分析作业内容。
  • Bio_Embeddings: 从序列提取嵌入
    优质
    Bio_Embeddings旨在开发创新算法,用于从大规模蛋白质序列数据中高效地学习和提取蛋白质嵌入表示。这种方法有望革新生物信息学与药物发现领域。 了解bio_embeddings的资源: 通过嵌入技术从序列快速预测蛋白质结构及功能。 阅读当前文档的相关内容。 与我们交流探讨:可以直接留言或联系项目团队成员进行深入讨论。 我们在ISMB 2020和LMRL 2020会议上介绍了bio_embeddings管道。您可以查阅相关资料了解更多信息。 查看管道配置文件,以获取更多细节。 项目目标: 通过提供单一、一致的界面以及接近零的学习门槛,促进基于语言模型的生物序列表示法在迁移学习中的应用; 可重复的工作流程 支持多种表示深度(不同实验室训练的不同模型,在不同的数据集上进行训练) 为用户处理复杂性问题(例如CUDA OOM抽象),并提供有据可查的警告和错误消息。 该项目包括: 基于生物学序列(如SeqVec,ProtTrans,UniRep等)上训练的开放模型的一般Python嵌入器; 一条管道:将序列转换成矩阵表示形式(每个氨基酸对应一个位置向量)或矢量表示形式(整个序列简化为单一向量),适用于后续机器学习模块。
  • ProteinNet:结构机器学习的标准
    优质
    ProteinNet是一个专为蛋白质结构预测设计的大型标准机器学习数据集。它旨在推动基于深度学习的方法在这一领域的应用和研究。 蛋白质网ProteinNet是用于机器学习蛋白质结构的标准化数据集。它提供了蛋白质序列、结构以及多个序列比对、位置特定评分矩阵和标准化拆分。该数据库建立在两年期评估的基础上,通过针对最近解决但尚未公开获得的蛋白质结构进行盲测预测来推动计算方法的发展。ProteinNet被组织为一系列的数据集,涵盖了CASP 7至12(涵盖十年),从而可以在数据稀缺到丰富的不同环境中测试新方法的有效性。 请注意,这只是一个初步版本,并且用于构建这些数据集的原始资料和多序列比对信息尚未广泛提供。然而,根据需求可以获取ProteinNet 12的数据集中的原始MSA数据(4TB)。