ProteinNet是蛋白质结构机器学习的标准数据集。

5星

浏览量: 0

大小:None

文件类型：None

简介：
蛋白质网（ProteinNet）是一个经过标准化的数据集，旨在用于机器学习蛋白质的结构。该数据集包含蛋白质序列信息，以及其对应的结构数据，以及大量的序列比对结果，此外还提供了位置特定的评分矩阵，并采用了标准化的数据集划分方式。ProteinNet的构建基于对两年期间评估结果的运用，该评估过程模拟了对近期已解决但尚未公开的蛋白质结构进行盲目预测，从而为推动计算方法学的前沿研究提供了重要的测试集。为了提供多样化的评估环境，该数据集被组织成一系列不同规模的数据集，涵盖了CASP 7至12期间的数据（历时十年），使得研究人员能够在数据相对匮乏和数据充足的条件下对新方法进行评估。值得注意的是，目前这是一个初步的版本；同时，用于构建该数据集的原始数据以及MSA（多序列比对）数据尚未得到广泛的公开共享。不过，对于有需要的用户，可以按要求获取ProteinNet 12的原始MSA数据（容量为4TB）。

全部评论 (0)

还没有任何评论哟~

客服

ProteinNet：蛋白质结构机器学习的标准数据集

优质

ProteinNet是一个专为蛋白质结构预测设计的大型标准机器学习数据集。它旨在推动基于深度学习的方法在这一领域的应用和研究。蛋白质网ProteinNet是用于机器学习蛋白质结构的标准化数据集。它提供了蛋白质序列、结构以及多个序列比对、位置特定评分矩阵和标准化拆分。该数据库建立在两年期评估的基础上，通过针对最近解决但尚未公开获得的蛋白质结构进行盲测预测来推动计算方法的发展。ProteinNet被组织为一系列的数据集，涵盖了CASP 7至12（涵盖十年），从而可以在数据稀缺到丰富的不同环境中测试新方法的有效性。请注意，这只是一个初步版本，并且用于构建这些数据集的原始资料和多序列比对信息尚未广泛提供。然而，根据需求可以获取ProteinNet 12的数据集中的原始MSA数据（4TB）。

Python-用于蛋白质结构机器学习的标准化数据集

优质

本数据集提供了一系列标准化的蛋白质结构数据，旨在促进基于机器学习的方法研究与发展，特别适用于Python环境下的科学计算与模型训练。用于机器学习蛋白质结构的标准化数据集。

蛋白质二级结构预测：基于机器学习的蛋白质-SS预测

优质

本研究聚焦于利用机器学习技术提升蛋白质二级结构（SS）预测精度。通过分析和建模氨基酸序列信息，开发高效准确的预测模型，促进生物信息学领域的发展与应用。蛋白质二级结构预测可以通过分析其氨基酸序列来进行。首先将所有氨基酸序列合并，并采用20种不同类型的氨基酸及其对应的3个或8个二级结构（分别用E、H和t表示，或者使用另外的8类）。通过滑动窗口技术，在不同的窗口大小下进行处理：例如在21和13的位置上寻找中间位置的氨基酸作为目标结构。每个窗口中的每一个氨基酸都被转换成一个热编码，并且将所有这些单个热编码连接起来形成一个21x20矩阵，这被视为一种黑白图像输入给模型。尝试了使用CNN、RNN、LSTM或GRU进行预测，但对精度的影响不大。基准测试的结果如下： - 预测3种二级结构：准确率为73% - 预测8种二级结构：准确率为52% 该研究依赖于一些特定的库和工具，包括火狐（Torch）、大熊猫、脾气暴躁的Matplotlib 和海生scikit学习。测试是在Python 3.8.3 x64环境下进行的。此方法可以应用于不同的数据集以提高预测精度。

蛋白质数据集——portein.txt

优质

protein.txt是一个包含各种蛋白质相关信息的数据文件，包括氨基酸序列、结构特性等关键数据，为生物学和医学研究提供重要资源。 protein.txt是一个用制表符分隔的文本段落件，其中包含欧洲蛋白质消费数据（Protein Consumption in Europe）。该数据集提供了25个欧洲国家对9类食物的蛋白质消耗情况，由25行10列组成。每一行记录代表一个国家的蛋白质消费数据。

蛋白质组学数据的分析

优质

蛋白质组学数据分析是研究生物体内所有蛋白质组成、结构及功能的技术领域。它通过对大规模实验数据进行处理和解析，揭示生命过程中的关键分子机制。蛋白质组学数据的分析涉及对生物体内所有蛋白分子进行系统性的研究。通过先进的技术手段和算法模型，研究人员能够全面了解特定条件下表达的所有蛋白质种类及其变化情况。这有助于深入理解生命过程中的各种生理及病理机制，并为疾病诊断、药物开发等领域提供重要的科学依据和技术支持。

PPI蛋白质互作网络数据集

优质

PPI蛋白质互作网络数据集包含大量关于蛋白质之间相互作用的信息，有助于研究生物分子功能及疾病机制。网络表示学习涉及使用ppi-class_map.json、ppi-feats.npy、ppi-G.json、ppi-walks.txt和ppi-id_map.json这些文件进行相关研究与分析。

蛋白质二级结构的预测方法

优质

蛋白质二级结构预测是生物信息学中的重要课题，它通过分析氨基酸序列来预测蛋白质链的空间构象。此研究对于理解蛋白质功能至关重要。通过平衡数据集可以提高蛋白质二级结构预测的准确性。

D-PPIN：动态的蛋白质互作网络数据集

优质

D-PPIN是涵盖多种生物条件下动态变化的蛋白质相互作用数据库，为研究蛋白质在不同生理状态下的功能提供了重要资源。密码D-PPIN是一个动态网络数据集，包含12个不同的酵母细胞动态蛋白质-蛋白质相互作用网络。在每个动态网络（例如Krogan_LCMS）中，节点代表编码蛋白质的基因，边则表示特定时间点上的蛋白质间相互作用，并且每条边都带有相应的时间戳记（如node_u, node_v, 时间戳记, 权重）。构建D-PPIN的过程需要两个主要组件：首先是静态蛋白质-蛋白质相互作用网络；其次是该静态网络中每个蛋白随时间变化的基因表达值序列。通过分析这些主动和共表达的蛋白质，可以构造出动态网络。简而言之，论文《Tu BP, Kudlicki A, Rowicka M, McKnight SL. 酵母代谢周期中的逻辑：细胞过程的时间间隔》提供了用于构建D-PPIN所需的静态网络及酵母瞬时基因表达数据。

MaxQuant蛋白质组学检索软件及数据库

优质

简介：MaxQuant是一款高效的蛋白质组学数据分析工具，用于从质谱数据中识别和定量蛋白质。结合丰富多样的数据库资源，它能够支持大规模蛋白组研究项目的需求。 MaxQuant是一款先进的免费软件包，专门用于分析大型质谱数据集的定量蛋白质组学研究。它特别适用于高分辨率MS数据分析，并支持多种定量标记技术和非标定量方法。

Bio_Embeddings: 从蛋白质序列提取蛋白质嵌入

优质

Bio_Embeddings旨在开发创新算法，用于从大规模蛋白质序列数据中高效地学习和提取蛋白质嵌入表示。这种方法有望革新生物信息学与药物发现领域。了解bio_embeddings的资源：通过嵌入技术从序列快速预测蛋白质结构及功能。阅读当前文档的相关内容。与我们交流探讨：可以直接留言或联系项目团队成员进行深入讨论。我们在ISMB 2020和LMRL 2020会议上介绍了bio_embeddings管道。您可以查阅相关资料了解更多信息。查看管道配置文件，以获取更多细节。项目目标：通过提供单一、一致的界面以及接近零的学习门槛，促进基于语言模型的生物序列表示法在迁移学习中的应用；可重复的工作流程支持多种表示深度（不同实验室训练的不同模型，在不同的数据集上进行训练）为用户处理复杂性问题（例如CUDA OOM抽象），并提供有据可查的警告和错误消息。该项目包括：基于生物学序列（如SeqVec，ProtTrans，UniRep等）上训练的开放模型的一般Python嵌入器；一条管道：将序列转换成矩阵表示形式（每个氨基酸对应一个位置向量）或矢量表示形式（整个序列简化为单一向量），适用于后续机器学习模块。