
ProteinNet是蛋白质结构机器学习的标准数据集。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
蛋白质网(ProteinNet)是一个经过标准化的数据集,旨在用于机器学习蛋白质的结构。该数据集包含蛋白质序列信息,以及其对应的结构数据,以及大量的序列比对结果,此外还提供了位置特定的评分矩阵,并采用了标准化的数据集划分方式。ProteinNet的构建基于对两年期间评估结果的运用,该评估过程模拟了对近期已解决但尚未公开的蛋白质结构进行盲目预测,从而为推动计算方法学的前沿研究提供了重要的测试集。为了提供多样化的评估环境,该数据集被组织成一系列不同规模的数据集,涵盖了CASP 7至12期间的数据(历时十年),使得研究人员能够在数据相对匮乏和数据充足的条件下对新方法进行评估。值得注意的是,目前这是一个初步的版本;同时,用于构建该数据集的原始数据以及MSA(多序列比对)数据尚未得到广泛的公开共享。不过,对于有需要的用户,可以按要求获取ProteinNet 12的原始MSA数据(容量为4TB)。
全部评论 (0)
还没有任何评论哟~


