Advertisement

iFeature: 一个全面的基于Python的工具包,用于生成蛋白质或肽序列的各种数字特征表示方案。

  •  5星
  •     浏览量: 0
  •     大小:None
  •      文件类型:None


简介:
iFeature是一款全面的Python工具包,专为生成蛋白质和肽序列的多种数字特征而设计,适用于生物信息学研究。 iLearnPlus — iFeature 和 iLearn 的更新版本现已发布(2021年2月28日)。 iLearnPlus 是首个同时具备图形界面和网页版的机器学习平台,能够构建自动化的机器学习管道,用于核酸与蛋白质序列的计算分析及预测。该平台集成了 21 种不同的机器学习算法(包括 12 种常见的分类方法、2 种集成学习框架以及7种深度学习技术)和 19 种主要的序列编码方案(共计提供 147 个特征描述符),数量超过目前所有用于生物序列分析工具。此外,iLearnPlus 的友好图形用户界面使得研究人员能够更便捷地进行实验操作,并显著提升了用户体验与效率。 作为一款面向学术研究目的的开源平台,iLearnPlus 提供了 iLearnPlus-Basic 模块以供访问使用。

全部评论 (0)

还没有任何评论哟~
客服
客服
  • iFeature: Python
    优质
    iFeature是一款全面的Python工具包,专为生成蛋白质和肽序列的多种数字特征而设计,适用于生物信息学研究。 iLearnPlus — iFeature 和 iLearn 的更新版本现已发布(2021年2月28日)。 iLearnPlus 是首个同时具备图形界面和网页版的机器学习平台,能够构建自动化的机器学习管道,用于核酸与蛋白质序列的计算分析及预测。该平台集成了 21 种不同的机器学习算法(包括 12 种常见的分类方法、2 种集成学习框架以及7种深度学习技术)和 19 种主要的序列编码方案(共计提供 147 个特征描述符),数量超过目前所有用于生物序列分析工具。此外,iLearnPlus 的友好图形用户界面使得研究人员能够更便捷地进行实验操作,并显著提升了用户体验与效率。 作为一款面向学术研究目的的开源平台,iLearnPlus 提供了 iLearnPlus-Basic 模块以供访问使用。
  • MSFragger:在组学中实现极速且段识别
    优质
    MSFragger是一款先进的质谱分析软件,专门设计用于蛋白质组学研究中的高速和高覆盖率肽段鉴定。 MSFragger 是一款用于基于质谱的蛋白质组学肽段鉴定的超快速数据库搜索工具,在各种数据集和应用中表现出色。适用于标准shotgun蛋白质组学分析及大型数据集(如timsTOF PASEF 数据),支持无酶限制搜寻、开放性数据库搜寻以及修饰肽鉴定,其Glyco模式能够识别N链与O链糖肽。MSFragger 使用跨平台的 Java 编程语言编写,并可通过三种方式使用:图形用户界面(GUI)、独立Java可执行文件(JAR)或命令行。该工具输出格式为表格和pepXML,便于与其他蛋白质组学分析管道集成。示例参数文件可在相关文档中找到。 MSFragger 支持多种仪器及文件格式,包括 mzML 和 mzXML 格式的数据输入。
  • EP-GBDT:信息预测必需计算
    优质
    简介:EP-GBDT是一种创新性的计算模型,通过利用序列信息有效预测细菌中的必需蛋白质。该方法结合梯度提升决策树算法,提升了预测准确性和效率,在生物学研究中具有重要应用价值。 乙交酯EP-GBDT是一种仅通过序列信息进行必需蛋白质预测的计算方法。使用该方法需要安装numpy版本1.18.1、scikit学习版本0.23.1以及imblearn版本0.7.0。 在GitHub项目中,我们提供了一个演示来展示如何使用EP-GBDT。原始数据文件夹包含用于必需蛋白质预测的原始蛋白质序列及其标签。此外,“加工的特征”文件夹提供了通过伪氨基酸组成(PseAAC)工具获得的处理过的蛋白质序列特征。“预测结果”文件夹则包含了基于8种中心方法得出的结果,包括原始PPI网络和每个中心方法产生的结果。 在演示中使用的data_h.pkl和data_y.pkl分别存储了由随机种子202010086生成的训练集与测试集。使用相同的随机种子可以确保您能够得到与本段落相同的研究成果。此外,我们还提供了一个名为train_main的python文件来指导如何进行操作。
  • GNNs-相互作研究
    优质
    本研究利用图神经网络(GNNs)技术深入探究蛋白质间的相互作用机制,旨在提升对复杂生物系统理解及药物设计效率。 探索图注意力网络(GAT)架构和图卷积网络(GCN)架构来对蛋白质-蛋白质相互作用数据集中的节点进行分类。在PyTorch中实现。 运行方法: 1. 安装requirements.txt文件中列出的依赖项。 2. 要运行训练脚本,请使用以下命令:python train.py --model_type= --input_dir= --output_dir=
  • RPCT:RAAC-PSSM进行分类预测
    优质
    RPCT是一款创新性的软件工具包,它采用RAAC-PSSM方法,精准高效地开展蛋白质分类与功能预测,助力生物信息学研究。 RPCT工具箱是基于RAAC-PSSM的蛋白质分类预测方法的专业软件包。它采用七种特征提取技术及SVM算法来进行蛋白质分类预测。 快速入门指南: RPCT 使用 Python 编写,推荐使用 conda 来管理 python 包环境,请确保安装了以下所有软件包:ray、sklearn 和 blast。 # 安装conda包 conda install package_name # 安装blast+ conda install -c bioconda blast 请将数据转换为 FASTA 格式。RPCT工具箱支持Windows和Linux平台。 在运行 RPCT 之前,请确认命令正确性: - 在 Windows 系统中,通过以下命令运行 RPCT: python RPCT_windows.py
  • 多项式M
    优质
    本研究提出了一种利用特征多项式高效生成M序列的方法,通过优化算法提高了随机数序列的周期长度与统计特性,适用于密码学和通信领域。 根据特征多项式生成对应的m序列。输入的特征多项式采用matlab通用的多项式表示方式。输出为一个m序列。
  • 据可视化软件
    优质
    本软件是一款专为蛋白质质谱数据分析设计的专业可视化工具,它能够高效处理和展示复杂的质谱数据,帮助研究人员快速准确地识别和分析蛋白质。 一种用于蛋白质质谱数据可视化的软件由荣双梅和苏忠城开发。质谱分析方法在蛋白质组学研究中被广泛应用。然而,不同类型的质谱仪产生的初始数据格式存在差异,这严重阻碍了对蛋白质的鉴定与定量研究。
  • Bio_Embeddings: 从提取嵌入
    优质
    Bio_Embeddings旨在开发创新算法,用于从大规模蛋白质序列数据中高效地学习和提取蛋白质嵌入表示。这种方法有望革新生物信息学与药物发现领域。 了解bio_embeddings的资源: 通过嵌入技术从序列快速预测蛋白质结构及功能。 阅读当前文档的相关内容。 与我们交流探讨:可以直接留言或联系项目团队成员进行深入讨论。 我们在ISMB 2020和LMRL 2020会议上介绍了bio_embeddings管道。您可以查阅相关资料了解更多信息。 查看管道配置文件,以获取更多细节。 项目目标: 通过提供单一、一致的界面以及接近零的学习门槛,促进基于语言模型的生物序列表示法在迁移学习中的应用; 可重复的工作流程 支持多种表示深度(不同实验室训练的不同模型,在不同的数据集上进行训练) 为用户处理复杂性问题(例如CUDA OOM抽象),并提供有据可查的警告和错误消息。 该项目包括: 基于生物学序列(如SeqVec,ProtTrans,UniRep等)上训练的开放模型的一般Python嵌入器; 一条管道:将序列转换成矩阵表示形式(每个氨基酸对应一个位置向量)或矢量表示形式(整个序列简化为单一向量),适用于后续机器学习模块。
  • Python含0和1随机
    优质
    本教程提供详细步骤与代码实例,展示如何使用Python生成由0和1组成的随机数组或列表,适用于数据分析及编程学习。 今天为大家分享一个关于如何使用Python生成包含0和1的随机数组或列表的例子。这个实例具有很好的参考价值,希望能对大家有所帮助。我们一起继续看下去吧。
  • 法利信息预测间相互作
    优质
    本研究提出了一种基于蛋白质序列的新方法,有效提升了蛋白质之间相互作用的预测准确性,为理解生命过程中的分子机制提供了有力工具。 蛋白质-蛋白质相互作用(PPI)在几乎所有细胞过程中都至关重要,包括代谢循环、DNA转录与复制以及信号级联反应。然而,用于识别这些相互作用的实验方法既耗时又成本高昂。因此,开发能够预测PPI的计算方法显得尤为重要。 本研究提出了一种仅依赖蛋白质序列信息来预测PPI的方法。该方法结合了极限学习机(ELM)这一创新的学习算法与一种新颖的局部蛋白质序列描述符表示法。这种局部描述符揭示了蛋白质序列中连续和不连续区域中的氨基酸相互作用,从而有助于从蛋白质序列中提取更多关于PPI的信息。 极限学习机是一种基于随机生成输入到隐藏单元权重并解析线性方程组以获得隐藏层至输出层的精确权值来实现快速准确分类的方法。在分析酿酒酵母(Saccharomyces cerevisiae)的PPI数据时,该方法达到了89.09%的预测精度、89.25%的灵敏度和88.96%的准确性。 通过广泛的实验比较了本研究提出的方法与现有的支持向量机(SVM)技术。结果显示,所提方法在预测PPI方面具有良好的前景,并可作为现有技术支持的有效补充手段。