预训练的Transformer语言模型-ITADN社区

预训练的Transformer语言模型

优质

预训练的Transformer语言模型是基于自注意力机制的深度学习架构，广泛应用于自然语言处理任务中，通过大规模文本数据进行预训练以捕捉语义信息。 Transformer是一种预训练语言模型。

Swin Transformer预训练模型的参数

优质

Swin Transformer是一款先进的视觉Transformer模型，用于图像识别任务。本文将介绍其内部所使用的预训练模型及其关键参数配置。这段文字包含三个文件名：swin_base_patch4_window7_224.pth、swin_small_patch4_window7_224.pth 和 swin_tiny_patch4_window7_224.pth。

Vision-Transformer-PyTorch：包含预训练模型的Pytorch版Vision Transformer(...)

优质

Vision-Transformer-PyTorch项目提供了一个用PyTorch实现的视觉变换器（ViT）框架，并包含了多种预训练模型，适用于图像识别等任务。视觉变压器-火炬视觉变压器的Pytorch实现提供预先训练的pytorch权重，这些是从原始jax/亚麻权重转换而来的。这是与相关项目的合作成果，并介绍了论文中的PyTorch实施方法。我们提供了从预训练的jax/flax模型转化来的预训练pytorch权重。我们也提供了微调和评估脚本。安装环境：使用命令`conda create --name vit --file requirements.txt`创建新的虚拟环境，然后激活该环境以开始工作。可用模델包括多种视觉变压器模型，这些是从原始jax/flax wieghts转换而来的。您可以下载并将文件放在“weights/pytorch”下以使用它们；或者您也可以直接从我们这里获取并将其存放在“weights/jax”目录中以便于使用。我们会在线帮助用户进行权重的转化。支持的数据集目前包括ImageNet2012、CI等三个数据集。

ProtTrans: 提供先进蛋白质预训练的Transformer模型

优质

简介：ProtTrans是一种先进的基于Transformer架构的模型，专门用于蛋白质的预训练。它能够有效提升生物信息学领域中各类任务的表现，为药物设计和生物学研究提供强大支持。 ProtTrans 提供了最先进的蛋白质预训练模型，并通过使用数千个来自Summit的GPU以及各种Transformers模型中的Google TPU进行了培训。欲了解更多关于我们的工作，请查阅我们的论文。此存储库将定期更新，以支持生物信息学界，特别是我们SASAR项目在Covid-19研究方面的进展。目录： - 预言 - 蛋白质序列生成 - 可视化 - 基准测试 - 期望成绩 - 二级结构预测（第3季度） - 二级结构预测（Q8） - 膜结合与水溶性（Q2） - 亚细胞定位（Q10） - 社区和贡献 - 遇到问题？ - 发现错误？ - 特别要求 - 团队成员

最新的「基于Transformer的预训练模型」综述论文

优质

本文为最新综述性论文，全面总结了基于Transformer架构的预训练模型的发展历程、关键技术及应用现状，并展望未来研究方向。基于Transformer的预训练语言模型（T-PTLMs）在几乎所有的自然语言处理任务中都取得了巨大的成功。这些模型的发展始于GPT和BERT，并且建立在Transformer、自监督学习和迁移学习的基础上。基于转换的PTLMs通过自监督学习从大量文本数据中获取通用的语言表示，然后将这些知识应用到下游任务上。这使得它们为各种下游任务提供良好的先验知识，从而避免了需要对每个具体任务都进行从头开始训练的需求。

Hugging Face实战详解（NLP、Transformer、预训练模型、模型微调及PyTorch应用）——下篇：模型训练

优质

本篇文章深入讲解如何使用Hugging Face库进行自然语言处理任务，着重介绍基于Transformer架构的预训练模型的应用与微调，并详细阐述了利用PyTorch实现模型训练的具体方法。 Hugging Face实战（NLP实战/Transformer实战/预训练模型/分词器/模型微调/模型自动选择/PyTorch版本/代码逐行解析）下篇之模型训练。

YOLOv8语义分割预训练模型

优质

简介：YOLOv8是一款先进的语义分割预训练模型，专为实时目标检测和精确像素级分类设计，适用于多种场景下的图像分析与理解。 YOLOV8语义分割预训练模型提供了一种高效的方法来执行图像中的实例级像素分类任务。该模型在多个数据集上进行了广泛的实验，并取得了优异的性能表现，适用于多种场景下的实时应用需求。

基于BERT的知识蒸馏预训练语言模型-Demo

优质

基于BERT的知识蒸馏预训练语言模型-Demo 是一个利用知识蒸馏技术优化BERT模型性能的应用演示，旨在减少计算资源需求的同时保持或接近原模型的准确性。此Demo展示了如何通过转移大型预训练模型学到的知识到更小、更高效的模型中，为自然语言处理任务提供了一种有效的解决方案。本项目基于华为的TinyBert进行了改进，简化了数据读取的过程，使我们能够更方便地使用自己的数据进行操作。该项目的训练流程如下： 1. 使用通用的BERT base模型通过蒸馏技术得到一个基础的学生模型（student model）。 2. 利用特定任务的数据对BERT base模型进行微调，获得fine-tuned BERT base版本。 3. 采用步骤2中获得的模型继续进行蒸馏操作，生成fine-tuned学生模型。需要注意的是，在这一步骤中，需要使用第一步中的通用学生模型来初始化新的学生模型。 4. 使用（词向量loss + 隐层loss + attention loss）重复第三步的操作，并且在每次迭代时用上一次获得的学生模型重新初始化学生模型。 5. 最后加入任务的预测标签损失进行训练。

预训练模型在自然语言处理中的应用

优质

本研究探讨了预训练模型在自然语言处理领域的最新进展与应用，涵盖了文本理解、生成及各类任务优化。当前预训练模型在自然语言处理领域取得了显著的成功。本报告主要涵盖以下四个部分：1）介绍预训练模型的原理，包括其结构、学习准则及发展历程；2）探讨预训练模型的应用方法，具体涉及如何通过任务转换、多步迁移和改进精调等手段来提升预训练模型在各种下游任务上的性能。

GPT2-ML：涵盖多种语言的GPT2，包含已预先训练的模型。中文15亿参数预训练模型及多语言支持

优质

GPT2-ML是一个开源项目，提供多种语言版本的GPT2模型，并且已经完成了包括中文在内的多个语种的预训练工作，特别地，它包含了一个15亿参数规模的中文预训练模型。适用于多种语言的GPT2 | 简化的基于Grover的GPT2训练脚本（支持TPU） - 移植的bert令牌生成器，兼容多语言语料库 - 1.5B GPT2预训练中文模型（约30GB语料库，22万步）和1.5B GPT2预训练中文模型（约15GB语料库，10万步） - 包含电池的Colab演示 - 模型尺寸、语言及词汇链接信息如下： - 1.5B参数中文约30G 线索 (8021代币) - 1.5B参数中文 ~15GB BERT(21128代币) 使用Google Colab只需单击两次（不包括Colab身份验证过程），即可开始进行1.5B预训练的中文模型演示。免责声明：此存储库中的内容仅供学术研究之用，我们不提供任何结论性意见。引用时请参考文献 @misc{GPT2-ML}

是否确定退出登录?

预训练的Transformer语言模型

全部评论 (0)