Huggingface大学

Hugging Face官方出品,这门课程将教你使用 Hugging Face 生态系统中的库进行自然语言处理(NLP)——Transformers、Datasets、Tokenizers 和 Accelerate,以及 Hugging Face Hub。课程完全免费且无广告。

体验Huggingface大学

这门课程将教你使用 Hugging Face 生态系统中的库进行自然语言处理(NLP)——Transformers、Datasets、Tokenizers 和 Accelerate,以及 Hugging Face Hub。课程完全免费且无广告。

期待什么?

以下是课程的简要概述:

课程章节的简要概述: 第 1 到 4 章介绍 Transformers 库的主要概念。在这部分课程结束时,你将熟悉 Transformer 模型的工作原理,并知道如何使用 Hugging Face Hub 上的模型,如何在数据集上进行微调,并分享你的结果到 Hub! 第 5 到 8 章教授 Datasets 和 Tokenizers 的基础知识,然后深入经典的 NLP 任务。在这部分结束时,你将能够独立处理最常见的 NLP 问题。 第 9 到 12 章超越 NLP,探索 Transformer 模型如何用于语音处理和计算机视觉任务。在此过程中,你将学习如何构建和分享模型的演示,并为生产环境优化它们。在这部分结束时,你将准备好将 Transformers 应用于(几乎)任何机器学习问题!

本课程:

  • 需要良好的 Python 知识

  • 最好在参加本课程之前学习过入门深度学习课程,例如 fast.ai 的《程序员的实用深度学习》或 DeepLearning.AI 开发的课程之一

  • 不要求具备 PyTorch 或 TensorFlow 的先前知识,尽管对这两者的某些熟悉程度会有所帮助

完成本课程后,我们建议你查看 DeepLearning.AI 的自然语言处理专业化课程,该课程涵盖了许多传统的 NLP 模型,如朴素贝叶斯和 LSTM,值得一学!

我们是谁?

关于作者:

Abubakar Abid 在斯坦福大学获得应用机器学习博士学位。在攻读博士学位期间,他创立了 Gradio,这是一种开源 Python 库,已被用于构建超过 600,000 个机器学习演示。Gradio 被 Hugging Face 收购,Abubakar 现在担任机器学习团队负责人。

Matthew Carrigan 是 Hugging Face 的机器学习工程师。他住在爱尔兰都柏林,之前曾在 Parse.ly 担任 ML 工程师,之前在都柏林三一学院担任博士后研究员。他不相信通过扩展现有架构可以实现 AGI,但对机器人不朽抱有很高的希望。

Lysandre Debut 是 Hugging Face 的机器学习工程师,自早期开发阶段以来一直在致力于 Transformers 库。他的目标是通过开发具有非常简单 API 的工具,使 NLP 对每个人都可访问。

Sylvain Gugger 是 Hugging Face 的研究工程师,也是 Transformers 库的核心维护者之一。此前,他是 fast.ai 的研究科学家,并与 Jeremy Howard 共同撰写了《程序员的深度学习》和《使用 fastai 和 PyTorch 的深度学习》。他的研究主要集中在使深度学习更易于访问上,通过设计和改进允许模型在有限资源上快速训练的技术。

Dawood Khan 是 Hugging Face 的机器学习工程师。他来自纽约,毕业于纽约大学,学习计算机科学。在作为 iOS 工程师工作几年后,Dawood 辞职与他的联合创始人一起创办了 Gradio。Gradio 最终被 Hugging Face 收购。

Merve Noyan 是 Hugging Face 的开发者倡导者,致力于开发工具和围绕这些工具构建内容,以使机器学习对每个人都可访问。

Lucile Saulnier 是 Hugging Face 的机器学习工程师,开发和支持开源工具的使用。她还积极参与许多自然语言处理领域的研究项目,如协作训练和 BigScience。

Lewis Tunstall 是 Hugging Face 的机器学习工程师,专注于开发开源工具并使其对更广泛的社区可访问。他还是 O’Reilly 书籍《使用 Transformers 的自然语言处理》的合著者。

Leandro von Werra 是 Hugging Face 开源团队的机器学习工程师,也是 O’Reilly 书籍《使用 Transformers 的自然语言处理》的合著者。他在将 NLP 项目投入生产方面拥有多年的行业经验,涉及整个机器学习堆栈。

常见问题

以下是一些常见问题的答案:

参加这门课程可以获得证书吗? 目前我们没有这门课程的任何证书。然而,我们正在为 Hugging Face 生态系统开发认证项目——敬请关注!

我应该在这门课程上花多少时间? 本课程中的每一章设计为在 1 周内完成,每周大约需要 6-8 小时的工作时间。然而,你可以根据自己的需要花费更多的时间来完成课程。

如果我有问题在哪里可以问? 如果你对课程的任何部分有问题,只需点击页面顶部的“提问”横幅,将自动重定向到 Hugging Face 论坛的相关部分: 链接到 Hugging Face 论坛 请注意,论坛上还提供了一份项目创意列表,如果你希望在完成课程后进行更多实践。

我在哪里可以获取课程的代码? 对于每个部分,请点击页面顶部的横幅,在 Google Colab 或 Amazon SageMaker Studio Lab 中运行代码: 链接到 Hugging Face 课程笔记本 包含课程所有代码的 Jupyter 笔记本托管在 huggingface/notebooks 仓库中。如果你希望在本地生成它们,请查看 GitHub 上课程仓库中的说明。

我如何为课程做贡献? 有许多方式可以为课程做贡献!如果你发现了错别字或错误,请在课程仓库中打开一个问题。如果你想帮助将课程翻译成你的母语,请查看此处的说明。

每种翻译的选择是什么? 每种翻译都有一个术语表和 TRANSLATING.txt 文件,详细说明了在机器学习术语等方面所做的选择。你可以在这里找到德语的示例。

我可以重用这门课程吗? 当然可以!该课程在宽松的 Apache 2 许可证下发布。这意味着你必须给予适当的信用,提供许可证的链接,并指明是否进行了更改。你可以以任何合理的方式这样做,但不能以任何方式暗示许可方支持你或你的使用。