PyTorch宣布推出PyTorch Hub,以提高机器学习研究的重现性
2019/06/11 20:02:14 来源:Linux公社 作者:醉落红尘

昨天,PyTorch团队宣布推出PyTorch Hub,这是一个简单的API和工作流程,提供了基本构建模块,以提高机器学习研究的可重现性。

重复性在研究中扮演着重要的角色,因为它是许多与研究相关的领域的基本要求,包括基于机器学习技术的领域。但大多数基于机器学习的研究出版物要么无法复制,要么难以复制。

随着研究出版物数量的增加,数以万计的论文在arXiv上发表并提交到会议上,研究重现性现在变得更加重要。尽管大多数出版物都附带了有用的代码和经过训练的模型,但是用户仍然很难自己理解大多数步骤。

PyTorch Hub由一个预先培训的模型存储库组成,该模型存储库旨在促进研究的重现性,并支持新的研究。它提供了对Colab的内置支持,与带有代码的论文集成,还包含了一组模型,包括分类和分割、转换器、生成等。通过添加一个简单的hubconf.py文件,它支持将预培训的模型发布到GitHub存储库中,GitHub存储库提供了一个要支持的模型列表和一个运行模型所需的依赖项列表。

例如,可以查看torchvision,huggingface-bert和gan-model-zoo存储库。考虑到torchvision hubconf.py的情况:在torchvision存储库中,每个模型文件都可以运行并且可以独立执行。除PyTorch之外,这些模型文件不需要任何包,它们不需要单独的入口点。

hubconf.py可以帮助用户根据GitHub页面上提到的模板发送拉取请求。

官方博客文章写道:“我们的目标是为研究再现性策划高质量,易于重复,最有益的模型。因此,我们可能会与您合作完善您的拉取请求,并在某些情况下拒绝发布一些低质量的模型。一旦我们接受您的拉取请求,您的模型很快就会出现在Pytorch中心网页上,供所有用户浏览。“

PyTorch Hub允许用户探索可用模型,加载模型以及了解任何给定模型可用的方法类型。下面提到的几个例子:

探索可用的入口点:

在torch.hub.list()API的帮助下,用户现在可以列出仓库中的所有可用入口点。 PyTorch Hub还允许辅助入口点与预训练模型(如bertTokenizer)相比,用于BERT模型中的预处理,并使用户工作流程更加平滑。

加载模型:

在torch.hub.load() API的帮助下,用户可以加载模型入口点。 此API还可以提供有关实例化模型的有用信息。

要了解有关此新闻的更多信息,请查看PyTorch的博客文章

Linux公社的RSS地址https://www.linuxidc.com/rssFeed.aspx

本文永久更新链接地址https://www.linuxidc.com/Linux/2019-06/159036.htm


10

本栏最新