MetaAI并不避讳谈论OPT—175B大模型面临的问题更容易产生有毒语言

发布时间：2022-05-10 19:45

编辑:顾晓芸

来源:IT之家

字体：大中小阅读量：11534

感谢本站网友三库的线索传递！

拥有数千亿参数的大型AI模型居然能拿到代码。！

一觉醒来，AI圈发生了一件轰动的事情:Meta AI开放了一个大语言模型OPT—175B，它称重了1750亿个参数不仅参数小于GPT—3的3750亿，而且效果一点也不输给GPT—3

这意味着人工智能科学家终于可以撬开像GPT—3这样的大模型，看看里面有什么秘密之前GPT—3很厉害但是不够开放，源代码独家授权给微软就连马斯克也批评OpenAI不够开放

虽然论文在那里，但是如果你想对它做进一步的研究，你得先复制它这一次，Meta从完整的模型开放到训练代码和部署代码甚至有人在官方公布之前就动了还没上传的GitHub仓库

其他Aite OpenAI试图领导战争:

那么，元模型有什么特点，如何实现绿色低能耗，为什么要对外开放让我们看一看

可以用16 V100跑。

OPT open预训练transformer语言模型的全称是开放式预训练Transformer语言模型和GPT相比，名字直接把生财改成开放，可以说是很有内涵了

Meta AI解释说OPT是为了开放代码而运行的为了让更多的人学习大模型，环境配置一定要尽量经济不会，运行时产生的碳足迹不到GPT—3的1/7，节能高效为了方便研究人员，Meta AI开发了各种规模的OPT模型，从125M参数到1750亿参数不等

那么，最大的OPT—175B机型效率如何，又是如何做到的呢。

在性能方面，Meta AI用OPT—175B和GPT—3的14个NLP任务进行了测试结果表明，无论是零样本学习还是多镜头学习，OPT在这些任务中的平均准确率与GPT—3相似

左为零样本学习，右为多样本学习。

看具体任务。在对话任务中，OPT—175B采用无监督学习进行训练，效果类似于监督学习训练的几种模型:

仇恨言论检测任务的效果完全优于达芬奇版本的GPT—3模型:

在训练硬件方面，Meta AI使用992个NVIDIA A100 GPU训练OPT，每个GPU的平均计算效率可以达到147 TFLOP/s。

这个效率甚至比英伟达自己的研究人员用的还要高，大概在17%以上Meta AI透露，一方面，它采用了自己的GPU内存节省工具，名为FSDP，使得大规模训练的速度比传统方法快了5倍左右，另一方面，他们还借鉴了英伟达威震天—LM模型的张量并行方法，将一个操作分配给多个处理器同时执行甚至Meta AI表示，训练和部署OPT—175B模型只需要16个NVIDIA V100 GPU

有网友迫不及待的想要一试:

当然，Meta AI并不避讳谈论OPT—175B大模型面临的一些问题，比如更容易产生有毒语言:

研究人员表示，希望开放后，有更多的人参与研究，真正解决这些问题。

教你如何复制GPT—3。

如上所述，这个300亿参数及以下的OPT模型系列可以直接下载，660亿版本还在路上只有完整的1750亿版需要额外填写一份申请表，包括工作单位，目的，相关出版工作等问题

Metaseq是一个用于培训和部署的代码工具包，发布在GitHub上，附带教程和文档作为著名的fairseq工具包的一个分支，metaseq专注于1750亿个大规模模型，去除了不必要的部分用于训练和使用大模型

也有很多开发者特别关注一个与模型和代码同时发布的藏宝——开发日志详细记录了Meta团队在开发大型模型的过程中遇到的问题，解决方案以及决策的依据

为Pytorch诞生之前就存在的机器学习研究中的一系列痛点和困惑提供了大昌解决方案的第一手数据。

这样的开放程度可以说是史无前例，自然也获得了不少好评例如，也在从事开源大模型项目的HuggingFace首席科学家Thomas Wolf

但还是有人怀疑1750亿参数版是否需要应用。

我不是学者或从业者，他们会接受我的申请吗。

一些开发者还建议Meta提供一些类似OpenAI的演示如果看到效果，会更愿意参与研究和改进否则，仅仅构建一个开发环境将会非常令人沮丧