品牌 资讯 搭配 材料 时尚 热点 行业 首饰 玉石 行情

环球最新:Stability AI连扔两个王炸!首个开源RLHF模型登基,DeepFloyd IF像素级出图

2023-04-30 17:00:04 来源:引领外汇网

开源先锋StabilityAI一天扔了两枚重磅炸弹:发布史上首个开源RLHF大语言模型,以及像素级图像模型DeepFloyd IF。开源社区狂喜!

编者按:本文来自微信公众号 新智元(ID:AI_era),编辑:Aeneas 好困,创业邦经授权转载

最近,大名鼎鼎的Stable Diffusion背后的公司,一连整了两个大活。


(资料图片)

首先,Stability AI重磅发布了世上首个基于RLHF的开源LLM聊天机器人——StableVicuna。

StableVicuna基于Vicuna-13B模型实现,是第一个使用人类反馈训练的大规模开源聊天机器人。

有网友经过实测后表示,StableVicuna就是目前当之无愧的13B LLM之王!

对此,1x exited创始人表示,这可以看作是自ChatGPT推出以来的第二个里程碑。

另外,Stability AI 发布了开源模型DeepFloyd IF,这个文本到图像的级联像素扩散模型功能超强,可以巧妙地把文本集成到图像中。

这个模型的革命性意义在于,它一连解决了文生图领域的两大难题:正确生成文字,正确理解空间关系!

秉持着开源的一贯传统,DeepFloyd IF在以后会完全开源。

Stailibity AI,果然是开源界当之无愧的扛把子。

StableVicuna

世上首个开源RLHF LLM聊天机器人StableVicuna,由Stability AI震撼发布!

一位Youtube主播对Stable Vicuna进行了实测,Stable Vicuna在每一次测试中,都击败了前任王者Vicuna。

所以这位Youtuber激动地喊出:Stable Vicuna就是目前最强大的 13B LLM模型,是当之无愧的LLM模型之王!

StableVicuna基于小羊驼Vicuna-13B模型实现, 是Vicuna-13B的进一步指令微调和RLHF训练的版本。

而Vicuna-13B是LLaMA-13B的一个指令微调模型。

从以下基准测试可以看出,StableVicuna与类似规模的开源聊天机器人在整体性能上的比较。

StableVicuna可以做基础数学题。

可以写代码。

还能为你讲解语法知识。

开源聊天机器人平替狂潮

Stability AI想做这样一个开源的聊天机器人,当然也是受了此前LLaMa权重泄露引爆的ChatGPT平替狂潮的影响。

从去年春天Character.ai的聊天机器人,到后来的ChatGPT和Bard, 都引发了大家对开源平替的强烈兴趣。

这些聊天模型的成功,基本都归功于这两种训练范式:指令微调和人类反馈强化学习 (RLHF)。

这期间,开发者一直在努力构建开源框架帮助训练这些模型,比如trlX、trl、DeepSpeed Chat和ColossalAI等,然而,却并没有一个开源模型,能够同时应用指令微调和RLHF。

大多数模型都是在没有RLHF的情况下进行指令微调的,因为这个过程十分复杂。

最近,Open Assistant、Anthropic 和 Stanford都开始向公众提供RLHF数据集。

Stability AI把这些数据集与trlX提供的RLHF相结合,就得到了史上第一个大规模指令微调和RLHF模型——StableVicuna。

训练过程

为了实现StableVicuna的强大性能,研究者利用Vicuna作为基础模型,并遵循了一种典型的三级RLHF管线。

Vicuna在130亿参数LLaMA模型的基础上,使用Alpaca进行调整后得到的。

他们混合了三个数据集,训练出具有监督微调 (SFT) 的Vicuna基础模型:

OpenAssistant Conversations Dataset (OASST1),一个人工生成的、人工注释的助理式对话语料库,包含 161,443条消息,分布在66,497个对话树中,使用35种不同的语言;

GPT4 All Prompt Generations,由 GPT-3.5 Turbo 生成的 437,605 个提示和响应的数据集;

Alpaca,这是由OpenAI的text-davinci-003引擎生成,包含52,000条指令和演示的数据集。

研究者使用trlx,训练了一个奖励模型。在以下这些RLHF偏好数据集上,研究者得到了SFT模型,这是奖励模型的基础。

OpenAssistant Conversations Dataset (OASST1),包含7213个偏好样本;

Anthropic HH-RLHF,一个关于AI助手有用性和无害性的偏好数据集,包含160,800个人类标签;

斯坦福人类偏好 (SHP),这是一个数据集,包含348,718个人类对各种不同回答的集体偏好,包括18个从烹饪到哲学的不同学科领域。

最后,研究者使用了trlX,进行近端策略优化 (Proximal Policy Optimization, PPO) 强化学习,对SFT模型进行了RLHF训练,然后,StableVicuna就诞生了!

据Stability AI称,会进一步开发StableVicuna,并且会很快在Discord上推出。

另外,Stability AI还计划给StableVicuna一个聊天界面,目前正在开发中。

相关演示已经可以在HuggingFace上查看了,开发者也可以在Hugging Face上下载模型的权重,作为原始LLaMA模型的增量。

但如果想使用StableVicuna,还需要获得原始LLaMA模型的访问权限。

获得权重增量和 LLaMA 权重后,使用GitHub存储库中提供的脚本将它们组合起来,就能得到StableVicuna-13B了。不过,也是不允许商用的。

DeepFloyd IF

在同一时间,Stability AI还放出了一个大动作。

你敢信,AI一直无法正确生成文字这个老大难问题,竟然被解决了?(基本上)

没错,下面这张「完美」的招牌,就是由StabilityAI全新推出的开源图像生成模型——DeepFloyd IF制作的。

除此之外,DeepFloyd IF还能够生成正确的空间关系。

模型刚一发布,网友们已经玩疯了:

prompt: Robot holding a neon sign that says "I can spell".

不过,对于prompt中没有明确说明的文字,DeepFloyd IF大概率还是会出错。

prompt:A neon sign of an American motel at night with the sign javilop

官方演示

下图可左右滑动查看更多

顺便一提,在硬件的需求上,如果想要实现模型所能支持的最大1,024 x 1,024像素输出,建议使用24GB的显存;如果只要256 x 256像素,16GB的显存即可。

是的,RTX 3060 16G就能跑。

代码实现:https://gist.github.com/Stella2211/ab17625d63aa03e38d82ddc8c1aae151

开源版谷歌Imagen

2022年5月,谷歌高调发布了自家的图像生成模型Imagen。

根据官方演示的效果,Imagen不仅在质量上完胜OpenAI最强的DALL-E 2,更重要的是——它能够正确地生成文本。

迄今为止,没有任何一个开源模型能够稳定地实现这一功能。

与其他生成式AI模型一样,Imagen也依赖于一个冻结的文本编码器:先将文本提示转换为嵌入,然后由扩散模型解码成图像。但不同的是,Imagen并没有使用多模态训练的CLIP,而是使用了大型T5-XXL语言模型。

这次,StabilityAI推出的DeepFloyd IF复刻的正是这一架构。

甚至在测试中,DeepFloyd IF凭借着COCO数据集上6.66的zero-shot FID分数,直接超越了谷歌的Imagen,以及一众竞品(包括自家Stable Diffusion)。

下一代图像生成AI模型

具体来说,DeepFloyd IF是一个模块化、级联的像素扩散模型。

模块化:

DeepFloyd IF由几个神经模块组成(可以解决独立任务的神经网络),它们在一个架构中相互协同工作。

级联:

DeepFloyd IF以多个模型级联的方式实现高分辨率输出:首先生成一个低分辨率的样本,然后通过连续的超分辨率模型进行上采样,最终得到高分辨率图像。

扩散:

DeepFloyd IF的基本模型和超分辨率模型都是扩散模型,其中使用马尔可夫链的步骤将随机噪声注入到数据中,然后反转该过程从噪声中生成新的数据样本。

像素:

DeepFloyd IF在像素空间工作。与潜在扩散模型(如Stable Diffusion)不同,扩散是在像素级别实现的,其中使用潜在表征。

上面这个流程图展示的就是,DeepFloyd IF三个阶段的性能:

阶段1:

基本扩散模型将定性文本转换为64x64图像。DeepFloyd团队已经训练了三个版本的基本模型,每个版本都有不同的参数:IF-I 400M、IF-I 900M和IF-I 4.3B。

阶段2:

为了「放大」图像,团队将两个文本条件超分辨率模型(Efficient U-Net)应用于基本模型的输出。其中之一将64x64图像放大到256x256图像。同样,这个模型也有几个版本:IF-II 400M和IF-II 1.2B。

阶段3:

应用第二个超分辨率扩散模型,生成生动的1024x1024图像。最后的第三阶段模型IF-III拥有700M参数。

值得注意的是,团队还没有正式发布第三阶段的模型,但DeepFloyd IF的模块化特性让我们可以使用其他上采样模型——如Stable Diffusion x4 Upscaler。

团队表示,这项工作展示了更大的UNet架构在级联扩散模型的第一阶段的潜力,从而为文本到图像合成展示了充满希望的未来。

数据集训练

DeepFloyd IF是在一个定制的高质量LAION-A数据集上进行训练的,该数据集包含10亿(图像,文本)对。

LAION-A是LAION-5B数据集英文部分的一个子集,基于相似度哈希去重后获得,对原始数据集进行了额外的清理和修改。DeepFloyd的定制过滤器用于删除水印、NSFW和其他不适当的内容。

目前,DeepFloyd IF模型的许可仅限于非商业目的的研究,在完成反馈的收集之后,DeepFloyd和StabilityAI团队将发布一个完全免费的商业版本。

参考资料:

https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

https://stability.ai/blog/deepfloyd-if-text-to-image-model

标签:

(责任编辑:new01)

相关文章

环球最新:Stability AI连扔两个王炸!首个开源RLHF模型登基,DeepFloyd IF像素级出图

​StabilityAI连扔两个王炸!首个开源RLHF模型登基,DeepFloydIF像素级出图,开源先锋StabilityAI一天扔了两枚

2023-04-30 17:00:04

世界热点评!河北单塔跨径最大斜拉桥主桥合龙!

​正在施工中的学府路东延跨太平河桥。4月29日,随着第16节钢箱梁拼装焊接完成,中铁二十局六公司施工的河北

2023-04-30 15:08:09

施工进度网络图双代号_施工进度网络图

​1、在保证网络逻辑关系正确的前提下,地图的布局要合理,层次要清晰,重点要突出。2、近距离工作应尽量安排

2023-04-30 14:00:36

“五一”假期有多火爆?首日成绩单出炉!多地景区实况也来了,沉浸式感受 “人从众”…… 世界新视野

​今年“五一”假期究竟有多火爆?首日成绩单陆续出炉,全国客流量暴增,多地开启“人从众”模式,消费市场大

2023-04-30 13:06:32

感恩节提前预热,献给每个人生命中最伟大的母亲!_天天报道

​这世界上,没有人比您更爱我;这世界上,也没有人能取代您在我心里的位置。因为有您,我的生活充溢着一份份

2023-04-30 11:55:49

压力机遇并存!恩比德伤情出炉 哈登迎自证良机 火箭有望成大赢家-视讯

​压力机遇并存!恩比德伤情出炉哈登迎自证良机火箭有望成大赢家,火箭,热火队,76人队,美国篮球,纽约尼克斯队,

2023-04-30 10:59:50

国家统计局:4月官方制造业PMI为49.2% 全球热闻

​【国家统计局:4月官方制造业PMI为49 2%】4月份,制造业采购经理指数(PMI)为49 2%,比上月下降2 7个百分

2023-04-30 10:21:39

石家庄解放纪念馆开馆

​当日,经过一年时间的改陈提升,河北石家庄解放纪念馆正式开馆。纪念馆展览分为“石门风雨路”“开国第一城

2023-04-30 09:51:09

长沙游客从火车站堵到地铁口_第一批游客把长沙堵紫了

​1、今天的长沙火力全开,正式进入了哪哪都是“人从众”模式。2、从28号晚上开始,第一批来长的游客已经从火

2023-04-30 08:48:34

今日快讯:五大白酒巨头一季度谁更醉人:茅台208亿净利居首,汾酒增速领跑

​五大白酒巨头一季度谁更醉人:茅台208亿净利居首,汾酒增速领跑,白酒,五粮液,洋河股份,泸州老窖,山西汾酒,

2023-04-30 07:17:30

惠州博罗“五一黄金周购房节”推出超600套特价房

​文、图 羊城晚报全媒体记者杨锦强通讯员范春莉4月29日,惠州博罗在天虹购物中心举办“五一黄金周购房节”,

2023-04-30 06:05:36

最新消息:云货优选怎么加入赚钱(云货优选怎么加入)

​1、直接打开云货优选的首页,选择商家入驻进行跳转。2、2、下一步弹出新的窗口,需要在图示位置点击立即开

2023-04-30 04:21:16

速看:雅思满分是多少分及格(雅思满分是多少分)

​1、雅思满分是多少分?雅思考试满分是9分,考试分为听力、阅读、写作、口语,四个部分。2、每部分满分为9分

2023-04-30 00:59:53

【环球播资讯】假小叶紫檀手串是什么做的_假小叶

​1、有的小叶紫檀新出货的时候是红色的,非常好看,拿在手里盘起来感觉非常细腻,随着时间越来越长,小叶紫

2023-04-29 22:49:39

耐热又耐寒的花卉有哪些 耐热又耐寒的花卉的品种推荐

​1、耐热又耐寒的花卉有:芝樱花、蜀葵、萱草花、常夏石竹、金银花、绣线菊、鸢尾、百日草、月季、凌霄花等

2023-04-29 21:44:54

天天热讯:603300华铁科技同化顺_603300华铁科技

​1、所属板块为保险板块,所属概念版块为金改板块。2、有问题可继续追问~。本文就为大家分享到这里,希望小

2023-04-29 20:40:55

这,就是小长假铁警第一天!

​今天是2023年4月29日2023年五一小长假就此开启全国铁警在岗在位在路上,也在心上平安护航,七万铁警守护前

2023-04-29 19:43:48

小米与AAC 瑞声科技成立相机联合实验室

​官方表示,实验室主要分为影像评估、相机马达分析、光学评测三个模块。影像评估模块为全自动化测试区域,主

2023-04-29 18:51:29

五一假期出游哪里热度高?来看大数据分析→

​我们现在在出游前,总是会打开各种App,搜一搜理想目的地的景点,预订门票。从搜索大数据看,旅游目的地热

2023-04-29 17:44:56

北京汇众联合劳务派遣有限公司_北京方智中立劳务派遣有限公司_天天通讯

​1、北京方智中立劳务派遣有限公司是2008-09-23在北京市海淀区注册成立的有限责任公司(自然人投资或控股),

2023-04-29 17:03:47

天天观点:百万级,常州“花”不完!

​晚春渐去,浅夏将临。走花路上下班的浪漫季节又来了。眼下,全城百万株月季已进入盛花期,大街小巷各色月季

2023-04-29 15:23:32

无心法师之一季免费观看全集,无心法师1免费版 高清-视焦点讯

​无心法师之一季免费观看全集国产剧无心法师之一季汉语普通话版全集高清免费在线观看,剧情简介逃婚离家出走

2023-04-29 14:41:54

新机:iPhone15这功能升级;华为P60有5G版了;荣耀新平板上架;天玑9200+跑分

​iPhone15最新信息据媒体报道,苹果公司目前并未开发MFi限制。报道还提到,两款iPhone15机型的最高充电功率

2023-04-29 13:53:43

kubernetes组件kube-apiserver介绍-世界聚看点

​Kubernetes是一种开源的容器编排平台,它可以自动化地部署、扩展和管理容器化应用程序。kube-apiserver是Ku

2023-04-29 12:44:30

中国天楹一季度净利润同比增长7.62%

​中证网讯(王珞)4月28日晚,中国天楹披露2023年一季报。报告期内,公司实现营收11 17亿元,同比下滑7 28%

2023-04-29 11:38:53

“五一”假期旅游市场活力十足 各地周密部署确保游客安全有序出游_全球热点

​据中央广播电视总台中国之声《新闻和报纸摘要》报道,“五一”假期,多地景区将迎来游客高峰,旅游市场持续

2023-04-29 10:59:17

今日热文:人民财评:流动的中国迸发强劲活力

​完成货运量118 7亿吨,同比增长5%;小客车出行量、营业性客运量同比增速均超25%;完成港口货物吞吐量38 5亿

2023-04-29 10:13:10

吉林医药学院2023年录取分数线是多少(吉林医药学院2023年最低录取分数线及位次排名是多少)

​吉林医药学院2022年录取分数线是多少?吉林医药学院最低多少分可以进?吉林本地和外省高三学生考吉林医药学

2023-04-29 09:32:04

在维护网络安全问题上,美国是彻底的伪君子 环球头条

​【人民日报钟声:在维护网络安全问题上,美国是彻底的伪君子】一次次窃听丑闻告诉世人,美国是网络战的始作

2023-04-29 08:12:03

前沿资讯!三角轮胎(601163)4月28日主力资金净卖出6525.25万元

​截至2023年4月28日收盘,三角轮胎(601163)报收于14 89元,上涨5 08%,换手率4 77%,成交量38 18万手,成交额5 6亿元。

2023-04-29 07:45:45