您好,欢迎进入AG真人国际(中国)官方网站有限公司官网!

咨询热线:

020-88888888

Stable Diffusion一作携原班人马创业最强开源文生图模型易主!已获3200万美元融资

发布时间:2024-08-04 15:25人气:

  离职4个月后,他于今日官宣:自己成立了Black Forest Labs。

  Black Forest Labs专注于图像和视频等媒体的创新,推进生成式深度学习模型的发展。

  根据官网消息,文生图只是一个开始,后续还将发布视频生成模型,准备和Sora和Gen-3等产品过招。

  AI大神Karpathy也转发帖子宣传助力,并大赞FLUX.1性能优秀。

  期间他领导了全球著名文生图开源项目Stable Diffusion系列,这也是全球下载最多、使用最广的开源大模型之一。

  今年3月末,Stability AI因资金、运营等问题内部生变,联合创始人被罢免,而Robin也选择了离开。

  Black Forest Labs的核心信念是,让文生图模型开源,促进研究界和学术界的创新与合作,并且提高透明度。

  官博介绍,新模型在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了SOTA。

  - FLUX.1[pro]:FLUX.1的性能最佳版,提供最先进的图像生成,具有一流的提示词遵循能力、视觉质量、图像细节和输出多样性。

  直接从FLUX.1[pro]蒸馏而来,FLUX.1[dev]获得了类似的质量和提示词遵循能力,同时比同尺寸的标准模型更高效。

  - FLUX.1[schnell]:最快模型,适合本地开发和个人使用,schnell在德语中就是快的意思。

  所有公开的FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,并扩展到120 亿 (12B) 参数。

  通过基于流匹配 (flow matching) 来改进先前的扩散模型,这是一种通用且概念简单的训练生成式模型的方法。

  此外,通过引入旋转位置嵌入 (rotary positional embeddings) 和并行注意力层来提高模型性能和硬件效率。

  Black Forest Labs表示,将在不久的将来发布更详细的技术报告。

  FLUX.1是迄今为止最大的开源文本到图像模型,拥有120亿参数,可以提供与Midjourney相媲美的视觉效果,并且可能击败当前可用的无论是开源还是闭源模型。

  FLUX.1代表了图像合成领域的最新技术,模型和变体在各自的类别中都创造了新的标准。

  FLUX.1[pro] 和 [dev]在视觉质量、提示响应度(即模型对输入提示的准确理解和执行能力)、尺寸/宽高比可变性、排版和输出多样性,都超越了流行的模型,如Midjourney v6.0、DALL·E 3 (HD) 和SD3-Ultra。

  模型经过专门微调,以保留预训练阶段的全部输出多样性。与当前最先进的模型相比,FLUX.1也丝毫不输,具体内容如下所示。

  所有FLUX.1型号变体都支持各种宽高比和分辨率(0.1和2.0兆像素),如以下示例所示。

  提示1:手绘插图,一只巨大的蜘蛛在丛林中追逐一个女人,极其可怕,痛苦,黑暗和令人毛骨悚然的风景,恐怖,素描风格。

  FLUX.1展示了对光影明暗关系的出色运用,蜘蛛描绘出了锋利的腿和可怕的脸,人和蜘蛛的大小对比关系也符合提示中传达恐怖氛围的要求。

  Auraflow的青色调色给人一种怪异的感觉,但并没有完全满足「黑暗和令人毛骨悚然」的要求,蜘蛛的设计好像不那么可怕。

  SD3 Medium的黑白风格给人一种强烈的素描质感。蜘蛛的设计和纹理描绘细致,但四肢存在一些形态缺陷。

  提示2:一只狗站在电视上,屏幕上显示「解密」一词。左边是一个穿着西装的女人拿着一枚硬币,右边是一个机器人站在急救箱上。整体风景是超现实的。

  FLUX.1是最符合提示词要求的模型。构图均衡,出人意料的画面主体和配色增强了超现实的风格。问题是女人多出来了一只手,但这个版本最准确地捕捉了提示的本质。

  SD3 Medium理解了所有的元素,但也有一些变化——比如卡通风格和狗坐着而不是站着,在准确性方面介于FLUX.1和Auraflow之间。

  Auraflow对提示做了一些改动。狗在电视上,但不是站着,而是坐着,女人的造型复古,机器人是蓝色的底座,而不是急救箱,电视机上的单词也是错误的。

  提示3:一只弹钢琴的白猫,戴着墨镜和帽子,穿着紫色夏威夷风格,灰色工作室背景下的全身拍摄,商业视频截图。

  Midjourney对提示的解释捕捉到了场景的异想天开的特点,灯光柔和,有效地强调了纹理和颜色。

  不过,特写镜头偏离了提示中指定的「全身镜头」,背景也不是要求的灰色工作室设置。

  ag真人官方官网

  FLUX.1通过演奏钢琴的白猫的全身镜头捕捉了提示的所有元素,使提示更加符合提示。

  构图包含了猫的整个身体,确保所有指定的细节都呈现了出来,灯光和渲染执行得很好,突出了猫的姿势和整体场景。

  然而,虽然图像非常详细和准确,但它可能缺乏Midjourney特写镜头的表现力。(众所周知,Midjourney更注重审美而不是准确性)。

  原标题:《Stable Diffusion一作携原班人马创业,最强开源文生图模型易主!已获3200万美元融资》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。


020-88888888