商业模型

Stable Diffusion一作携原班人马创业最强开源文生图模型易主！已获3200万美元融资

发布时间：2024-08-04 15:25人气：

　　离职4个月后，他于今日官宣：自己成立了Black Forest Labs。

　　Black Forest Labs专注于图像和视频等媒体的创新，推进生成式深度学习模型的发展。

　　根据官网消息，文生图只是一个开始，后续还将发布视频生成模型，准备和Sora和Gen-3等产品过招。

　　AI大神Karpathy也转发帖子宣传助力，并大赞FLUX.1性能优秀。

　　期间他领导了全球著名文生图开源项目Stable Diffusion系列，这也是全球下载最多、使用最广的开源大模型之一。

　　今年3月末，Stability AI因资金、运营等问题内部生变，联合创始人被罢免，而Robin也选择了离开。

　　Black Forest Labs的核心信念是，让文生图模型开源，促进研究界和学术界的创新与合作，并且提高透明度。

　　官博介绍，新模型在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了SOTA。

　　- FLUX.1[pro]：FLUX.1的性能最佳版，提供最先进的图像生成，具有一流的提示词遵循能力、视觉质量、图像细节和输出多样性。

　　直接从FLUX.1[pro]蒸馏而来，FLUX.1[dev]获得了类似的质量和提示词遵循能力，同时比同尺寸的标准模型更高效。

　　- FLUX.1[schnell]：最快模型，适合本地开发和个人使用，schnell在德语中就是快的意思。

　　所有公开的FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构，并扩展到120 亿 (12B) 参数。

　　通过基于流匹配 (flow matching) 来改进先前的扩散模型，这是一种通用且概念简单的训练生成式模型的方法。

　　此外，通过引入旋转位置嵌入 (rotary positional embeddings) 和并行注意力层来提高模型性能和硬件效率。

　　Black Forest Labs表示，将在不久的将来发布更详细的技术报告。

　　FLUX.1是迄今为止最大的开源文本到图像模型，拥有120亿参数，可以提供与Midjourney相媲美的视觉效果，并且可能击败当前可用的无论是开源还是闭源模型。

　　FLUX.1代表了图像合成领域的最新技术，模型和变体在各自的类别中都创造了新的标准。

　　FLUX.1[pro] 和 [dev]在视觉质量、提示响应度（即模型对输入提示的准确理解和执行能力）、尺寸/宽高比可变性、排版和输出多样性，都超越了流行的模型，如Midjourney v6.0、DALL·E 3 (HD) 和SD3-Ultra。

　　模型经过专门微调，以保留预训练阶段的全部输出多样性。与当前最先进的模型相比，FLUX.1也丝毫不输，具体内容如下所示。

　　所有FLUX.1型号变体都支持各种宽高比和分辨率（0.1和2.0兆像素），如以下示例所示。

　　提示1：手绘插图，一只巨大的蜘蛛在丛林中追逐一个女人，极其可怕，痛苦，黑暗和令人毛骨悚然的风景，恐怖，素描风格。

　　FLUX.1展示了对光影明暗关系的出色运用，蜘蛛描绘出了锋利的腿和可怕的脸，人和蜘蛛的大小对比关系也符合提示中传达恐怖氛围的要求。

　　Auraflow的青色调色给人一种怪异的感觉，但并没有完全满足「黑暗和令人毛骨悚然」的要求，蜘蛛的设计好像不那么可怕。

　　SD3 Medium的黑白风格给人一种强烈的素描质感。蜘蛛的设计和纹理描绘细致，但四肢存在一些形态缺陷。

　　提示2：一只狗站在电视上，屏幕上显示「解密」一词。左边是一个穿着西装的女人拿着一枚硬币，右边是一个机器人站在急救箱上。整体风景是超现实的。

　　FLUX.1是最符合提示词要求的模型。构图均衡，出人意料的画面主体和配色增强了超现实的风格。问题是女人多出来了一只手，但这个版本最准确地捕捉了提示的本质。

　　SD3 Medium理解了所有的元素，但也有一些变化——比如卡通风格和狗坐着而不是站着，在准确性方面介于FLUX.1和Auraflow之间。

　　Auraflow对提示做了一些改动。狗在电视上，但不是站着，而是坐着，女人的造型复古，机器人是蓝色的底座，而不是急救箱，电视机上的单词也是错误的。

　　提示3：一只弹钢琴的白猫，戴着墨镜和帽子，穿着紫色夏威夷风格，灰色工作室背景下的全身拍摄，商业视频截图。

　　Midjourney对提示的解释捕捉到了场景的异想天开的特点，灯光柔和，有效地强调了纹理和颜色。

　　不过，特写镜头偏离了提示中指定的「全身镜头」，背景也不是要求的灰色工作室设置。

　　ag真人官方官网

　　FLUX.1通过演奏钢琴的白猫的全身镜头捕捉了提示的所有元素，使提示更加符合提示。

　　构图包含了猫的整个身体，确保所有指定的细节都呈现了出来，灯光和渲染执行得很好，突出了猫的姿势和整体场景。

　　然而，虽然图像非常详细和准确，但它可能缺乏Midjourney特写镜头的表现力。（众所周知，Midjourney更注重审美而不是准确性）。

　　原标题：《Stable Diffusion一作携原班人马创业，最强开源文生图模型易主！已获3200万美元融资》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

咨询热线：