Black Forest Labs开源图像生成模型Flux

图片来源:

BlackForestLabs

AI新创如雨后春笋般地出现，在8月1日正式发表的黑森林实验室（Black Forest Labs），于同一天推出了文字生成图像模型FLUX.1 ，并宣称其Elo积分凌驾了Stable Diffusion 3 Ultra、Ideogram、Midjourney 6.0及DALL·E 3。

图片来源／Black Forest Labs

Black Forest Labs共同创办人之一的Andreas Blattmann专精于潜在扩散（Latent Diffusion）技术，曾任职于Stability AI，迄今该团队已开发了多款用来生成图像及影片的模型，包括VQGAN（Vector Quantized Generative Adversarial Network）、潜在扩散及稳定扩散模型，以及支援快速与即时生成的对抗性扩散蒸馏（Adversarial Diffusion Distillation，ADD）技术。

除了已具备强大的模型基础之外，Black Forest Labs目前已完成3,100万美元的种子融资，主要由美国科技创投Andreessen Horowitz 领投，再加上许多天使投资人。

Black Forest Labs所打造的FLUX.1有3种版本，分别是FLUX.1 pro、FLUX.1 dev与FLUX.1 schnell，其中，FLUX.1 pro为商业版，可支援客製化企业解决方案，强调具备顶级的提示遵循、视觉品质、图像细节及多元化的输出。

至于FLUX.1 dev及FLUX.1 schnell皆为开源版，前者以指导蒸馏技术进行最佳化，并开放权重，仅限非商业使用；后者则是个精简模型，适用于本地开发与个人使用，採用Apache2.0 授权。

所有FLUX.1模型都支援不同的画面比例，以及自10万到200万画素的解析度，儘管现在只支援文字生成图像，但下一步就会进化到文字生成影像。使用者可透过不同的平台试用上述版本。

现阶段市场上既有的文字生成图像模型包括Stability AI的开源模型Stable Diffusion，OpenAI的DALL-E 3，DeepAI，Midjourney，Google Imagen，以及Artbreeder等。

CB科技站

Black Forest Labs开源图像生成模型Flux

与本文相关的文章