在几秒钟内从文本中生成图像——而且是在没有超级计算机的情况下用传统的显卡完成的?这听起来很不可思议,但这是由新的稳定扩散AI模型实现的。底层算法由Björn Ommer教授(慕尼黑大学)领导的机器视觉和学习小组开发。
即使对没有艺术天赋、没有特殊计算知识和计算机硬件的外行来说,这种新模型也是一种有效的工具,可以让计算机根据命令生成图像。因此,这种模式消除了普通人表达创造力的障碍,但这对经验丰富的艺术家也有好处,他们可以使用稳定扩散快速转换新想法到各种图形草案。研究人员相信,这种基于人工智能的工具将能够扩大使用画笔和Photoshop进行创造性图像生成的可能性,就像基于计算机的文字处理彻底改变了钢笔和打字机的书写一样。
在他们的项目中,LMU的科学家们得到了初创公司Stability的支持。人工智能模型是在其服务器上训练的。这位计算机科学家说“这种额外的计算能力和额外的训练示例使我们的AI模型成为最强大的图像合成算法之一。”
数十亿训练图像的本质
该方法的一个特殊方面是,尽管训练模型具有强大的功能,但它仍然非常紧凑,可以在传统的显卡上运行,而且不需要像以前图像合成那样使用超级计算机。为此,人工智能将数十亿张训练图像的精华提炼成一个只有几gb大小的人工智能模型。
Ommer解释道,一旦这种人工智能真正理解了汽车的构成,或者艺术风格的典型特征,它就会准确地理解这些显著特征,理想情况下应该能够创造更多的例子,就像以前大师工作室的学生可以创作出相同风格的作品一样。为了实现LMU科学家的目标:让计算机学会如何看?也就是说理解图像的内容,这是又一大步,它进一步推进了机器学习和计算机视觉的基础研究。
经过训练的模型最近在“CreativeML Open RAIL-M”许可下免费发布,以促进该技术的进一步研究和更广泛的应用。博士研究员Robin Rombach说“我们很高兴看到用当前的模型将会建立什么,也很高兴看到开放、合作的研究工作将会产生什么进一步的工作。”