海杰「指令投喂与数据劳工」

2023-10-21 18:01:50.953　来源: 蚂蚁摄影作者：海杰

海报设计：二姑娘
图文整理：潘晓静

非常感谢令胡歌老师以及设计海报的志愿者，感谢蚂蚁隔壁班，让我有机会能够在这个平台分享我做AI的一些体会。其实也说不上有什么样特别的见解，只能说是通过今晚上我分享的一些我自己做AI生成的案例，来跟大家聊一下我在使用这样的一个生成器在生成图像的过程中所获得的体会，所以在讲得不当的地方，还请大家完了之后多批评。

今晚题目叫“指令投喂与数据劳工”，前面一个指的是技术层面的，就是所有的使用者不断的通过自己的想象或者对想象的一种压榨，对AI数据库进行投喂，在算法的基础上，能够形成适合自己的口味的一个频道或习性。另外“数据劳工”，其实是从政治经济学的角度来谈一下，就是我们这些使用者本质上在AI过程中扮演了什么样的角色，就是它里面关于时间的一个付出，在多大程度上是一个有意义的一个付出。

我在自己的公众号里面推送的第一篇关于AI图像的文章里面，就谈到了“关键词”的作用。比如说当AI生成图像的时候，关键词就是烽火台。我们知道，在古代的战争里面传递消息，都是使用“烽火台”这种古老的形式，这些烽火台特别像关键词的作用。在AI图像的生成过程里，关键词就是扮演着这样的一个驿站或烽火台的作用，用来传递消息、传递指令，最终生成图像。其实我用这种比喻，也在说明关键词就是AI图像里面的一个核心的串联方式。

既然是涉及到关键词的一些串联方式，那必然会涉及到一些关键词的组合，也就是说通过串联，然后进行编织的一个作业方式。很多人都有使用过AI生成器的一些体会，就是当你在生成图像的时候，你输入的各种关键词或指令，都会通过串联的方式，通过底层数据编织的方式，最终形成每个人所要的图像。

AI图像的生成方式，它跟摄影和跟其他的媒介不同的一点在于，它本身就是靠文字来生成的，它就由文字开启，它没有拍摄对象，没有一个出去行走的概念，也没有一些在暗房里工作的习惯，这完全是在电脑前坐着调动自己的想象，然后去跟数据进行对接，人机共创这样的一个作业的方式。所以说文字开启图像的模式，本身是具有革命性的一个方式。

我们在生成器里面，尤其是Midjourney上面，我们可以看到当你在指令框里面打出一个斜杠的时候，它会出现一个“image”的界面，也就是所有这样的指令输入方式，都是通过想象来达成的，这些想象都是针对自己大脑里的一些碎片，然后通过文字进行调动，那么文字调动的是记忆和经验，无非是这两方面的内容，每个人的记忆几乎都是不完整的，都是碎片，这非常符合AI底层数据的形态，因为AI底层数据都是一些经过标记的碎片。

经验是我们后天习得的一些东西，比如说我们的成长经验和视觉经验，成长经验就是我们的生活经验，我们每个人的成长，都会形成一个成长的地理，一种文化地理。比如说，我是在西北长大，那我的成长地貌可能跟荒野的东西有关，它不像南方生活的人们，有那么多丰富的元素。而视觉经验跟我们后天的阅读，与艺术史，或者与图像获取的经验有关，这里面包括很多的审美，都是来自视觉经验。很多人觉得说AI挺魔幻，像魔术一样，只要谁输入指令，都能生成一些看起来完美的图像，但是我们会发现，不管什么样人做的什么样的图像，它都是自己内心的一个镜像。所以从这角度来说，我觉得这里面的主体性还是在的，就是每个作者的审美，他所有生成的逻辑，在图像里面都有一定的反应。

当有人在没有使用AI的时候，他很容易武断的说“AI很像傻瓜相机”，觉得傻瓜相机可能就是只要你按动快门，其他别人都帮你解决了。我觉得也不尽然如此，因为没有凭空生成的图像。如果你没有输出一定指令，没有一定的文字的触发，那底层的数据不会去感应，不会对你所做的任何的指令有任何的回馈和反应。所以也没有不劳而获的AI图像，它并不像傻瓜相机那样，甚至说它可能更考验你的描述能力，你的想象力，以及你对整个技术语言的理解力。

在今年3月份的时候，我开始使用AI生成软件，做了好多图，开始去体验生成的过程，就是生成的作者在里面扮演一个什么样的角色，所以我就提出这样的概念，叫“训图师”，就像马戏团驯兽师一样，这里面有大量的投喂。需要大量基础的数据的铺垫，计算机才能够捕捉到你的喜好和倾向。那这样的话，它才能够投其所好。

所谓的“训图”，就是说尝试重复指令，或者说，微调局部指令来使图像碎片的意义的角度发生轻微的位移，最终达成生成的准确性。就是你有时候输入一个指令的时候，它可能生成的四张图片不是特别的好，所以你可以不断的刷新，刷新到一定程度，你还觉得不满意的话，那你就得调整你的指令，然后重新去输入，只有这样的话，才能够不断的去生成自己需要的一些图像。我在最初的时候，花了大量的时间，我几乎在每一天都要花去八到十个小时，才做出比较满意的图像，也差不多就是一两张。

所以说这中间，其实有大量的图像废墟的存在，我们中间取的那只是其中的很小很小的一部分。另外，就是很多人在不断的对新技术抱有抵触的时候，他们通常都会诟病AI图像的塑料感，认为这个东西太假了。我们在说出这样一种观点的时候，其实已经是陷入到一个旧的技术更迭的逻辑里面去的，就像当初绘画迷恋者者在反对摄影的时候，比如说像波德莱尔，他认为摄影只是工业，“闯入艺术的工业成了艺术的死敌”。在数码摄影出现以后，很多人认为数码摄影本身锐度太高，而且太虚假，但现在我们看数码摄影几乎人人都在用。所以说我认为塑料感本身就是AI图像的基本美学，因为它是靠渲染，靠一个个数据的堆叠，然后形成的新的图像。所以它本身就是机器运算的结果，尽管它使用了人的一些指令，但是它基本的操作过程都是在机器上完成的。

另外，很多人面对AI时还是带着一种人文主义的态度，他根据人文主义那种需求，去要温度，对媒介要有这样的一个理想要求。我认为这可能要求过于高了，因为你跟AI本身要温度的话，你还不如跟作者要温度，因为AI本身只是一个媒介。

或者说AI只是一个中介，它是一个服务者，一个工具，像接受订单一样的接受指令，所以说要温度的话，你可以去问使用生成器的作者，你可以看他的作品里面有没有什么样的温度。所以就像你跟数码摄影要银盐颗粒一样，这本身不符合媒介的特征。

这是我比较早生成的一张图像，我们可以看到一个穿着黄色衣服的时尚的女性走在沙漠里面，然后头顶着一顶大帽子，其实我输入的指令大概是，一个中国的时尚女性在沙漠里面行走，头顶上是一个飞碟。可能是我英语输入的时候翻译有问题，程序在理解的时候，给我嫁接了这样的一个像碟子一样的帽子。我觉得这样一个东西，本身跟我的指令是有出入的，但是我后来还是接受了他这样的一种比较搞笑的图像的样式。

如果我们把大数据比作海洋的话，数据它有很多触须的，像那些海洋生物。所有的图像，包括绘画或者插图，动漫或者摄影，以及其他图像，在这个机器上被吸附过来，然后被程序给打碎。那么这样的图像碎片，被识别并被标记，然后进行归类，像打落一地的图像碎尸一样。所以它所做的工作就是等待，等待着从AI的绘图软件的水面下沉的指令和描述的文字，将它触发并且激活和唤醒。

这些指令被唤醒以后，在一个大的图像的层面，寻求一个匹配和粘合，到最后渲染，最终变成了图像。所以说指令在这里面，变成了像那类似于整容师的这种角色，那么整容师的工作就是从一个身体上割下的肉，去填补到身体的其他部位。在这里面比较好玩儿一点就是图像，由于算法这个复杂的程度，会呈现出不同的排异的反应，比如说一个残损的或者多出的手指或者六指，或者三条腿等这样的情况。

黄色时尚女性那张是一期《上海摄影》杂志的封面，那后面这张是《海峡影艺》杂志的封面，上面图像上是两个穿着粉色衣服的男子戴着墨镜，然后站在玉米地里面。当初我在生成的过程中，我是通过创造性的使用，把时尚的，和荒诞的，都放置在整个西北的地貌里面，所以这里面我们可以看到，本身是显得非常的本土性的，或者地方性的地貌，玉米地里面，突然出现这样的时尚又显得很怪异的两个男子，我非常喜欢在图像制造这样一个反差。

再比如说这样的一个穿着西装的女性，她打扮的本身就比较中性，但是她又显得带有那种传统的审美，又戴着草帽。整个装扮，非常的朴素，但是又格调比较高，我把它放置在这样的装满了干草的拖拉机上面，这样的反差本身反而显得更加的时尚。这是我在做这个作品的时候。我会故意的去做设置的这样的场景。

我们在这里面看不到这种指令的，但是这些语言是被打碎了。你没法以一个正常的句子去生成这样的一个图像，这些句子都被打碎成关键词的形式，进行使用。这些被打碎的语言，被扔进这个想象指定框里面，我们从扔进去以后，某种程度上变成了一种献祭，我们很多人可能没有这种宗教的经验，或者是没有这种神秘主义的经验的时候，可能不太了解。我们知道献祭的时候，很多时候你得不到任何回馈的，你可能只有投入，我们的这些语言变成献祭以后，换回的很多都是失败图像，或者是有少部分令人满意的图像。

从这里面我们看到，其实写作不再像以前那样是为了阅读，而是以图像方式被观看，被凝视的这样一个过程，所以这样的转换，非常有意思，因为语言叙述的一个逻辑隐藏了，而图像语言，在生成中完成了，被选择之后，进入传播链条的文字就不会再被看见了，就会变成一个秘密的咒语一样，甚至连作者都不愿意再回去把那些关键词提炼出来，写在图注里面去。因为作者创作时，在使用完这些语言以后，就把这样的语言放弃了，他再次面对图像时，就会回到一个语言的整体性当中。比如说我们在看到这个图像的时候，我可能会使用了干草，一个传统的女性，然后穿着西装，戴着草帽，用这样的语言，但是现在这样语言在我图中里面就不复存在了。

再比如当我们面对这样的一个抒情性的图像的时候，我们该怎么处理我们的指令的问题，因为抒情性的图像的生成，并不体现在文字的抒情性当中，而是体现在有说明性的文字组件，把它拼合而成的图像的描述当中。如果你要这样的一张图像，比如说我们惯常的描述就是风吹麦浪，然后美人身处其中，但在AI生成器里，我们可能较为合理的指令，是麦田，有风，然后站着好看的一个女性，你可以使用别的形容词，然后很关键的一个，你为了图像的质量，你还不得不说人物近景，包括这个头发被风吹起或遮住面孔之类的咒语。所以这样的一些关键词，它是比较理性的，比较有说明属性的文字。这是我们深度理解机器以后，跟机器之间形成相处的语言的契约，也就是说我们在不断的输入的时候，我们要深度理解这个机器，因为机器它是没有情感，机器只是接受指令。

说完了前面关于美学的或者说语言的这样的一个逻辑以后，我们来说经验，我为什么说它来自于记忆，来自于图像经验，因为我们很多人做的各种AI生成的图像，它都是基于自己的一个经验和自己力所能及的，能够调动起来的各种经验的碎片，然后把它编织出来。那我后面就会对我做的一些部分作品来自于哪些经验的影响，做大概的分析。

比如上面两张图，左边这张是我用AI生成的图像，我是在看了希区柯克的电影《西北偏北》，我对演员加里-格兰特，在一个荒地上飞奔，后面跟随着一个飞机，这样一个追逐的名场面印象很深，很多时尚摄影也选择类似的场景。那么我就想生成这样的一张图像，但我把这个男性，放置成一个中国男性，然后穿着风衣在中国的农村奔跑。但是奇怪的是，我不知道什么原因，我写了很多关于飞机的指令的关键词，并没有得到回馈，而是留下一个男子奔跑的比较蹩脚的姿势。就是你的很多的诉求，AI未必有求必应，这个反馈有可能跟指令的权重有关，也就是说与关键词的先后顺序有关，也跟这个画面的复杂程度有关。

这也是我生成的一个系列图像，我在杭州高帆摄影艺术馆做个展的时候，策展人拉黑就觉得比较有意思，因为他觉得我来自西海固，我的作品里面不是干旱（沙漠），就是很多水，的确是有这样的潜意识在里面，比如说我生成这个图像里面，为什么一个独木舟会在游泳池里面？我还做了一男一女，这两个人的关系比较暧昧，又有些疏离。

关于独木舟和游泳池的关系，或者说和艺术的关系，本身也是当代艺术里面比较频繁出现的一个意象。

在当代艺术里面，本身就存在着孤舟的这样的意象，或者说这样的现象。比如杨福东的影像作品，我们从中里面能看到杨福东以一贯之的脉络，就是他对女性的各种呈现。因为在杨福东作品里面，女性是处于一个特别的地位，不管是从《国际饭店》，还是她的“新女性”系列的那些作品里面，女性，始终处于一个核心的位置。那在这张作品里面，也同样处于这样的位置，在游泳池里的独木舟上有两男一女，男性都是居于两边，然后围绕着一个女性，在泳池里面划船，本身这作品逻辑在日常生活里来解释不通的。

但是杨福东通过这样的一个创作，反而就让他的作品非常有特点，就是游泳池本身也是一个健身的地方，但是独木舟这样一个闲情逸致的东西，被放在本身需要健身的地方，反而这两者中间，产生了比较微妙的对接。

我们再看一下翁奋的作品，翁奋是海南的艺术家，他在作品《骑墙》里面，将人物作为一个中介，比如说将这些打扮成学生的女孩子作为中介，骑在墙上，然后连接着相村和城市化的过程。

在后面《看湖》的这个作品里面，我们也能看到这些女孩子再一次出现，她们也是坐在独木舟上面，然后看着远处，因为翁奋本身是一个地方性意识比较强的艺术家。他对海南宗祠的文化特别的迷恋，对城市化带来的各种处境，也是深有触痛，所以他做了很多这样的作品。所以我们也能看到，独木舟在这里面变成承载着这些议题的一个观看媒介。

再比如说我们熟悉的四川艺术家冯立，他在《白夜》里面有这样的一张作品，就是一个家庭在独木舟上面划，然后望着远处。但是他把这样的场景，利用闪光灯的爆闪，让人觉得好像是发生在夜里，形成了这样的一个逻辑上极不合理的场景。

我们可以再看一下这一张图像，这个作品是荒木经惟的《感伤之旅》。在这里面，我们也可以看到荒木经惟的妻子阳子，以一个不太舒服的姿势趴在这个独木舟里面歇息，这是荒木经惟非常经典的作品，这是他对记忆和情感的记录，也是一个独木舟的典型意象。

电影里也有类似的场景，日本导演小林正树在1964年发行的电影《怪谈》里面，就属于志怪和凶杀兼有的电影。在这个电影里面，这个独木舟出现以后，本身就暗示着一场凶杀的开始，包括后面浑浊的湖水，以及泛黄的电影光的使用，都是在暗示情结的变化。

那我们再看一下王新伟的作品，他的作品叫《无题（大划船）》，王新伟画了很多这样的作品，因为他画作品里面的人物形象、人物动作，都是具有特定年代感的一些画面。

在上世纪八、九十年代的城市公园里面都会有这样的一些场景，男性和女性通过划船的方式建立感情，我们看到电视剧《平原上的摩西》里面，开头和结尾都是通过这样的方式来进行处理。王新伟的作品里面，本身就很幽默，他是对特定年代感的没有多少个性化的一些人的形象做了这样处理，他们的头和形体像是被切割过一样，都是几何形的。

而加拿大的艺术家彼得-多依格，他在北京展出过作品《红舟》。这个艺术家，大部分作品都是采用这个“红舟”的意象，因为这是他童年的记忆，他童年的时候经常在红色独木舟上玩耍。所以他的作品里面都是会出现这样的意象，尽管在我们看来，这里面出现的意象，可能跟他的描述可能不太一样，更加鲜艳，又很恐怖的场景。

所以从以上的作品的分享里面也能够看出来，就是我之所以要做很多关于独木舟的生成图像，尤其是在泳池里面，是有来处的。我借用了这样的一些我看过的作品，它们本身是长时间沉淀在我的记忆里面，在一定的程度上，也在给我发出一定指令，让我触发我对这样的记忆一个回应。所以，我就借用了这些作品，然后去做了那些图像。所以很多时候，我们在面对AI的时候，说AI的优势是面向历史的，因为面向记忆，也是面向未来的，面向想象的、科幻的，但是唯独面向今天的时候，可能会有很多手足无措的地方。

在AI今年甚嚣尘上的时候，可能反应最强烈的还不是绘画，也不是装置，反应最激烈的可能就是摄影了，因为生成的图像非常接近摄影，所以这个就激发摄影创作者的恐慌感和逆反心理，那我就在想AI能不能做那种既像摄影，但又不是摄影能够做得到的一些东西。所以我后来就做了很多关于剧情的装置，但我没有去安装这个装置，我只是通过生成的方式，进行了很多的虚拟的造景，以及关于设置很多户外的剧场。

在这张图像里面，我们看到远处是有三个巨大的柱子，上面有两个女性肖像，还是另外一个风景的图像。整个画面，就像镜面一样，然后前面又站着一个穿着比较穿越的女性，像从楼兰古国穿越而来的，这个老年女性的穿着就非常的奇幻。所以这样的一个画面，可能于摄影来说，如果没有这样的拍摄对象的话，是难以完成的。所以我是通过文字的指令，然后让他在西北的一个荒漠上，树立起了这样的一些广告牌，然后形成这样一个地景，这个作品出来以后，我觉得还挺震撼。

我们知道西北缺水，我有意在宁夏的戈壁滩上，制造瀑布横流、大地上都是水的这样的感觉。所以我就发出一个指令，在宁夏的戈壁滩，两个巨大的水泥石柱，然后两条瀑布从上面流下。但是生成的过程中，我会发现AI会弥补你所描述的各种地理因素的文化图像。比如说我在这里面，并没有描述中国文化，没有描述传统的中国山水，但是它在生成的时候，在水泥柱两边都可以看到有草有山，特别具有文化装饰性。这个是AI在对人的指令所做出的弥补的地方，所以我们看到这里面的东西本身就是在西北不常见，甚至说没有多少存在合理性的画面。做完这个作品，我一个朋友给我发了一张埃利亚松的作品图。

左边是我生成的图像，右边是埃利亚松的作品，艺术家埃利亚松的作品也是使用了这样的一个处理方式，但是不同的一点是，他是使用大量的资金和人力成本，去建造这样的一个瀑布的装置，然后采用这个特殊的装置，把这水池里的水利用起来，再用瀑布的方式呈现出来。两个作品逻辑其实很像，但我觉得不同点在于，左边这个纯粹是一个想象的产物，它本身是一个没有多少经济成本，它更多的是时间成本所构成的画面。那右边的集结了各种成本。

我觉得左边图像它只是一种在线观赏的一个产物。如果我们看的话，可能会激发我们的想象力，但是右边作品，我们只能去现场看，很多人去现场看的时候就会很激动，这里面包含了声音，包含了视觉奇观，甚至包含了肉身的体验。所以这是AI作品和线下作品不同的地方。

我后来就干脆就突发奇想，试图把我看的各种新闻融进去。比方说我想把一些失踪的儿童的肖像，放置在废弃的火车的后立面上。我们看到的儿童图像，可能也不是说哪个具体的儿童，它是一个儿童的统称。这些火车也是生成的非常真实，所以我想让图像能够去焕发出一种能够被广为人知的关注，我们能看到它就很完美的把图像贴合在后立面上。

AI本身擅长制造奇观，那我干脆生成一些关于消费奇观的图像，比如说人们在屏幕上经常去观看灾难，灾难发生的时候，人们并不是带着惊慌的心理，而是带着观赏的心理或者消费的心理。那我把这样一种灾难，不知道从哪儿来的海浪，席卷过来的场景，生成到城市的街头，人们在观看海浪，而且在拍照，似乎意识不到任何的危险，这本身是消费主义的一个陷阱，它是通过愉悦的方式让你承受各种不为其所知的灾难的潜在本质。

做AI生成的当初，每个人都会经历沉迷的过程。比如说你做到一定量的时候，你的想象力也会穷尽的。你会有一种焦虑感，或者你会无限的扩展想象力，然后生出各种奇观图像，比如说我就做了这样一张图像，我生成指令就是塔吊的方阵，在中国西北沙漠里面，生成出来以后，非常搞笑，出现了是塔吊被扭曲的形状，转化成铁鸟一样。

我们可以看到有塔吊的吊臂，但是它在沙漠里变成仙鹤一样。所以很长一段儿时间，我不理解为什么会生成这样的形象，直到后来有一个朋友跟我聊，他说在英文里面，仙鹤和吊车是同一个词，就是crane，所以我后来的理解是，它没法处理一个有多重语义的词的时候，通常会把它平均化，甚至会把它嫁接在一块儿，那么就出现了这样的一个图像，它既带着这个仙鹤的头和爪子，又带着塔吊的吊臂。

事实上，在AI里面bug是无处不在，因为它毕竟只是个算法，它是有算力的极限，当它达到这个极限以后，通常会出现各种bug。但我觉得这个bug不是个坏事情，它就像录像里面的卡顿，或摄影里面的过曝一样，它本身就是一个意外的存在，它是计算的一个误差，或者是计算的一个事故。所以我就开始做一些关于bug的图像，或者说我在做的图像中会出现各种bug，那我就追随这样的一个路径，我再去试探它会变成什么样的一种结果。

比如说两男两女坐在绿色沙发上的场景，它生成的时候，还是按照衣服的匹配度，色彩的协调度，给我做成了这样一些图像。我们会发现，比如说左上角第一张有三条腿的女性，右边儿第三位男性没有腿。左下角的这个男性，只有一条腿，左边女性，也是只有一条腿，所以这里面的bug，非常的好玩儿，看图像，色彩搭配得非常完美，而且非常的高级。但是在处理的时候会形成各种各样的Bug，但我觉得这个bug，恰好是我们能够看出它与摄影有所区别的一点。

因为你在摄影里面出现最多的问题，要么就是用光不好，或者说整个构图不行，或者颜色搭配不合理，但不会出现这样异形的东西，或者说有这样的bug出现。所以这恰恰是我认为是比较成功的几张图像。因为他帮我明确的界定了AI图像和摄影之间的一个关系。同时，我在里面也看到了关于AI工程师在大模型里面会做出的一些设定所存在的问题，比如说在这里面男性大部分都是黑人，女性是白人，会不会就是这些工程师在大模型最初设定的这样一个文化场景里面，他们建立了一个在自己的文化惯性里比较常见的模式，比如黑人男性和白人女性的场景，是不是这里面，能看到类似于文化殖民的东西？

假如说有这样的一个强行设置的话，那么我们如何才能通过指令的调整达到我们想要的效果，或者说，我们如何平衡这种东西，并进而打破这种设置？所以我觉得这是一个问题，这个问题很大，而且非常的必要，因为如果工程师在大模型里面设定了这样的一个文化价值，我们通过数据投喂能够达成一种平衡的话，那或许还是个好事儿，但问题是我们通过投喂达到这样的一个平衡，所花费的时间基本上是非常巨量的，所以这就造成我们几乎不是在调整一种文化平衡，而是在无限的满足一个由这个大公司设定的大模型的奴役当中。

所以，我们就基本上变成了数据劳工，因为这几乎是不可逆的，我们在玩AI的时候，带着很强烈的好奇心，带着无限创意的期待，带着对生成图像的自信心。但是我在我们在生成中国的面孔的时候，我们必须要把这个China或者Chinese这些词输进去，如果我们不输进去，很可能我们之前所有的想法都会泡汤，然后我们得重新输入。

而这个AI生成器，它是以英语为母语结构的，它架构的逻辑都是按照英语世界的标准来进行的，所以我最初在生成一个中国西北的穆斯林女性的形象的时候，通常是给到我一个阿富汗女性的穆斯林的形象，穿着长袍，裹着严实的盖头。在他们的数据采集里面，可能更多采集的是阿富汗的数据，比如说关于官员的一些形象采集，可能更多采集的是朝鲜的，而中国是极少的一部分。加上整个中国的互联网保护的情况，他们采集数据的难度就比较大，相应的采集到的数据也就更少了，所以我们要生成一个中国人的面孔的时候，你就会发现非常的难，我们很多面孔，都是通过我们大量的投喂，通过无数的网友的投喂达成基础数据库。这样投喂的结果，是所有的子模型都是共用的。每个人有自己的频道，就是一个子模型，但是在它的大模型里面这些子模型的训练结果都是流通和共享的。我们可以说这是抵抗的一种手段，但问题是这样的抵抗在多大程度上是有效的？

鉴于前面那个作品图，我就开始不断的调试它如何生成一个没有黑人和白人面孔的图像，我试图把这个黑人和白人的面孔给他屏蔽掉，然后让它别体现那样一种比较对立的价。所以我就不断的调试，调试出来以后是没有黑人，反而形成了这样的一个坐姿比较夸张的三个人，但这三个人的整个戏剧性，已经远远不如前面那四张图了。

后来经过无数次指令的调整，终于生成了这样一张图像，就是你们看到的，没有面孔，也不知道她们是哪个国家的人。我们看到有两个女性，一个男性。只显示下半身，关系有些暧昧，她们坐在绿色沙发上，左边女性，穿着绿色的皮鞋，她两条腿在交织在一块儿。中间的男性，穿着紧身的西裤，但是穿着女性的尖头皮鞋，腿毛浓密而性感。右边儿女性，被切掉了一部分的身体，所以这样画面，比较符合我对作品的期待，包括我在看一些作品，比如说盖伯丁的作品的时候，我会有这样的期待的。那这样的话，可以说把我前面看到的那些关于黑人和白人之间的那种既定的关系图式给屏蔽了。

我接下里分享一个案例，这是生成的界面，我的指令是，一个中国西北的14岁男孩，藏在树背后，背对相机，手里拿着一个火把，跟一只狼对峙。

结果出现了这样的一些图像，我们可以看一下，在不断的刷新，不断调整过程中，其实我对这个图像本身是失望的，因为我想要的画面，是一个比较紧张的对峙的画面，但是生成出来以后，这个小孩儿并没有背对着镜头，而是面向镜头，狼跟他之间，也没有这样一种剑拔弩张的关系。再比如包括后面生成图像，狼和人，基本上没有这种关系了，然后火把变成了火灾，甚至说一个小孩儿在看火，到最后直接把对峙变成了一种和谐相处的关系。这让我挫败又惊讶。

因此，我也在猜想，是不是AI图像里面本身并不关照所谓的以人为本的人文主义，就是当人的安全处于威胁时，我们如何处理动物的价值选择的问题，它可能关照的本身是一个自然主义的东西，就是所有东西都是平等的，只要你处在一个画面里面，你的清晰度是同样的平等，关系和境遇也是平等的。甚至说，这里面没有生成小孩儿和狼对峙画面，而是生成一个友好亲密的关系。使用过这款AI生成器的人都知道，这里面关于暴力的词语指令，或者关于性的指令都是被禁止的，甚至连洗澡都是被禁止的。只有在申诉以后，算法根据作者申诉来判定你这个作品指令是否合理，然后选择通过，或者拒绝。

我后来在Midjourney发现了一个新功能，叫describe这样的一个生成描述的指令。新功能出现以后，它就可以通过上传图片，然后生成一定的指令，这个就是反向操作的。所以我在广西师大出版社美术馆的群展里面，我自己参展作品名叫《基因检测》。我将自己生成的AI图像中传播率最高的一张图像，那张《AI双胞胎姐妹》，在这个生成器里面进行“/describe”的操作。每张最初生成的图像，是由文字出发而来，那么生成器再根据我上传的图像，再生成输出四条不同的文字描述。我主要是想通过这样的一种不断的逆向操作，来反推AI图像生成里的逻辑和模型，以及它所释放出的文字描述的一个权重和规则。通过这样的反向操作让可以看到，AI怎么给我指派这样的一个指令的，因为这个指令就是他们本身的下面底层的规则。就是说在它的大模型里，通过文字生成的这样的图像，再生成文字，然后经由这些文字再生成图像以后，它里面原有的粘附在上面的信息还会保留多少，有多少信息剥落了，那么它中间反复生成的过程中，基因产生了哪些变异，所以我就用这样的方式去测试了这个逻辑。

我们可以看到，这是我用那个《AI双胞胎姐妹》，生成的四条指令。生成的第一条指令，已经把我最初的描述关于人的身份的特征都去掉了，比如说我最初输入的是中国西北的两个姐妹，但是在AI生成的第一条指令里面置换为两个亚洲女性。在第二条里面已经把亚洲去掉了，还在艺术风格提到了方力钧，我不知道这跟方力钧有什么样的关系。第三条指令里，改为两个年轻的女人，然后借用了一些艺术的风格。在第四条指令里，两个女性坐在沙漠，变得有些超现实，然后关键词还出现了古典的日本风格、韩流，甚至出现了很多术语，关于哈苏相机设备，以及当代中国艺术等等。所以从这个里面能看出AI在底层是怎么样去捕捉和输出这些数据的，那我再用这四个指令生成了四组不同的图像，我们可以看一下，右边儿其实是两组。

这个变化还是挺大，第一组，女性已经探出了车窗，第二组呢，这些女性已经变成了像僵尸一样。

第三组已经坐到车外了，跟我期待的完全不一样，只有第四组的第四张，才能够勉强接近我最初想要的一个结果。所以我就选取这样的一种图像，把它进行放大。

我们现在对比由同一个指令，或者说由同一个基因形成的这样两张图像，发生了截然不同的变化，同样是这样的一个坐姿和空间结构，但是发现左边看起来比较朴素，像邻家女孩儿，而右边儿的女孩，具有商品属性的时尚模特儿的风格，她们的脸都是工业化的，都是经过修饰的，衣服也是带有明显的工业定制的标准，而坐姿，也是非常成熟套路的坐姿，跟左边儿这样的一个比较带有情感，日常朴素的女性的面貌是截然不同了。

其实现在，市场上的AI生成软件非常多，这是其中比较重要的一个，我之前用的那个已是收费的，那这个是免费的一个软件。

我曾经测试过这样的一个东西，比如说我在这里面输入了一只鸟站在牛背上的指令。

结果生成出来的，也不尽然如人意，所以Stable Diffusion与Midjourney不同的地方在于，它是开源的，每个人可以下载一个模型到自己的电脑里面，当模型下载下来，然后自己可以在本地训练，训练以后可以自己不断的养成模型；另外就是Stable Diffusion可控，它可以通过不断的这训练，变得可控，它偏重于设计，尤其是那些建筑设计，还有那些动漫形象的设计，它是非常适合这样操作的一种软件。

但是这里面有个难点，就是你需要下载大型的模型包，一个模型包差不多30多个G，需要电脑大内存和高质量显卡，我身边很多朋友，为了满足训练，花几千块去买英伟达的显卡，这是需要投入的成本，再加上大量训练，你不一定能够去投入到一个匹配的产值中间去。这样的一个时间的成本是非常恐怖的。如果大家需要生成一个带有系列感的作品的时候，你会发现这里面是非常的难，你投入的是巨量的时间，然后你就真的是变成一个数据的劳工了。

今天分享的时间不多了，我先略过一些环节，然后跟大家可以讲一下大家可能关心的问题，比如说AI到底是什么？从我前面那个关于bug图像里面，我们也其实也能看到，在AI的这种bug里面，是摄影可能无法完成的这样一个活动，然后甚至说摄影也不会出那样的错。后来我把这里面很多图像都放大了，其中的一张图像，我们看到它其实是笔触的堆叠，它不是像素，它显示了各种碎片没有渲染好的一些画面的痕迹。所以这是一个区别。另外，它本身的操作，打碎图像，然后编织图像，它不是把拍摄对象，经过CCD处理，然后传输到你的相机屏幕。

另外就是这些底层图像不管是来自于绘画，还是来自于摄影，它都是有编码的，在使用关键词激活后，很可能那些碎片在不同的关键词里面又被用于不同的组合，所以这个里面跟摄影是完全不同的，它有一个进入运算和生成的过程，它还不是一个拍摄过程，它只是计算机一个算力显现的过程。

但是它好玩儿的点在哪呢？它又是跟摄影有很多的胶着的地方，比如说它有景深，跟摄影又很像，背景虚化，做得非常好，而且光影是绝对完美。他在生成图像的时候，完全是游走在摄影边缘，它似乎是一个像在撩拨摄影，但又跟摄影关系不太大的新的媒介。

总而言之，AI图像是一种关于想象与写作的图像，这里面涉及到是对文字调取想象的借用，对于想象的各种压榨。如果说摄影是一种基于第三人称对他者的图像采集的话，那AI可能是一种关于自我的镜像。另外，AI图像展示的是某种摄影机制，比如说你在指令里面输入到耶稣光、比如阴天、比如说ISO多少，你可以把这些数据都输进去，用于控制你这个生成图像的各种的光影的对比，控制各种气氛渲染程度，但是它只是借用或展示某种摄影机制，但它还不是摄影。在未来，我觉得它将是一个全新的面貌，但这个面貌可能是意味着各种的分流，比如说它对医疗怎么样，它对绘画怎么样。

AI威胁的最大的还不是摄影，也不是艺术，最大的还是在日常生活里面，比如商业化程度较高的那些行业。我觉得AI的出现，尤其AI图像生成的出现，它会强化摄影这个媒介作为摄影的属性，历史上我们已有先例，大家在看当初绘画作为一种写实功能获得认可之后，摄影出现了，绘画的写实功能遭遇了困境，反而让绘画在媒介属性和表现上找到了新的语言和空间。那这个AI图像我觉得跟当初摄影的出现有点很像，就是他会倒逼摄影去思考，摄影作为一种媒介，它的本质属性在哪里？它还有哪些潜力和空间没有被挖掘？

在这里，我斗胆猜想一下，AI影像的未来，因为前面我已经讲到了技术的各种的生成的逻辑，还有底层运算的过程，后面讲的关于政治经济学里面让人细思极恐的地方，比如说每个人都在变成一种数据劳工的悲苦的角色，但是这样比如悲苦的角色，又在资本的助推和装饰下，变得充满欢愉，每个人似乎疲于奔命，但又是乐此不疲。让我想到毛姆的小说《月亮与六便士》里面那个男主人公，他为了活出自我，离开漂亮的老皮和懂事的孩子，然后跑到一个岛上去自己画画，最后悲惨的死去，这是一种自由。但现在的人，看似做着自由的事情，自由的选择，但事实上都是被囚禁在流量和图像的永生里面，人们疲于奔命地去生产图像，生产似乎变成了一种永生的动作和图像，但其实这种图像，瞬间即逝，而流量本身都是具有吸引力的，这就是数据劳工的群体性的写照。

那么关于影像的未来，如果就创作领域来讲，我这里面大致列了这么几个，就是每个人可能在未来需要建立创业的习惯和想象的空间。这些想象空间来自于平时的读图量和艺术史的一些经验，你从中可以吸取到哪些东西。

要学会描述画面的能力，怎么样去总结自己语言，或提炼自己的语言，选择哪些词语使用，如何精准地实现对一个画面的捕捉能力，这就涉及到对于画面的感受、描述以及语言转化能力。

另外，非常重要的一点，就是能很快和机器沟通的能力，即文字可能不再是以前写作时那样的一些抒情性的文字，也不再是那样一些带有温度的文字，文字变得中介化了，你在面对一张图像的时候，你要提炼它其中的数据性的文字，以便跟机器达成完美的沟通，所以说人机共创是未来比较普遍的现象。汇总下来，就是得扮演一个合适的训图师。

还有一个要求，会更高一点，就是要有做插件和模型编程的能力，通过训练模型，加上一定的编程对它进行扩建。最终获得易于上手和便于部署的一个插件和模型。但是从艺术创作的角度来讲，我觉得最终AI软件只是工具，就跟相机一样，如何带着观念创作才是目的，最初的生成已经不再新鲜，而如何将其作为材料，进行转换会更重要。

如何将其纳入到自己的脉络当中去，是AI创作的关键，从三月份到现在其实已经过了几个月了，AI的冷静期其实已经来了，我们如何去认识这样新媒介，这样新媒介能够在多大程度上辅助我们去做一些我们比较擅长的作品，是接下来需要尝试的事情。

今晚，我差不多就分享这么多，主要涉及的点是AI在技术方面，在权力关系方面有哪些特点，然后人对它来说意味着什么，我们跟机器是什么样的关系等等。因为这些这软件的版本，在不断的更迭，它的版本的更迭事实上是缓慢的，但研发又是急速推进，缓慢的版本更迭和释放，就像好莱坞的剧情一样精准可控，以便让我们永葆饥饿感，我们已经没有多少主动权了。

谢谢大家。

【声明】以上内容只代表原作者个人观点，不代表artda.cn艺术档案网的立场和价值判断。