AI 元年回忆录

2022 对我来说,是我的 AI 元年,我真正将 AI 的技术融合进入了我的生活。我将之前在老博客上的一些故事在这里重新阐述,顺便补充了一些这两周的故事,待我慢慢叙来。

春:GPT-2 疾如风

我第一次使用 GPT-2 的时候还是在春节的时候。实际上,我向来是不喜过节的,重要的原因是我非常讨厌事务性的短信。我并不喜欢群发祝福,我非常重视我的每一个朋友,但是我过年的时候不得不被拜年短信轰炸,也不得不给老师、同学发送春节祝福。这个事情会耽误我很多时间,并不是因为发送短信和编辑短信本身,而是我经常沉溺在自己的回忆里面,在里面慢慢摸索我和这些人的过去。

这种时候,相比短信,我更容易写出一些乱七八糟的随笔,记录我和这些人之间的回忆。所以我的日记在过年时候也会迅速增长,作为我过去的记忆存档。既然,我已经这么写了,那我为什么不去尝试把这些作为语料库呢?

出于这种想法,我将自己和一些人的关系记录成为标签,存储一些词条向量并且通过一些特殊的方法进行归一化。之后训练了一些文本,不过一开始效果不能说惊艳把,只能说离谱万分:

新年快乐!小朋友们,你们看到这个新的一年的到来了吗?
新的一年,我们要向小朋友们表示新年的吉祥。春节有很多习俗,比如说贴春联、拜年、穿新衣、放鞭炮、吃年夜饭。吃年夜饭要吃饺子,吃到这个,你就知道了,过年要吃饺子,代表着团圆。我们一家人有说有笑的坐在一起吃团圆饭。吃完饭我们要开始贴春联,要拿一副春联,上面是四个大字:“万事如意福满门”。我先拿了一张红纸,把它对折成折的纸对折后在红纸上写上祝福语:“新年快乐……

我非常怀疑我在网上下载的中文语料库包里面是不是混入了大量的小学生作文……但是如果自己手洗数据又过分耽误时间。所以更换了一些更新的中文语料库:

但是效果也非常离谱,这也太官方和广告了,甚至还有小编体这种离谱的生成效果。最后还是换成了一种比较稳妥的办法,使用 GPT 生成古诗词,从而达到规避小作文、广告的目的,然后截取部分作为自己的拜年短信。结果上还是为我节约了一部分时间的,但是真的不多,训练过程大部分来自:

https://github.com/TsinghuaAI/CPM-1-Generate

方法也相对比较简单,基本上达到开箱即用的效果,但是年初的时候,自己并没有想到,未来这一年,不同模型效果的进步达到了令人惊叹的地步。

夏:DALLE 徐如林

在燥热的季节,一个模型也用燥热的火爆程度席卷全网,DALLE 和随后的 DALLE-2 以及一系列针对性的 AI 绘画引擎诞生。例如生成动漫图片的 Novel-AI 以及我最常用的 Midjourney,他们针对不同的需求生成了不同的优质图片。例如下面这些:

上述的两张图片看似不错,但是实际上具体的生成具有非常大的随机性和任意性,很多细节无法进行有效的推敲。特别是范围设计人物绘画的时候,任务的面部细节、肢体细节往往会发生错乱。之前经典的梗:手、筷子、面条无法区分的图片也成为经典笑话。此外,目前这种绘画非常依赖具体的关键词输入,为了得到理想的绘画效果,常常需要输入数以百计的关键词。甚至诞生了类似的魔咒学科。

不得不承认,这次出圈时间也是自从 AlphaGo 之后,又一次出现如此大规模广泛的社会层面关注了。我也不否认这些应用的价值,对于我这种有一定的创意需求和原创需求,但是自己的专业技能比较受限的时候,可以通过 AI 辅助自己工作。但是我也希望我能和 AI 进行更加紧密的配合,例如我和 AI 各自完成框架的设计,自己可以进行内容上的修改,之后 AI 再帮作品进行微调和润色(好吧,我终于变成了自己最讨厌的甲方)。当然,也有人对滥用 AI 生成作品进行反对,这确实是对自由创作和绘画行业的巨大冲击,但是目前位置,我认为这种产品还有很大的发展空间:

  1. 在漫画行业,如果我们希望自己配合 AI 创作漫画,最好可以固定 AI 的“创意能力”,例如对一些角色的服饰 AI 可以自由创作,但是 AI 要记住这个人物的身高、面部特征。如果每一次画到这个角色都会变化一点,那就非常离谱了。又比如我们有些时候希望这个角色在战斗中受伤,他之后有需要进行改动,例如多了伤疤或者绷带,AI 也要能很好的理解这种需求。而且上述的需求需要配合比较好的前端工具,做成更易用的工具。
  2. 风格设定和创作反馈。关于绘画风格,其实很难用特定的参数进行描述。就比如我们知道我们在用写字画画的时候,会通过控制力度,对线条的粗细、质感进行精准的控制。因为我们的力度和绘画的效果是可以形成直接反馈效果的。但是我们在使用这些工具的时候,经常只能空泛的说“创作梵高风格的 xxx“,这显然过于空泛了。而且不符合更高的创作需求。如果有一些细致的参数,最好还可以让每一个使用者自定义新的参数,让创作者便捷的调整参数,让他们获得参数和画面效果之间的反馈。我认为这样可以更好的提升创作者的认知和能力,大家也不必担心自己会被取代,相反,大家会不断交流共享各种创作参数的意义。某种意义上,这个过程可能也会对可解释性机器学习提供一定的发展资料。

秋:X-Studio 侵略如火

当文字、图像开始逐渐被 AI 生成部分替代之后,下一个领域是声音。在一个秋天的下午,我偶然在 Bilibili 上看到了微软的一系列虚拟歌手和他们的平台:X-Studio。

XStudio 和之前自己玩过的 Vocoloid 不同,Vocoloid 的声音具有非常强烈的辨识度,具体原因是对于声音细节上所谓的机械感,在吐字之后的停顿,升降调的违和,都可以清晰的告诉我,这是来自一位虚拟歌手。但XStudio 上给我带来的是一种非常自然的感觉,在没有得到更进一步消息的时候,我一度认为这是来自一位人类歌手的。不过我也不是音乐专业出身,我也只能简单说说作为一个普通人这些东西带给我的感受。

此外,XStudio 的操作逻辑也出乎意料的简单,和其他同类软件,FL Studio、Vocoloid 相比,编辑音乐的操作简单到了一个离谱的程度,即使是外行小白也能几分钟理解他的工作逻辑和编辑方法。而且生成的速率也非常之快。

但是音乐和绘画产业不同,行业本身具有的偶像属性和盈利方式是不同的,不管怎么说,虚拟歌手是永远无法替代真实歌手的。并不是因为他们本身的音乐水平,而是因为我们很多时候喜欢一个歌手并不单纯喜欢他的音乐。就比如很多人喜欢的许嵩,并不单纯只是人家歌写得好,或者词写得好,在编曲、创作、生活上都有一定的特质吸引他人。XStudio 对我来说,更大的意义其实是作为轻量的替代品,例如在游戏创作的时候可以使用简单的工具进行配乐,从而丰富游戏内容和音画效果。

相关链接: X-Studio

冬:ChatGPT 不动如山

最后,来到年末,也就是这两周我做的事情。我会更加详细的介绍我近期生活和工作上发生的剧变。

虽然我长期一直对 AI 的应用持有批判态度,但是 ChatGPT 完全纠正了我的态度。我也不得不正视现有的智能水平,并且在他们的帮助下提升自己。

注册使用

首先介绍一个平台,TextVerified

平台可以提供美国短信接受服务,而且还有一个非常大的优点:支持支付宝支付,不需要信用卡或者数字货币支付。

然后用该手机号注册 OpenAI 服务,可以免费领取 ¥18 的额度。

总体评价

鉴于其他很多自媒体、程序员都分享了很多 ChatGPT 的使用案例,Github 本周也一度被 ChatGPT 的各种封装项目霸榜。这里只说一些我的个人观点:

  1. 目前的水平还是出于低端智能的程度,而且对于专业程度相对中等的问题可能会有更好的答案。
  2. 对于劳务性任务和重复性的任务有非常好的效果。
  3. 对于商务和标准化的场合,有非常好的效果。

我逐条解释上述的信息,首先是第一条,智能相对低端还是有目共睹的。如果大家使用一些特殊的脑筋急转弯或者一些需要一定背景知识的问题,ChatGPT 就很难回答。比如他分不清五代十国,也不知道苏轼的原配夫人是谁,而且在一本正经的胡说八道试图让我们相信他的答案。但是对于一些简单的物理知识,例如简单解释量子力学,解释波粒二象性,反而说的有模有样。

第二条,对于重复性的任务,例如给代码编写文档,我们扔进去一段代码,可以生成比较好的解释。而且可以通过一些”调教“,例如需要他注明 input 和 output 的变量的作用,他也能很好的完成。一些其他的场面活,例如没有营养的调研报告,没有意义的文书,都可以交给他处理。这些事情他的效率真的出乎意料,而且写的像模像样。

第三条,对于商务和标准的场合,这种应答也是令我非常震惊的。例如有些时候,我们在一些场景中不知道如何合适的表达自己的观点。比如给一个公司写回信、给老师发祝福、给开源项目反馈意见,这种特殊的场合,我们需要对自己的语言进行整理和润色,这种时候 ChatGPT 也能意料之外的完成任务。

上述的三条我们很合理的进行一系列推测,首先 ChatGPT 一定是获取了大量的现存语料,而其中想必对 Wikipedia 这种高质量的词条语料库进行了一定的选取。对于专有名词,他能很好的进行提炼整理。而且鉴于劳务性、重复性、商务性的文本材料,在网上的数量更是不计其数,这种语料获取相对也非常简单,可能也被加入了训练之中。不过上述仅仅是我的个人推测,期待之后 OpenAI 进行更加深入的解释阐明。

认知阶梯

认知是一个人的基础个人能力之一,我们对其他事物产生什么样的认识,如何产生认识,都取决于我们当下的认知水平。然而,我们也经常发生不能理解的东西,这种事情可能出现在我们学习的过程中,”我每个字都认识,但是连在一起就啥都看不懂了“。这个梗也有些年头了,但是自从 ChatGPT 诞生之后,我才认真分析这种现象的原因。

如果我们可以理解每一个字或者单词,我们就有能力进行字面意义的理解。如果结合动词和语法,我们可以对句子的逻辑进行理解。但是不能理解整个句子的含义,最重要的原因有:

  1. 复合逻辑,句子的逻辑需要拆解,我们可以通过拆分信息和做笔记的方法辅助理解。
  2. 专有名词,很多词语表面上就是普通的含义,但是结合语境和特定行业,就有所谓的行业黑话。

所以说,”字面含义理解“,”逻辑理解“,”特定场景理解“,共同构成了认知的三级阶梯。而 ChatGPT 在第三级台阶的攀爬上,宛如神兵利器。

我下面举一个小小的例子,例如一篇分析内存的论文, Staged Memory Scheduling: Achieving High Performance and Scalability in Heterogeneous Systems,文章里有一个概念,outstanding requests

如果用 Google 进行检索,结果不尽如意:

场景上有一些小小的偏差,不过大致还是可以自己通过逻辑类比推测这句话的含义的。但是如果我们借助 ChatGPT:

效果惊人。不难想象,在不远的未来,一个新入门学科的年轻人,在从基础知识到学科前沿的学习旅途中,可以借助有效的工具提升认知的速度。

在学科高度分化的今天,很大程度上,我曾经认为跨学科的合作是极度困难的,而且我对自己技术栈的积累上也非常重视计算方法和物理学的补充。但是现在看来,这些深度的学习很大程度上,可以被一种新的方式进行补充和完善。这里并不是对学习和知识的否定,只是这种新的方法可以提升认知的效率和认知的方法。我姑且用两个场景进行一些小小的补充。

未来,非计算机学科的学者配置环境,或者计算机学科的跨学科理解算法,都有比较好的辅助工具。而且 ChatGPT 用对应学科说行话,对普通大众说人话,很大程度上降低了认知的差距。

未来:难知如阴,动如雷震

不得不承认,我现在的日常生活非常以来这些产品。当我不能精准描述自己的时候,我有时候会借助 GPT-3 的工具,Lex 进行辅助。在措辞的时候,会向 WantWords 寻求帮助。写作的时候也会用 GPT-3 帮我生成一些客套场面话(不过大部分时候,还是觉得自己写的还行,至少比 GPT3 还是要稍微行一点点的)。从 2021 的 AI 看笑话,到如今逐渐登堂入室,我不得不承认自己的观念需要得到更进一步的更新,近期也在积极学习 Deep Learning 的相关理论。必须承认的是,正如兵法所言:”难知如阴,动如雷霆“,在得知新时代的风口之后,只有保持积极开放的态度学习,用行动力证明自己,努力不被时代淘汰。毕竟,这也是我喜欢的生活,永远学习,永远年轻。


AI 元年回忆录
http://blog.chivier.site/2023-03-02/9e034aeba73b/
Author
Chivier Humber
Posted on
March 2, 2023
Licensed under