一

字体:16 +-

主持人：“这就是一个多月前CATNIP在CCES上的第一次公开亮相，但当时人们对它背后的技术，以及即将引发的争议仍一无所知。今天我们有幸请到了CATNIP的发明者、国家重点实验室项目负责人、人工智能及图像识别专家—宋秋鸣教授。宋教授你好。”

一名西服男子入镜，四十岁上下，表情略拘谨。

宋教授微笑：“主持人好，大家好。”

主持人：“先问一个小问题，为什么要给这套系统起名叫猫薄荷，在我们女生看来这很有点卖萌的意味。”

宋教授：“呵呵。确实如此，其实它的全称是Camera of Architectural Transcendent Network Information Processing，也就是结构式超网络信息处理照相机。因为我女儿喜欢猫，所以给凑了这么一个名字。猫闻到猫薄荷时，会刺激它的费洛蒙受器，电信号传递到大脑，产生兴奋感和一些超常举动。我们也希望这个小东西能够给沉闷已久的学界带来一些新鲜刺激。”

主持人：“说得太好了宋教授，那么能否请您用较为浅显易懂的语言向观众们介绍一下这套系统的工作原理呢？”

宋教授：“有点难，我试试吧。大家知道，人工智能发展其中一个重要方向就是让机器模拟人类大脑的思考过程，而最关键的第一步就是让机器学会像人一样接受信息。人类有非常复杂的感官系统，但信息最主要的输入方式还是视觉，这就涉及两大领域的识别：文字和图像。目前在浅层感知领域，例如语音识别、文本分词、人脸识别等已经比较成熟了，但从浅层感知到特定语义组合的映射，比如从动作姿态来分辨一张全家福中不同成员之间的关系，对一首诗歌里的情感指向进行分类这种，目前还只能在限定领域通过大量训练来实现过得去的效果。至于像人类那样复杂的认知能力，机器其实还处于非常早期的阶段，大家可以看这张图。”

屏幕上出现四乘四的图片矩阵，每张图都是关于猫的，是在不同环境下，从不同角度拍摄的不同种类的猫。

宋教授：“啊，这是我女儿挑的照片。对于人类来说，即便是一个小孩，只要他见过猫，不管是大猫小猫，黑猫白猫，猫头猫尾，他都能够分辨出来。但对于机器则不是这样。”

十六张图中的十三张都被打上红叉，只剩下三张猫咪头部正面特写，萌态可掬。

宋教授：“之前我们做的机器图像识别，无法像人一样，从事物的不同状态中提取出某种底层不变性。抱歉我又要拿猫举例子，一只猫胖了瘦了，掉毛了生病了，或者给它穿戴上各种装饰品，它打个呵欠、发怒、舔舌头，它都是同一只猫。而对于机器来说，图像的尺寸、背景、光照、位移、旋转、畸变、遮挡……都会影响它的判断，它只能根据既定算法进行有限层级的映射，而无法模仿人脑通过多层神经网络进行分层递阶的多粒度计算……”

主持人：“抱歉打断您一下，这部分内容或许对于欠缺背景知识的我们来说有点难以理解，那么您发明的CATNIP系统是如何解决这个问题的呢？”

宋教授面露尴尬：“不好意思，一不小心就说多了。确切地说，我们的一只脚才刚刚跨过门槛，离真正解决问题还早着呢，这个系统也只是整个大计划中的一个前驱项目。我们的灵感其实来自语义分析，大家知道，信息的意义其实并不在于信息本身，而存在于其结构中，就像文本意义存在于上下文，图像的意义存在于时空结构之中。我们能否通过索引对象存在于整个时空结构中的信息来帮助机器识别对象，这是整个项目灵感的源起。”

主持人：“我问一个外行话，如果机器都无法准确识别对象，怎么能去寻找它存在于……嗯，所谓时空结构中的信息呢？”

宋教授：“你这个问题提得非常好。就像照片里的小猫，你是先知道什么是猫，再去找猫在哪儿，还是先知道猫在哪儿，再去识别什么是猫？这就是一个鸡生蛋蛋生鸡的悖论。目前我们的神经科学和生理学知识尚无法解释人类的认知过程是如何发生的，更不用说教会机器了。于是我们采用了另一种思路。”

主持人：“这听起来就像是推理小说啊。”

宋教授：“呵呵，这个比喻有意思。我们是这么做的，从语义上给定一个对象，通过对接外部数据库去抓取相关的信息，包括语义和图像，并按时间序列构建起意义连续体，然后我们把真实的对象摆到机器面前。比如说，一只猫，机器会在捕捉到的动态画面与意义连续体之间寻找可能的流形映射，当它确定两者之间能够建立映射时，也就是说它‘认出’这只猫时，就会‘咔嚓’一下，按下快门。当然这只是个简化的比喻，背后有许多艰深的算法，我们希望以这种倒推方式找到提升机器识别能力的办法，它更多是一个数学上的问题。”

主持人：“听起来蛮有意思的，那怎么会想到把这项技术从实验室里带到CCES呢？”

宋教授：“嗯，这个我不确定能不能说，之后我跟领导确认一下，如果不方便公布你们就剪掉吧。”

主持人：“没问题。”

宋教授：“其实这个项目除了来自国家的专项基金外，还有几家大科技公司的资助，他们希望能从前期就介入，看看这项技术商业化的前景如何；另外一点，我们需要更多的样本帮助机器进行深度学习，而真实环境中的对象远远比实验室里的模拟条件来得复杂。正好我的组里有一个狂热的摄影爱好者，他帮忙设计了这个，我们称之为‘锦上添花’的照相模块，包括调焦、光圈、快门以及滤镜库的调用等功能。”

主持人：“这会不会涉及数据隐私的问题？”

宋教授：“所以我们采取了邀请制，所有对象都必须经过资格筛选，并签署具有法律效力的协议书。”

主持人：“之前网上讨论得非常火热的是，一些受邀请的用户晒出了CATNIP给自己拍摄的照片，并分享了他们的感受，其中有人说，这些由机器拍出的照片‘比真人拍摄更有感情’，甚至能够‘触动心灵深处’。对此您有何评论？”

宋教授：“这个，我只能说，机器所有的行为都是受程序及算法控制，它是camera而不是cameraman，那种能够产生情感的机器只存在于科幻电影里。”

主持人：“您自己用CATNIP拍过照片吗？”

宋教授：“我自己没有，不过……我替我家人拍过。”

主持人：“哦？是您的女儿？”

宋教授：“不不，她的数据量太少。是我的父亲。”

主持人：“我有个不情之请，能否让我们看一下CATNIP为您父亲拍下的照片？”

宋教授皱了皱眉头，又非常迅速地展平：“这恐怕不太方便吧。”

主持人小声地说：“这是节目赞助商的要求，对方说已经跟您沟通过了。照片也已经在我们的素材库里了。”

宋教授不自然地清了清喉咙：“那……好吧，实际上，是我父亲在特护病房里拍的，大概是上个星期。”

主持人：“非常抱歉，希望他早日康复。那么我们来看看这张照片。”

一张清瘦老人的照片出现在画面中，使用了高反差单色滤镜突出肌理，人物轮廓有一圈圆形光晕，老人虽有病容，却面露安详，奇怪的是几道故意做旧的磨损痕迹从面部爬过，像是碎裂又重新拼合。

宋教授没有说话，只是深深吸了一口气。

主持人：“关于您的父亲，您有没有什么故事可以与我们分享的？”

宋教授依然保持沉默，像是忆起了什么久远的往事，目光开始闪烁不定。