1. 首页
  2. 自习室
  3. 爱犯错的智能体 | 听觉篇(十三):视听错觉与无限音阶中的拓扑(图)

爱犯错的智能体 | 听觉篇(十三):视听错觉与无限音阶中的拓扑(图)

机器会犯错,其错要么是因为数据集太少,无法涵盖数据形成的样本空间;要么是由于训练太过精细,导致没办法对新来的样本或数据形成有效预计,俗称为过拟合;要么是模型本身的能力低,结果对样本的刻画能力不足;要么是硬件条件受限,无法完全相关任务。不管哪种错,总是多少能找到原因的。


而智能体尤其是人类的犯错,却有很多缺乏明晰的解释。人类会在很多方面犯错,产生错误的判断,视觉上、听觉上、距离上、认知上、情绪上,甚至人类发育的基础,基因上,都有。为什么这样一种错误频出的智能体,却能凌驾于其他生命成为地球的主宰呢?这些犯错到底有什么用呢?



CAIC大奖赛特邀嘉宾张军平教授,将会从视觉、听觉、体感、语言等角度,为我们解读智能体都“犯”过哪些错。了解这些犯错,说不定能从中找出一些有用的线索,来重新思考人工智能的发展方向。


微信图片_20181206165116.jpg

张军平复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。


视觉篇(十三) :视听错觉与无限音阶中的拓扑


小朋友小时候,我们请了一位家里外婆辈份的亲戚帮忙来照顾。虽然长我一辈,年龄却比我小。不过还好,亲戚家在湖南省的华容县,那边的人管这个辈份的都称为“家(Ga)家(Ga)”,所以,叫起来也不会太尴尬和别扭,反正外人听不懂。


小朋友学语言很快,一切都很正常。可是GaGa老是叫不好,总发成DaDa。她自己也没觉得有什么不对,我们纠了几次,没什么效果,只好听之任之了。还好,随着小朋友一天天的长大,终于有一天她自己纠正过来了。


上一篇说过,人在辨声方面有“鸡尾酒会效应”的能力。一个人不需要借助视觉的帮助就可以在酒会中选择性地聆听需要听的声音,而把其他声音弱化甚至屏蔽掉。


谷歌则尝试结合视频与语音来提高人声分离的性能。那么,视觉与听觉之间会不会相互影响呢?


一、听觉错觉


第一个证实有相互影响的实验来源于一次意外。早在20世纪70年代中期,英国Surrey大学的心理学家Harry McGurk和他的助手John MacDonald做了个实验。


他们用不同的口语因素给视频配音,想研究不同时期儿童对语言的理解程度。在配音的时候,一个本应发“ga”的音节错配成了“ba”的音,测试者听完后坚持认为听到的音节是第三节音素“da”而不是视频中说出来的原音节。


对于这个意外,他们分析后认为,在听觉系统和视觉系统收集的信息存在相互矛盾时,人类会优先相信视觉通道传输进来的信息。因为与视觉系统相比,听觉系统获得的信息没有那么强的确定性。他们将这一现象称“麦格克效应”(McGurk effect)。该成果发表在1976年的《自然》杂志上[1]。


随着研究的深入,科学家们发现这种视听觉相互影响的“麦格克效应”在很多方面都有体现。如儿童早期发音的学习上。如果视觉和听觉没有得到好的整合,儿童就容易产生错误的发音。另外,视力不好的人,如果摘下眼镜,也很可能出现“麦格克效应”,会感觉自己的听力也同时下降了。


麦格克效应


2007年,Körding等进一步研究了视听觉相互影响的情况。他们在5个平行的位置上均放置了发声和闪光设备,然后在不同或相同的位置同时给出声音和闪光,让19位测试者判断发声的位置和闪光的位置。实验设置和结果如图1所示[2]。


从图上可以看出,当光和声音分别处理、没有相互干扰时,19个测试者的反应是稳定且合乎正确分布的。而当灯光和声音同时出现后,能看出1)闪光位置的判断几乎不受影响,和没有声音的时候分布一致;2)声音的位置影响明显。


尤其最后一列,其声音似乎容易被光线影响,而形成轻微向左的误判。这表明声音的不确定更多一些,更容易被闪光影响。所以,这两个实验都证明了,视觉确实会影响听觉的认知。


1.jpg


图1:视听觉线索的组合[2]。(a): 实验架构。每个测试,一个视觉和一个听觉刺激同时被给出,测试者通过按按钮来报告感知的视觉刺激和听觉刺激位置。(b):  视觉对在中间位置发出的听觉刺激的感知位置影响被显示。不同颜色对应在不同位置的视觉刺激(从左到底,颜色从暖色调转为冷色调)。只有声音的模型以灰色表示。C) 对于35种刺激条件,测试者(实线)以及理想观测者的预测(破折线)的平均响应。左边第一列虚线为五个闪光位置;第二列为无音频的响应,从左至右的折线表示响应位置。在无音频时响应很精确。 上方第一行指五个声音位置;第二列为无视频响应,从左到右的折线表示响应情况。


二、无限音阶的拓扑


听觉反过来会促进视觉上的感知。我们在观赏影视作品时经常能感受到。比如在家看恐怖电影时,一到令人发悚的情节, 胆小点的就会情不自禁把音量关小或干脆把耳机拿下来,说明视听觉的双重作用确实增强了影片的恐怖程度。


另外,在音乐中,还有个奇怪的旋律。他通过两个或多个声部的交替,能产生无穷递进的感觉,让人误以为声音一直在往高处走。这就是谢帕得音阶(Shepard tone),也称为无限音阶。


相比音乐的历史,这种音阶出现的时间并不早。它是美国斯坦福大学的心理学家谢帕德在1971年的心理学实验中发明的,所以称为谢帕得音阶。它由不重合的多个八度音组合在一起,形成多个声部。


2017年克里斯托弗•诺兰执导关于1940年二战历史事件“敦刻尔克大撤退”的电影《敦刻尔克》时,为了能为海边撤退的场景来营造一种无始无终的紧张感,便送给作曲家汉斯•季默一个手表连续敲击的录音。


季默受此启发,便以与之类似的谢帕德音阶为基础,创作了电影的背景乐。事实证明,这段配乐非常完美地加强了撤退时的紧张感,让观众有了身临其境、坐立不安的感觉。



 谢帕德音阶



为了帮助理解,我写了个类似的两声部例子来解释谢帕德音阶的构成,如图2所示。其中,第一列的低音部是慢慢渐强,而第二列的高音部分则慢慢减弱,到最弱音时,再同时增加一个相同音量但低八度的音进来。按此规律,两列的旋律一直循环播放。


结果,在第一列的低音到最强处,刚好能接上第二列高音的最弱音。于是两个声部就实现了自然的过渡,低声部的过渡到高声部,高声部也过渡到低声部。


结果,如果按此规律增加更多的声部进来,那么,旋律中总可以一直听到至少两种声调在同时升高。而大脑会形成听觉错觉,认为这些音调一直在往上走。


2.jpg

图2  两声部的无限循环,左列为低音的渐强,右列为高音的渐弱;左列到B4时,刚好能接上右列的C5;同理,右列弱至B5时,会再增加一个同样小声的B3音进来,从而可以自然过渡到左列的C4上。


为了帮助理解,我写了个类似的两声部例子来解释谢帕德音阶的构成,如图2所示。其中,第一列的低音部是慢慢渐强,而第二列的高音部分则慢慢减弱,到最弱音时,再同时增加一个相同音量但低八度的音进来。


按此规律,两列的旋律一直循环播放。结果,在第一列的低音到最强处,刚好能接上第二列高音的最弱音。于是两个声部就实现了自然的过渡,低声部的过渡到高声部,高声部也过渡到低声部。


结果,如果按此规律增加更多的声部进来,那么,旋律中总可以一直听到至少两种声调在同时升高。而大脑会形成听觉错觉,认为这些音调一直在往上走。


有趣的是,这种循环,我们不仅能在音乐中看到,还能在很多方面见到类似的。比如艺术作品中,前面提到过的荷兰著名画家艾舍尔就画过一系列无限循环的作品。如图3所示的水的循环流动、楼梯的“循环”、还有画里画外的蜥蜴。这些都是现实世界不可能实现的无限循环。


3.jpg


图3  艾舍尔的各种循环画: 无尽的水流;无尽的楼梯;画里画外的蜥蜴


而在日常生活中,理发店的旋转灯筒也有着无限循环的影子,如图4所示。这种灯筒何时出现的无从考证,说法很多,有说是世界大战时期,有的是大革命时期。 一种说法是为了纪念一位为国家(法国)做出贡献的理发师,旋转灯筒的红白蓝三色其实是法国的国旗。 


4.jpg

图4:理发灯箱与针式打印机色带



另一种说法是:据说在中世纪,因为对人体的认识不足,人们认为生病是体内元素不平衡造成的。只有释放出多余的元素,才能恢复健康。血液显然是最容易放出的一种元素。


不过很多医师觉得这个工作比较低贱,不愿意动手放血,就委托理发师代办。所以,理发师就选三色柱作为他们行医和理发的标志。其中,三色柱中的红色代表动脉,蓝色代表静脉,白色代表纱布。


他们甚至还发明了专门用于切割血管的刀片,叫“柳叶刀”(Lancet)。这也是现在一本顶级医学期刊的名字。放血疗法也一度成为非常流行的治疗方法,就连美国总统华盛顿也是因感冒想用此法治疗,结果于1799年死于失血性休克。


不管来自何种典故,灯箱的旋转,会让人产生循环往复、一直向上的错觉。这是在理发店的无限循环。


事实上,这种循环性,我们在上世纪曾广泛使用、现在主要用于打印各种增值税发票的针式打印机上也能见到。大家可以拆开色带看看,就会发现色带两面都是一直在交替着打印的,如图4,因为这样可以提高色带的利用率。这是打印机里的无限循环。


这种循环的几何结构有个数学味更浓的名字,叫莫比乌斯带(Mobius Band),它可以将纸按图5(a)所示方法折成。类似地,普林斯顿大学教授、作曲家和音乐理论专家Dimitri Tymoczko在假定十二音律是一个圆形循环的基础上,认为两音符组成的音程关系可以表示成如图5(b)的莫比乌斯带而非甜甜圈的几何结构[3,4]。 


5.jpg

图5:(a): 莫比乌斯带折法:将纸按箭头方法对折后再粘在一起,便可以获得(c) 的结构;(b) 两音符音程关系可以视为莫比乌斯带[4]     (c) 莫比乌斯带上的蚂蚁(艾舍尔)


图5(c)中,艾舍尔画的蚂蚁图也是莫比乌斯带。它有个很意思的特点,如果让一只不会飞、只能生活在二维空间的蚂蚁沿着莫比乌斯带爬行。假如这个带子足够宽,蚂蚁只能向前爬,那么它可以一直向前爬下去,却不能发现这个带子是否有正有反。


用更严谨的话来表达,假定你在一个点上竖一根垂直的杆子,或者称为曲面上该点的法向量,然后将杆子保持与纸面的垂直一直向前挪动,结果你会发现当杆子运动到背面该点位置时,这根垂直杆子的方向与最初正面的方向刚好是相反的。


一个点上出现了两个相反的垂直杆子,这种矛盾的情况导致莫比乌斯带面上的点都没有确定的方向,称为无定向的曲面。


三维空间上,这种二维曲面还可以构造的,但是否存在一个三维无定向的结构呢?理论上是有的,即Klein瓶(克莱因瓶),如图6所示。


这个瓶子有个神奇的特点。如果有药片放在瓶子里的话,不用开瓶盖就拿把药片拿出来了。这对于拧不开瓶盖需要找男同胞帮忙的女性朋友们绝对是个福音。


因为在三维空间中,能打不开瓶盖就拿出瓶内药片的,似乎只有“气功大师”或“魔术师”可以做到。不过很遗憾,在三维空间中无法构造出真正的克莱因瓶实体,需要更高维度的空间。


除了莫比乌斯带和克莱因瓶这两个稍显古怪的几何结构外,日常生活中,我们还能见到大量的几何结构,如甜甜圈、杯子、花瓶等。如何确定它们的几何结构呢?这些结构能否用于人工智能呢?


6.jpg


图6:(a): 克莱因瓶; (b)图像边缘构成的克莱因瓶,不同颜色表示不同的折叠方向;(c) 玻璃的“克莱因瓶”



三、持续同调


研究几何结构的理论,有初等几何、高等几何、射影几何这些常见的,也有数学再深一点可以研究曲面不变性如高斯第一性、高斯第二性的微分几何,再复杂些就是代数几何(Algebra Geometry)和代数拓扑(Algebra Topology)。


这两个数学分支中复杂和抽象的理论这里不谈。着重介绍下拓扑,它是分析几何图形或空间在连续改变形状后仍能保持不变性的理论,俗称橡皮几何学理论。比如一个杯子,如果给它加个把手,它的拓扑结构就变了。


因为多了一个洞,它也就没办法在不改结构的情况下变成原来的杯子了。在拓扑学发展历史中,著名的哥尼斯堡七桥问题、多面体欧拉定理、四色问题等都是其中的重要问题。而如果想直观感受下拓扑的魅力,不妨买个中国的传统民俗玩具智环类的如九连环来玩玩,它和拓扑密切相关。


那么如何从拓扑角度判断两个形变的结构具有相同拓扑性质呢?拓扑学家们定义了一些直观的参数。最简单的参数如凸多面体上的顶点数(Vertex)、棱数(Edge)和面数(Face)。


利用这三个参数的交错和可以确定多面体的一个不变量,叫欧拉示性数(Euler Characteristic)。比如三角形,它的顶点为3,棱数为3,面数为2(把外部数在内),那么它的欧拉示性数就等于V-E+F=2。这里我们把顶点视为0维空间,边或棱看成是1维空间,平面看成是2维空间。


如果希望向高维空间推广,我们可以继续用这样的交错和来估计高维拓扑结构的不变量。不过得换个稍个稍微专业点的名字,叫Betti数(Betti number)。如第0维的Betti数b0表示连通分量(Connected components)的数量,第1维b1表示有圆形洞(Circular)的数量,第2维b2表示有二维球形洞(Void或Cavities)的数量。


以图7所示甜甜圈为例,它只有一个连通分量,b0=1;但有二个圆形洞,所以b1=2;有一个二维结构构成的空洞(Void)。那么,它的欧拉示性数则是这些按维数获得的Betti数分量的交错和,即 b0-b1+b2=0。


7.jpg

图7:n维空间的甜甜圈


拓扑学的研究在计算机图形学方面有着异常重要的地位,因为图形学里涉及的结构变形、几何结构分析上都离不开它。但是在人工智能里怎么使用拓扑呢?


与图形学不同,人工智能中有的主要是数据。每个数据点都是离散的、有噪的。如果直接利用拓扑学的概念,并不好处理,因为Betti数的估计需要连续的结构。


不过幸运地是,数学家们发明了一套新的办法来研究数据中的拓扑,叫持续同调(Persistent Homology)[5]。名字很学术,理论也相对复杂。所以,我在这里用一个不太精确但可以直观理解的方式来解释。


如果用五线谱来比拟,一个音是一个结构。但人唱这个音的时候会有细微的抖动,通常几个赫兹到几十个赫兹。如果在这个差异范围内变化,他人听不出来,那么我们仍然可以认为这些音是同一个调的。


那么,这个从最小变化到最大不可区分音调的变化区间就是这个音所具有的生命力,称为持续性。另外,如果这个音出现时间非常短,那它就不会被认为是稳定的,可能只是跑调或破音了。要找主旋律,这些生命力短的音可以忽略不计。保留下来的就是那些稳定或有较长生命力的同调的音了。


与音调不同的是,数据中的持续同调是希望找到一些在一定范围内稳定不变的几何结构。那如何去寻找范围呢?科学家们想到了可以用一组能连通的三角形或学术上要求更严谨的名字“单纯复形”(Simplicial Complex),或半径可变的圆来实现。


如图8所示,左图中有七个数据点,如果给一组比较小的三角形或半径小的圆,则这些圆在连通意义下不能覆盖全部数据。因此,可以在保证连通性的情况下,将所有数据点通过若干相互连通的圆来覆盖。


因为这些圆的大小限制,中间的空洞不会被填充。所以,最终连通成的圆形集合会保留原来的几何结构。我们能根据这个圆形集合形成的结构来估计它在不同维度上的Betti数是多少。


这些Betti数可以做为数据分析的一组特征,也可以用来估计欧拉示性数。因为数据是离散的,如果要找一个稳定的几何结构,那么可通过增加圆的半径来完成对数据集合的多次覆盖,直到数据集合中的被连通的圆的集合完全填充。


最终,原来能看到的拓扑结构如空洞就会终止,而对应的Betti数的持续性或生命力也会消逝,并出现新的拓扑结构。


8.jpg

图8  左:从数据点中用圆形覆盖来提取拓扑结构;右:有噪的双圆形数据集

 

我们将稳定的拓扑结构提取出来,与已知目标的拓扑结构进行匹配,这样就能知道数据集合与哪种形式的结构最相似。


另外,直接在数据上做推测也不是完全合理的。因为数据是有噪声的,而数据量过大的时候,噪声的波动会破坏原来的几何结构,比如形成短路边,如图8右图。所以,我们还得用些采样技术来适当地稀疏化数据。


这样做能否发现一些有意思的现象呢?斯坦福大学的Gunnar Carlsson教授等人曾经对自然图像做过实验[6]。他们将图像切成若干小块,每块上只有朝向不同的边缘,他们对这些边缘图像块进行采样,然后再利用不断变大的三角形来连通和勾画图像块集合的拓扑结构。


结果他们发现自然图像的边缘图像块集合构成的结构和Klein瓶很相似,如图6(b)。这是第一个与拓扑相关、比较有意思的发现。


在实际应用中,还是能看到一些它的应用。比如手语识别上,因为手语的结构具有一定的拓扑性质。我们也曾将其用于图像的目标识别[7]。


需要提醒的是,仅用拓扑结构来构造目标识别系统是有风险的。比如带把手的咖啡杯和实心甜甜圈这种人一眼就能区分的目标,从拓扑学家的角度来看却是分不清的。

9.jpg

图9:咖啡杯和甜甜圈


更重要的是,将这类方法用于高维数据分析还存在一个问题:这些基元指标如Betti数是基于人对三维空间的直觉来获得的;至于高维空间是否还存在一些特别的基元,人类还无法感知。也许存在更复杂的高维基元,只是无法感知和想象而已。要解开这个难题,或许和解开彭罗斯超弦理论中隐藏的高维结构一样的困难。


所以,单纯依赖拓扑结构来完成人工智能中常常面临的预测任务,现阶段很有可能会陷入与“量子计算用于人工智能”一样、看上去很美的尴尬境界,因为“不是不好,时辰未到”。


不过,理解音乐、艺术、数据中的几何或拓扑结构,对于改善对智能体发育和犯错机制的了解,必将大有裨益。



该栏目由系列文章组成,将长期连载,敬请期待。


文章来源:

张军平—CAA混合智能专委会

参考文献:

1. H. McGurk, J. MacDonald. Hearing lips and seeing voices. Nature. 264 (5588): 746–748. doi:10.1038/264746a0. PMID 1012311, 1976

2. K. P. Körding, U. Beierholm, W. J. Ma, S. Quartz, J. B. Tenenbaum, L. Shams. Causal Inference in Multisensory Perception. PLOS, ONE 2(9): e943, 2007

3. D. Tymoczko. The Geometry of Musical Chords. Science 07, 313(5783), pp. 72-74. DOI: 10.1126/science.1126287, Jul 2006

4. D. Tymoczko. A Geometry of Music: Harmony and Counterpoint in the Extended Common Practice. Oxford University Press, 2011

5. H. Edelsbrunner, J. Harer. Persistent Homology—a Survey. Surveys on Discrete and Computational Geometry: Twenty Years Later: AMS-IMS-SIAM Joint Summer Research Conference, Jul 18-22, 2006, Snowbird, Utah. American Mathematical Society, pp. 257-283

6. G. Carlsson, T. Ishkhanov, V. de Silva, A. Zomorodian. On the Local Behavior of Spaces of Natural Images, International Journal of Computer Vision, vol. 76, no. 1, pp. 1-12, 2008

7. J. Zhang, Z. Xie and S. Z. Li. Prime Discriminant Simplicial Complex. IEEE Transactions on Neural Networks and Learning Systems, vol. 24, no.1, pp. 133-144, 2013



相关推荐
发表评论
访客的头像
请先 登录 再评论,若不是会员请先 注册
留言列表

    还没有留言,还不快点抢沙发?