视觉、听觉和触觉是未来的“大波浪” 在徐方看来,视觉、听觉和触觉将是人工智能研究的重点。正如中国工程院院士、中国人工智能学会理事长李德毅在大会上所说的,脑认知的主要外在表现是语言认知和图像认知。这同时说明,要赋予机器感知,就应当让计算机具有视觉、听觉和说话等能力,进而才能使机器具有适应环境和自主作出决策的能力。换句话说,让计算机学会如何像人一样听说看,才是计算机视觉和听觉研究领域的任务。 然而,这种对于人类而言与生俱来再自然不过的能力,对计算机来说却难上加难。如果说,人工智能发展到当今的成果是:计算机无论在计算能力还是记忆能力上,都能轻而易举秒杀人类中像爱因斯坦这样的高智商个体,但是在眼睛看和耳朵听的能力上,最厉害的计算机可能也比不上小婴儿或者邻居家的二傻子。 胡郁也提到《从0到1》这本书中一句经典的表述,美国近些年投入很多资金研发能飞的汽车,最后却得到了140字符(指的是Twitter):真实世界需要的是物理、综合的东西,但虚拟化和信息化反而发展更快。他认为这句话同样适用于人工智能与机器人。 在视觉方面,微软全球执行副总裁沈向洋持积极态度:人类的感知有九成之多来自视觉,研发这部分“将大有可为”。 比如,今年微软在社交网络上意外走红的“how-old”——用户可以通过上传自己的照片,来测试自己的年龄——就是利用脸部API,基于云的脸部识别算法来检测和识别图片中的人脸。 他还提到了微软小冰的最新研究成果,智能聊天机器人“小冰”具有辨识猫狗品种的能力,甚至在面对猫的图片时能够发出“小眼神儿太犀利了”的“吐槽”。而在“小冰”的开发过程中,深层神经网络为计算机提供了不少的帮助。 沈向洋也承认,发展计算机视觉是有难度的。比如在人脸识别过程中,由于拍照光线、发型、角度、妆容等因素影响,得出的结果往往大相径庭,照片上的林志颖和郭德纲现实中基本同岁,计算机却给出一个36岁、一个51岁的错误答案。正因为“A picture is worth a thousand words(一图胜千言)”,计算机在图像识别的路上还有很长的距离要走。 这在沈向洋看来,似乎更具有“目标”的含义,“对于在做计算机的人来说,如果把通过图灵测试做目标,目标就不够远大。”对计算机视觉,他预测接下来的研究方向是“两大一精”,即大数据、大计算、精准计算。这些也值得中国人工智能领域的专家所注意。 (责任编辑:admin) |