您当前的位置 : 首页 > 科技 > 正文

谷歌AI实验室再现新成果:将开源基于机器学习的手部跟踪算法

2019-08-20 16:09:02

如今数以百万的人都在使用手语进行交流,但至今致力于将捕捉复杂手势并将其转化为口头语言的科学项目大多都半路夭折。

编译 | 葛兰东、奇点

编辑 | 李郁然

现如今,手语是一种独特的语言,其使用双手、面部表情和其他线索就来产生一种不同于其他语言的丰富交流模式。

但在关于手语的科学研究上,实现强有力的“实时手部感知”至今都是科学界中一项具有挑战性的计算视觉任务,这也是大多数人一直在等待的手语技术的科研突破。

近日,谷歌人工智能实验室在“实时手部跟踪”方面就有了新的进展。

谷歌的研究人员说:“这种科研上的挑战也促使了我们的科学家们研究了一种新的计算机视觉方法来进行手部感知,这是一种通过机器学习来支持的新技术。”支持高准确性手势和五指追踪,可根据一帧图像推断出单手的21个立体节点。

今年6月,谷歌在计算机视觉和模式识别大会上预览了这项新技术,除此之外也在MediaPipe中实施了这项技术, MediaPipe是一个跨平台框架,其用于构建多模式应用机器学习流程,以处理不同模态(如视频和音频)的感知数据。

据了解,其源代码和端到端使用场景都可以在GitHub上获得 。

据悉,谷歌的这项新技术使用了一些巧妙的快捷方式,通过提高机器学习系统的整体效率, 在现当下仅需要一部智能手机和一台相机,就可以实时生成一张高度精确的手及其所有手指的地图。

据其内部人员透露:“目前最先进的推理方法,主要依赖于强大的桌面环境,而我们的方法可以在手机上实现实时性能,甚至可以扩展到多个手。”

同时研究工程师Valentin Bazarevsky和Fan Zhang在博客中表示:“感知手的形状和运动的能力是改善各种技术领域及平台用户体验的重要组成部分——我们也希望向更广泛的研究和开发社区提供这种手势感知功能,这可能将会刺激创新性案例的出现、新的应用和新的研究途径的出现。”

研究这项突破并非易事,因为这项强健的实时手部感知技术,在研究上着实是困难重重。

研究过程中, 手经常会彼此遮挡(例如手指/手掌的遮挡和握手),同时也缺乏高对比度模式的应用,所以这就为研发增加了很大的难度。

不仅如此,手的运动通常是快速的、微妙的,或者两者兼而有之。计算机根本不擅长实时捕捉到这些运动。

基本上,计算机很难快速做到实时正确解读这些运动。即使使用了多摄像头,SignAll使用的深度感应设备也很难跟踪到每个动作。

但这些并没有阻挡了谷歌的研究脚步,在这种情况下,他们的目标要至少在一定程度上减少算法筛选所需的数据量。因为更少的数据量将实现更快地转换。

关于我们 | 网站地图
今日甘南   版权所有 Copyright(C)2005-2019