IT之家 5 月 25 日消息,巴塞罗那超级计算中心(BSC)和加泰罗尼亚理工大学(UPC)的研究人员开发了一种将手语翻译成文本的新工具,以给予听觉障碍者更多包容性和可及性。该工具利用人工智能技术,包括自我注意机制和更快的吞吐量,以更准确地理解手语者的姿势并产生准确的文字转写。
▲ 图源 Arxiv
该工具基于 How2Sign 数据集,这是一个公开可用的大规模、多模态和多视图数据集,包括 80 小时的美国手语教学视频和相应的英语文字记录。该数据集由 BSC 和 UPC 发布,用于训练模型,以便将手语转换为文本。研究人员使用膨胀式三维网络(I3D)对数据进行预处理,这是一种视频提取方法,可以对视频进行三维过滤,直接从视频中获取时空信息。并使用了一个转化器式的机器学习模型,与 ChatGPT 等其他人工智能工具背后的模型类似。
点击查看完整文章本文来源于网络聚合新闻内容, 查看原文请点击新闻来源链接
华人帮对其文字、图片与其他内容的真实性、及时性、完整性和准确性以及其权利属性均不作任何保证和承诺,如有侵权请联系[email protected], 华人帮核实后第一时间删除.
华人帮对其文字、图片与其他内容的真实性、及时性、完整性和准确性以及其权利属性均不作任何保证和承诺,如有侵权请联系[email protected], 华人帮核实后第一时间删除.