首页
会议中主动发言者检测的音视频融合策略
返回

会议中主动发言者检测的音视频融合策略

2022-12-19 科技信息 By:佚名
最佳答案主动说话者检测是检测在给定时间说话的人的任务。在这种情况下,交流不仅通过语音进行,还通过非语言符号进行。因此,纯音频方法可能不够高效。arXiv.org最近的一篇论文提出了一种依赖于音频信息与视频信息相结合的方法。研究人员合并视觉和音频特征以获得稳健的最终检测。分析了两种可能的音频分析...

主动说话者检测是检测在给定时间说话的人的任务。在这种情况下,交流不仅通过语音进行,还通过非语言符号进行。因此,纯音频方法可能不够高效。

arXiv.org最近的一篇论文提出了一种依赖于音频信息与视频信息相结合的方法。

研究人员合并视觉和音频特征以获得稳健的最终检测。分析了两种可能的音频分析方法:一种具有神经网络的监督方法和一种具有扬声器分割和聚类方法的无监督方法。基于3DCNN的纯视觉说话者分类器应用于视觉模态。

研究人员比较了两种融合:朴素融合和基于注意力模块的融合。结果表明,合并视觉和音频模式比我们的基于视频的系统具有更高的性能。

会议是专业环境中的常见活动,赋予语音助理高级功能以促进会议管理仍然具有挑战性。在这种情况下,像主动说话者检测这样的任务可以为模拟会议参与者之间的交互提供有用的见解。受我们与高级会议助手相关的应用程序上下文的启发,我们希望结合音频和视频信息以实现最佳性能。在本文中,我们提出了两种不同类型的融合来检测主动说话者,通过神经网络结合两种视觉模式和一种音频模式。为了进行比较,还使用了用于音频特征提取的经典无监督方法。我们期望以每个参与者的面部为中心的视觉数据非常适合基于对嘴唇和面部手势的检测来检测语音活动。因此,我们的基线系统使用视觉数据,我们选择了3D卷积神经网络架构,该架构对于同时编码外观和运动是有效的。为了改进这个系统,我们通过使用CNN或无监督扬声器分类系统处理音频流来补充视觉信息。我们通过光流运动添加视觉模态信息,进一步改进了这个系统。我们使用公开且最先进的基准评估了我们的提案:AMI语料库。我们分析了每个系统对合并的贡献,以确定给定的参与者当前是否在讲话。我们还讨论了我们获得的结果。此外,我们已经证明,对于我们的应用程序上下文,添加运动信息可以大大提高性能。最后,我们证明了基于注意力的融合在降低标准偏差的同时提高了性能。

猜你喜欢
蒲地蓝消炎片的作用有哪些功效(蒲地蓝消炎片的作用有哪些)

蒲地蓝消炎片的作用有哪些功效(蒲地蓝消炎片的作用有哪些)

12-19 0 阅读
申请一个公众号要钱吗(申请公众号要钱吗)

申请一个公众号要钱吗(申请公众号要钱吗)

12-19 0 阅读
直销家园网官网(直销家园网)

直销家园网官网(直销家园网)

12-01 0 阅读
进口轴承(关于进口轴承的介绍)

进口轴承(关于进口轴承的介绍)

12-18 0 阅读
亚米级是啥意思(亚米级是什么意思)

亚米级是啥意思(亚米级是什么意思)

12-19 0 阅读
柏吉尔资料(柏吉尔)

柏吉尔资料(柏吉尔)

12-18 0 阅读
热门推荐
九月第一天怎么发朋友圈说说(九月第一天怎么发朋友圈)

九月第一天怎么发朋友圈说说(九月第一天怎么发朋友圈)

12-18 0 阅读
第一款Blocks模块化智能手表可供预订

第一款Blocks模块化智能手表可供预订

12-19 0 阅读
怎么保证余额宝的安全(余额宝安全漏洞)

怎么保证余额宝的安全(余额宝安全漏洞)

12-18 0 阅读
荣耀C系列的新成员有望很快推出

荣耀C系列的新成员有望很快推出

12-18 0 阅读
spn故障码大全(spn)

spn故障码大全(spn)

12-19 0 阅读
蓝色生活一(2015)和生活8 xl在美国首次亮相

蓝色生活一(2015)和生活8 xl在美国首次亮相

12-18 0 阅读
曾经是小小少年到如今风度翩翩歌词(曾经小小少年到如今风度翩翩什么歌)

曾经是小小少年到如今风度翩翩歌词(曾经小小少年到如今风度翩翩什么歌)

12-19 0 阅读
小欧手机游戏(小欧手机)

小欧手机游戏(小欧手机)

12-18 0 阅读
人最正确的睡觉方向财运(人最正确的睡觉方向)

人最正确的睡觉方向财运(人最正确的睡觉方向)

10-05 0 阅读
LG KF510(LG KF600)

LG KF510(LG KF600)

12-18 0 阅读