当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 人工智能语音技术的三大挑战

人工智能语音技术的三大挑战

来源：51CTO.COM 2023-05-04 08:09:05 0浏览收藏

怎么入门科技周边编程？需要学习哪些知识点？这是新手们刚接触编程时常见的问题；下面golang学习网就来给大家整理分享一些知识点，希望能够给初学者一些帮助。本篇文章就来介绍《人工智能语音技术的三大挑战》，涉及到，有需要的可以收藏一下

人工智能从业者在谈到语音对语音技术时通常会遇到常见的三个障碍。

人工智能(AI)能够生成类似人类的数据的前景已经被谈论了几十年。然而，数据科学家已经解决了这个问题，但收效甚微。精确确定创建此类系统的有效策略带来了从技术到伦理以及两者之间的各个方面的挑战。然而，生成式人工智能已经成为值得关注的亮点。

在最基本的情况下，生成式人工智能使机器能够使用音频文件、文本和图像等元素生成从语音到写作到艺术的内容。科技投资公司SequoiaCapita公司表示:“生成式人工智能不仅会变得更快、更便宜，在某些情况下还会比人类手工创造的人工智能更好。”

特别是基于生成语音的机器学习技术，最近的进展已经取得了巨大的进步，但人们仍然有很长的路要走。事实上，语音压缩出现在人们非常依赖的应用程序中，比如Zoom和Teams，这仍然是基于上世纪80年代和90年代的技术。虽然语音对语音技术有无限的潜力，但评估生成式人工智能发展障碍的挑战和缺点至关重要。

以下是人工智能从业者在谈到语音对语音技术时常见的三个障碍。

1.音质

可以说，最佳对话最重要的部分是它是可以理解的。在语音对语音技术的情况下，目标是听起来像人。例如，Siri和Alexa的机器人语调就像机器一样，并不总是清晰。这很难通过人工智能实现，有几个原因，但人类语言的细微差别起了很大作用。

梅拉比安法则可以帮助解释这一点。人类的对话可以分为三部分：55%的面部表情，38%的语气，以及仅仅7%的文字。机器理解依赖于文字或内容来操作。只有在自然语言处理(NLP)方面取得了最近的进展，才有可能根据情绪、情绪、音色和其他重要(但不一定是口语)的语言方面来训练AI模型。如果你只处理音频，而不是视觉，这就更有挑战性了，因为没有超过一半的理解来自面部表情。