久村网
当前位置     首页 >  科技  > 人工智能如何践行“科技向善”

人工智能如何践行“科技向善”

2019-12-02 11:03:55
[摘要] 在过去,微软和盲人公益组织红丹丹视障文化服务中心进行了合作,红丹丹将目前盲人群体所缺乏的资源的书籍挑选出,微软通过神经网络的合成语音“晓晓”来合成有声书。据微软人工智能女声晓晓语音产品负责人刘越颖介绍

记者马蓝秀和张景超在北京报道

2018年10月,微软发布了一个基于深层神经网络的文本到语音(tts)分析和操作系统。

这项技术于一年前发布,并在一些场景中登陆,其中帮助视障人士成为一个非常关键的应用场景。

过去,微软与盲人公益组织红丹丹视觉障碍文化服务中心(以下简称“红丹丹”)合作。红色丹丹精选书籍(百科知识、文学、教材等)。)这是盲人目前缺乏的。微软通过神经网络的合成语音“肖骁晓”合成有声读物。

10月15日是国际盲人节。在这一天,合成音频书籍被上传到脑海中的图书馆——云中的图书馆——并且可以到达全国105所盲人学校的学生。

此前,微软亚洲互联网工程研究所人工智能语音组高级产品总监丁正毅(Ding Zhengyi)在10月9日接受包括《中国商业新闻》在内的媒体记者采访时表示,这类书籍最初要求人们录音,找到录音机和录音室需要时间和精力,录制高质量的声音需要更多的成本和时间。然而,如果采用tts合成,它可以在7×24小时内合成,并且只要有文本内容,就可以连续输出音频内容。“这打破了音频内容制作的障碍。这群视障人士特别有意义。虽然他们能听到市场上的有声书籍,但数量远远少于文本数量。如果我们能自动将文本转换成音频,我们就能极大地丰富视障朋友的音频阅读来源。”

成本更低

就具体成本而言,据微软称,一本100页的纸质书需要400到500页才能翻译成盲文书籍。生产成本约为80-100元,相对较高。通过tts合成的有声读物的平均价格约为9000元。然而,有声读物出版后,它将在云中传播,覆盖全国盲人学校的10,000多名学生。如果一本书传播均匀,它的成本可能不到1元,而且可以在很大范围内无限制地传播。

市场上有各种有声读物。这个项目合成的有声读物和前者有什么不同?

对此,红丹丹执行董事曾欣向记者解释说,这些有声读物是根据盲校儿童和教师的需求制作的,并不是市场上已经有售的名书或通俗小说,而是更多关注于目前市场上缺乏的用于学习或成长视障学生的有声读物。“在市场上很难找到这种书的音频甚至电子版本,所以对它们的需求很大。此外,我们还将根据年轻人的学习需要,为公务员制定法律和考试材料。在市场上很难买到这样的有声教材,我们将通过这种技术手段帮助学生尽快完成转换,形成有声教材。”曾欣说。

据微软人工智能女性语音产品肖骁负责人刘岳影介绍,该技术目前可以在两种情况下提供服务:一种是提供实时合成,基本上在毫秒量级,可以在几百毫秒内反馈。它通常用于智能对话和语音助手等场景。另一种非实时合成场景,例如整个有声读物的长文本合成,需要大约1/3的总音频时间。一小时的音频可以在十分钟和二十分钟内合成。如果是手动录制的,它可以录制一个小时的音频。重复的错误需要被记录并不断重复。录制一小时的音频成品需要三个小时,而机器可能需要十分钟。这将三个小时的人工记录节省到十分钟,大大提高了效率。

曾欣还补充道:“作为一个公益组织,就制作有声读物的成本而言,我们可能不像一个商业组织。做这件事需要一些志愿者的资源。有声读物的录制将花费我们三个月的时间来尽快完成。时间成本会很长,包括人员的协调成本。目前使用的技术可以在几十秒或几分钟内完成有声读物的制作。成本当然是无与伦比的。"

声音试图更自然。

微软语音、自然语言和机器翻译技术总监黄东学在他的文章中指出,tts系统使用深层神经网络来克服传统“文本到语音”系统在匹配口音和口语语调(称为韵律结构)以及将语音单元合成为计算机音频方面的局限性。这使得声音更加自然。

这些有声读物的声音来自微软的声音品牌“肖骁”。丁磊说,肖骁是第一个基于深层神经网络的声音。他说微软平台上有很多声音品牌,最初合成的声音听起来不自然。一旦你听了它,你就会知道它是一个机器人。长期听很容易导致疲劳。经过几年的发展,肖骁的嗓音已经发展到一个相对自然的水平。

10月15日,记者在“心灵图书馆”小程序中收听了由肖骁的声音合成的上述有声书籍《德国儿童百科全书——啮齿类动物百科全书》的开头部分,发现机器人的声音相对正常,但在一些句子和停顿方面仍需改进。

黄东学还指出,传统的“文本到语音”系统将韵律结构分解成由独立模型控制的语言分析和声学预测步骤。这将使合成音频变得沉闷。然而,“文本到语音”系统可以同时进行韵律预测和声音合成,并且结果更加平滑和自然。

“阅读文章时,会有自然的空气变化和停顿。节奏很自然。听起来不累。”刘岳影说,在采访现场,微软的语音团队播放了几本由肖骁创作的有声读物。

微软希望有声书籍能够通过技术快速生成,不同的声音和风格能够通过技术来匹配更多书籍的类型。丁正毅告诉记者,该系统目前支持新闻、情感故事、语音助手、客服等场景,不同场景中的声音尽量自然。

此外,丁磊表示,从去年11月到今年,微软不断改进技术,调整性能,提高计算能力,从声音的非实时转换到实时,以细节为基础抛光音质,做出了巨大努力。“去年我们推出这个声音时,声音非常悦耳,但细节仍有很大的改进潜力。例如,当时说双语还不够好,现在已经很自然了。我们正在逐步提高音效。”

(编辑:张景超,校对:阎景宁)

资料来源:中国商业网

关注通化顺金融微信公众号(ths518),获取更多金融信息

极速飞艇app 湖北快三 甘肃快三 山东十一选五 河北11选5开奖结果

© Copyright 2018-2019 szketech.com 久村网 Inc. All Rights Reserved.