这个 “歌手”是怎样炼成的？

作者：微软科技时间：2018/03/28 阅读：5900

“ 如果你是作词家，写词时没灵感怎么办？它可以看图作词助你找灵感！如果你想和朋友来一段FreeStyle […]

“

如果你是作词家，

写词时没灵感怎么办？

它可以看图作词助你找灵感！

如果你想和朋友来一段FreeStyle，

可是没素材怎么办？

它可以看图作词让你才思如泉涌！

如果你想给心上人送一首自己作词的歌，

却想不出优美的词语怎么办？

它可以看图作词给你最美的语言！

……

它是谁？

它还可以做什么？

没错！

它就是微软在狗年新春，

为大家送出的特别礼物，

2月12日首次公开！

在春节期间为大家添加许多欢乐时刻的

“唱图”

↓↓↓

2018狗年大吉 | 嘘~~~图片要唱歌了

提供一张图片，

再次感受一下它到底有多厉害！

展开剩余83%

”

REC

上传任意一张图片，

它就能识别图片内容，

并根据内容创作歌词，

然后声情并茂地演绎出来，

而且还能男声女声随意切换。

是什么让它如此强大？

今天我们来说一说黑科技中的一股清流——唱图，看看它的背后蕴含了哪些创新能量。我们把这个唱作型歌手“分解”成各种配方来讲解，毕竟你可能也想照方抓药开发个类似的它出来呐~~

言归正传，我们就从一首歌的诞生过程来开始吧。

剖析创作意图并确定素材

不管是小学时候写作文，还是工作后写业务简报，甚至歌词创作，首先要明确创作意图并确定最终成果所要包含的内容。

当你在唱图中提供了一张图片后，唱图需要分析图片内容是什么，风景？建筑？人物？

如果确定图片中包含人物，那么还需要识别人物的面部表情和情绪。

因此唱图首先会利用微软认知服务中的计算机视觉API识别图片中包含的内容。这个API很厉害哦，可以从给出的图像中提取各种信息，例如场景、地点、名人、地标建筑物、印刷或手写文字……借此可以理解图片包含的内容，为后续创作提供素材。

计算机视觉API识别出了图片的场景和内容

如果识别到图片中包含人物，接下来会利用认知服务中的人脸识别API和情绪识别API来判断人物的数量，性别年龄配饰等特征，以及人物的表情和情绪。其中人脸识别API可用于实现人脸检测和识别、相似人脸搜索、人脸分组等功能；情绪识别API可以检测到愤怒、轻蔑、厌恶、恐惧、快乐、无表情、悲伤以及惊讶等常见的人脸表情。这些检测结果也将进一步应用到后面歌词创作过程中。

情绪识别API可检测照片中的人脸并判断每个人的面部表情

歌词创作

在这一过程中，唱图使用MSRA自然语言处理的多项技术和最新的科研成果，同时利用深度神经网络的方法对海量的歌词来进行分析。诸如LUIS服务中关于文本的意图、实体、预定义模型、自定义模型的功能，以及文本分析中关键字、语言情绪提取等诸多技术都是幕后英雄。最后再结合图片中的信息，完成整个歌词创作。

歌曲演绎

这一过程中，唱图使用了认知服务中的必应语音API和自定义语音服务。其中必应语音API主要用于保证从歌词文本到不同性别的人类声音之间的正确转换，自定义语音服务则可通过自定义的语音识别器声学模型来对声音本身的音色、节奏、风格等特征进行调整。

“认知服务” API和Azure的机器学习平台相辅相成，他们是实现唱图应用所必不可少的。目前，认知服务提供了涵盖计算机视觉、语音、知识、搜索、语言五大类共二十余项API，通过灵活排列组合调用这些服务，即可简单快速地编写出可以跨平台运行的智能应用。

所以，这个网红背后的技术，虽然看着非常高大上，但讲真，任何开发者都可以轻松拥有。

此外，你也可以戳阅读原文进一步了解认知服务，更重要的是，你自己也能轻松开发一个如此聪明的程序出来，还有更多内容，填写报名信息，免费参加专家指导课程（webinar），课后还有课件干货哟~

TAGS

TAGS

这个 “歌手”是怎样炼成的？

发表回复取消回复

寻找客户&合作伙伴

QQ群：866985746

知识库

全球智慧城市

联系我们

登录

快速注册

TAGS

这个 “歌手”是怎样炼成的？

发表回复 取消回复

寻找客户&合作伙伴

QQ群：866985746

知识库

全球智慧城市

联系我们

发表回复取消回复