微软在Build大会上首次推出视频AI云服务

微软正在向流媒体视频开发者免费提供人工智能(AI). 现在它想看看他们会怎么处理它.

在其建立会议在西雅图, 华盛顿, 微软今天发布了Video Indexer, 云服务现在是其认知服务阵容的一部分. 给大家一些背景知识, 该公司的人工智能和研究小组成立于2016年9月，旨在实现人工智能的民主化, 使所有开发人员都可以使用它. 它创建了可以通过api或sdk集成到其他代码中的工具或服务，以添加AI功能.

一年半前，该组织的认知服务工具包首次亮相，提供14种基于机器的学习服务. 去年，这一数字增至29项. 今天，微软推出了4项新服务，其中一项加速了视频和音频元数据的创建.

Video Indexer可以作为预览下载进行免费测试. 微软希望开发者们可以尝试一下，这样它就可以从他们的经验中学习并完善这项服务.

带视频索引器, 开发人员可以从文件中获取各种有用的元数据，而无需人工交互. 该服务可以识别人脸, 抄录语音, 检测视频中的对象, 探测情绪. 有了这些信息, 发布商可以通过提供与视频内容更匹配的定向广告来提高曝光率或提高盈利.

在预览阶段, Video Indexer是免费的，但是开发者每天只能上传10个小时的视频，总共只能上传40个小时. 它们最多可以加载20个文件，每个文件不超过4gb.

视频索引器是快速的，处理45分钟的视频在大约5分钟. 它通过将视频分成几个部分，并使用人工智能从每个部分提取数据来实现这一目标. 它可以随时识别哪个说话者在说话，并索引屏幕上的文本. 它可以翻译文本(目前支持9种语言)，并监控明确的音频或视频内容. 它还能够检测场景变化并提取关键帧. 这项服务只支持保存视频，不支持实时视频.

由于这项工作仍在进行中，一些任务的成功率高于其他任务. 面部检测是高度可靠的，而情绪检测的成功率约为60%. 这个过程被设计成完全自动化的, 但即使公司增加了人工抽查, 与手工完成所有工作相比，获得结果所花费的时间要少得多.

大约8,000人在微软的人工智能和研究小组工作, 5,000人严格从事人工智能研究. 其中约150人从事认知服务. 这群工程师和研究人员将人工智能研究转化为产品. 对于视频，他们已经达到了可以与更大的群体分享他们的工作的程度.

预计预览期将持续六个月至一年, 欧文·邝说, 他是微软人工智能和研究营销部门的项目经理. 该公司将与客户密切合作，以监控性能. 微软发表了一篇博客文章提供更多信息和资产链接.