随着网络时代的到来,互联网中的各种信息呈现爆炸式的增长。个人越来越多地要经由互联网操作各种各样的远程信息资源,政府部门要采用电子政务来方便群众和改善行政效率,企业要采用网络呼叫中心来服务客户和加速商业进程。在互联网络上的各种信息资源中,语音和音频(包括视频信息中的音频部分)是其中重要的组成部分之一,因此基于音频的多媒体检索显得越发的重要。
深圳市智能媒体和语音重点实验室在多年语音技术研究的基础上,结合服务行业实际业务的特点和需求,率先开发了面向海量多媒体内容的检索系统,让客户可以像使用“谷歌”、“百度”的文本检索一样方便地对多媒体内容进行检索。 为了使客户得到更便捷的服务,系统拥有面向行业定制的应用接口:可根据行业媒体资产管理和个性化服务的要求 ,定制可扩展的输出接口。 灵活的接口模式:支持各种常见的视音频格式和多种API开发接口,可满足多种开发和应用集成环境的要求。
特点: 1.不同协议与编码形式的语音资源信息获取 能够对一定区域范围内互联网上的网站进行全面的快速搜索;对不同来源、不同格式、不同信道等语音及音频资源进行获取;
2.基于内容的语音检索 通过对特定内容音频信息(或者敏感信息)的检索,实现对网络复杂海量语音信息的检索和定位,并且对定义的关键词对应语音进行有效检出;
3.稳健的音频分割和分类技术 实现了一个多特征、多分类器的盲分割前端 ,基于MLP/SVM的融合器得到最后的分割分类结果。 基于音素图的两阶段关键词检索技术:预处理进行连续语音识别的结果组 织成多候选拼音图-作为元数据,并建立内容索引。 4.海量语音支持和多格式 支持的格式包括常见的电信应用和媒体应用的格 式,如音频编码PCM、u/A-PCM、ADPCM、mp3、vox、GSM、AMR,视频编码 MJPEG、MPEG1/2、MPEG4(SP/ASP)、H.264/AVC等编码格式。中文、包括带口音中文语音支持:经过长时间的研究,将语音识别技术中 的发音变化的研究工作扩展到中文方言和带口音语音识别方向,重点研究了广东话和多种北方话带口音语音中的发音变异。