浅谈声纹自动识别系统

2016-10-13 9:48:40

声纹是人体生物特征中的重要组成部分,全国大量已破和未破的案件,均能提取犯罪嫌疑人语音资料。如果其中一部分能够通过声纹识别技术,对犯罪嫌疑人进行快速比对排查,就能够大大提高案件的侦破效率。

  

声纹识别分为两大类,一类是内容理解,一类为说话人识别。内容理解包括把语音转换为文字、行为等等,说话人识别则是根据声音识别说话人是谁,而不关注具体语音的内容。公司的声纹自动识别系统关注的就是第二类:确定说话人是谁,也就是身份鉴别功能。

  

声纹自动识别技术已经在我们的日常生活中广泛应用,例如语音的文字录入、门禁等等。当前,声纹自动识别在公安、安全领域最广泛的应用就是黑名单检测,但是在刑侦领域的身份鉴别功能还是空白。最主要的原因就是之前声纹自动识别核心算法精确度还未达到足够高的程度,不能够达到实战的要求,同时系统应用厂家也无力开发声纹自动识别系统。

  

国内近些年一直沿用的声纹识别是人工图谱分析方法,费时费力,要求分析人员至少有两三年的实际经验,而且无法解决大容量、与文本无关的声纹数据快速筛选和排查的难题。

  

但是这一情况已经被打破。公司依托自主研发的多生物特征自动识别以及中国科学院声学研究所的相关核心技术,打造了中国首创的大规模声纹自动识别系统软件。后台采用国内最先进的语音识别技术,用13维美尔倒谱系数及其一阶、二阶和三阶差分,合并起来构成一个52维的参数矢量用以描述该帧语音信号的频谱特征。声纹自动识别系统具有极高的识别准确率和群体识别的自动化,通过声纹特征构建大规模数据库,实现远程、快速自动化检索和识别。

  

公司新研发出的声纹自动识别系统的一个主要应用包括:通过人员标准化信息采集社保或便携式语音采集仪采集语音,自动进行处理和建库,将恐吓、绑架、勒索等刑事案件的语音与语音库自动比对,得到最相似的嫌疑人列表,由专家对语音图谱进行分析认定,最终确定或排除犯罪嫌疑人。

  

总之,声纹作为无接触式采集和身份认定工具,将越来越为各级刑侦部门所接受。


系统主要功能
声纹重点功能支持


1.通过文件导入。导入的时候支持播放、暂停、快进等等。

2.支持手工声纹的分离、截取、合并。支持多路声纹合并为一路声纹。

3. 把mp3、wma等压缩格式转换为系统需要的未压缩的、满足识别的格式(8Khz 16bit)

4.支持声纹增强播放。


人员


1.支持人员文字信息采集。

支持的数据项包括:人员号码、姓名、别名、性别、出生日期、身份证号码、户籍地、居住地、案件类别、证件类型、证件号码、初始录入日期、初始录入单位、初始录入人员等等。符合公安部相关标准。

2.支持通过标准化人员信息采集系统、活体人员声纹信息采集系统采集声纹数据到系统当中。

3.支持数据通过文件、网络接口导入系统。

支持的声音文件格式包括:wav、wma、flac、mp3等等。

支持的人员照片包括:jpg。

4.支持人员照片存储。

5.对于所有的人员信息项,支持精确或者模糊的检索。

6.支持对于已经录入人员的信息的编辑、修改、删除操作。

7.支持对于人员详细信息的展示。同时支持声纹播放,播放支持快进、暂停、跳跃等等。

8.每个人可以有多个声纹数据。

人员声纹采集

图 1人员声纹采集

案件

1.支持案件信息录入。案件信息包括:案件号码、发案日期、接警日期、接警单位、立案日期、立案单位。

2.支持数据通过文件、网络导入到系统当中。

3.对于所有的案件信息项,支持精确或者模糊的检索。

4.支持对于已经录入案件信息的编辑、修改操作。

5.支持对于案件详细信息的展示。

6.每个案件可以有多个声纹数据。


比对

四种比对任务类型


1.支持已知身份人员的声纹比对案件未知身份声纹(PL)。

对于那些重点未确定身份的声纹,我们可以采用这种方式进行比对。例如通过标准化信息采集的声纹传入声纹自动识别系统后,可以重点比对这些声纹以便确定身份。

2.支持已知身份人员的声纹相互比对(PP)。

此种比对主要是确定声纹的有效性。

3.支持未知身份人员的声纹比对已经身份人员的声纹(LT)。

当我们获得了一条未知身份的声纹之后,比对已经身份的声纹数据库,就可以确定此未知身份声纹的说话人身份。

4.支持未知身份人员的声纹相互比对(LL)。

主要目的是进行案件声纹的归并。支持与文字信息的关联检索。



比对任务操作



1.比对任务支持异步操作。

提交完比对之后可以在后台进行比对。

2.支持比对任务的提交、检索、认定、删除等等操作。

能够根据任务的提交时间、提交人、比对完成时间、比对完成人等等进行检索。

3. 支持比对任务的详细展示。

4.比对任务支持多种优先级。支持动态调整优先级。


认定


1.支持同屏显示两个声纹波形。

2.支持波形的播放、暂停。

3.支持候选切换。

4.候选列表支持检索、按照分数排序。

5.支持复核功能。

声纹鉴定

图 2声纹鉴定

系统管理


用户管理


1.支持用户角色。每个用户可以属于多个角色。

2.支持权限包括:检索、录入、编辑、删除、比对认定等等权限的设置。

3.支持用户的增加、修改、删除操作。



参数管理


1.支持系统参数的集中管理。包括队列设置、压缩方法、数据库等等。

2.日志配置等等。



日志管理


1.对于录入、编辑、修改等等操作都可以配置记录日志。

2.支持对于日志的查看、检索、删除等等操作。



数据库管理


1.支持建立多个人员和案件逻辑数据库。

2.每个人或者案件可以属于多个逻辑数据库。



统计分析


1.支持人员按照案件类别、采集日期进行统计。

2.支持案件按照案件类别、发案日期等进行统计。



系统主要性能指标
声纹


声纹的存储格式为8Khz 16Bit的WAV格式或者FLAC格式(无损压缩)。


人员


每个人员支持最多存储5段声音。推荐最少2段不同的语音。每段120秒。

系统支持亿级人员声纹信息存储、检索。


案件


系统支持千万级案件声纹信息存储、检索。


比对


提供单机25万段声纹的比对速度(双CPU、6核)。百万人库,大约需要8秒即可比对完成一人。

支持并行比对。系统比对速度可以轻易达到亿级。



系统架构和功能模块


总体架构

总体架构


功能模块

功能模块

系统主要优势


1.系统具有业界最高的准确性

依托于中科院声学所的强大研发优势,海鑫与中科院声学所联合推出了全新的声纹自动识别系统。其所用的核心算法,在历次国内和国际的评测中都取得了名列前茅的成绩,其中获得了8次国内第一,5次国际第一的成绩。

2.可扩展的系统架构

从支持数十万人到支持数千万人的数据库,都只需一套软件。采用了创建的关系数据库+分布式文件系统的方式来处理大库容时候的数据存储的问题。

3.稳定、高效的并行比对架构

依托于海鑫多生物特征自动识别比对系统。海鑫声纹自动识别系统继承了其高效、稳定、健壮、扩展性高的特点。

4.简洁、易用的界面

系统采用了现代的界面进行设计和软件开发。界面简洁、大方,易学、易用。

了解我们
公司简介 企业文化 新闻资讯 联系我们
产品中心
产品介绍 方案演示 关键技术 项目案例
关注我们
下载中心 加入我们 新浪微博
Ivsign Technology Co.,Ltd | ©2014-2016 Ivsign 京ICP备14060808号-1