用于基于语音识别的信息信号提供的方法和设备
2020-01-05

用于基于语音识别的信息信号提供的方法和设备

一种无线系统,包括至少一个与基础结构无线通信的用户单元。每个用户单元实现一个语音识别客户机,并且基础结构包括一个语音识别服务器。一个给定用户单元把以后由语音识别客户机参数化的未编码语音信号取作输入(601)。然后把参数化语音提供给语音识别服务器,语音识别服务器又对参数化语音进行语音识别分析(602)。部分基于由语音识别分析标识的任何识别发声的信息信号,以后提供给用户单元(604)。信息信号可以用来控制用户单元本身;用来控制联接到用户单元上的一个或多个器件,或者可以通过用户单元或联接到其上的器件基于其操作(607)。

语音合成后端304把语音的参量表示取作输入,并且把参量表示转换成经第一声频路径316然后输送到ECEP块301的语音信号。使用的特定参量表示是一个设计选择问题。一种普通使用的参量表示是在Klatt的“Software For A Cascade/Parallel Formant Synthesizer”,Journal of the Acoustical Society of America,Vol.67,1980,pp.971-995中描述的共振峰参数。线性预测参数是另一种普通使用的参量表示,如在Markel等的Linear Prediction of Speech,Springer Verlag,New York,1976中讨论的那样。Klatt和Markel等的出版物的相应讲授通过参考包括在这里。

期望由Aurora Project提出的客户机-服务器布置将适当地满足对分布语音识别系统的需要。然而,这时Aurora Project能实现什么特征和服务是不确定的。例如,当前正在努力开发所谓的远程信息处理系统。远程信息处理系统可以广义地定义成包括涉及对于用户和其在其车辆中的器件的基于信息的服务的输送的任何技术。然而,似乎不是定义语音识别技术如何能并入远程信息处理系统的任何有意义解决方案。因而,便利的是提供一种把语音识别技术并入远程信息处理系统、以及其它系统中,以便能够实现各种服务。

期望由Aurora Project提出的客户机-服务器布置将适当地满足对分布语音识别系统的需要。然而,这时Aurora Project能实现什么特征和服务是不确定的。例如,当前正在努力开发所谓的远程信息处理系统。远程信息处理系统可以广义地定义成包括涉及对于用户和其在其车辆中的器件的基于信息的服务的输送的任何技术。然而,似乎不是定义语音识别技术如何能并入远程信息处理系统的任何有意义解决方案。因而,便利的是提供一种把语音识别技术并入远程信息处理系统、以及其它系统中,以便能够实现各种服务。

在一个最佳实施例中,用户单元也包括联接到天线207上的全球定位卫星(GPS)收发机206。GPS收发机206联接到DSP202上以提供接收的GPS信息。DSP 202从GPS收发机206获取信息,并且计算无线通信器件的位置坐标。要不然GPS收发机206可以把位置信息直接提供给CPU201。

作为客户机-服务器语音识别布置的部分,语音识别分析器504从用户单元取出语音识别参数向量,并且完成识别处理。识别的话语或发声507然后通到本地控制处理器508。要求把参数向量转换成识别发声的处理的描述能在Lee等的“Automatic Speech Recognition:TheDevelopment of the Sphinx System”,1998中发现,该出版物的讲授通过这种参考包括在这里。

在步骤704,用户单元接收如果有则基于参数化语音信号的信息信号。结果,在步骤705和706,用户单元本身或联接到用户单元上的任何器件基于信息信号操作,或信息信号用来控制用户单元本身或联接到用户单元上的任何器件的操作,如可能是借助于车载系统的情形。应该注意,当信息信号包括数据时,数据能用来本地产生(即在用户单元处)控制信号。例如,来自基础结构的电话号码的接收能用来触发指令用户单元拨号电话号码的控制信号。要不然,变成可听的声音提示的接收可以引起控制信号的产生,指令联接到用户单元上的立体声减小其当前声频输出的音量或使其完全静噪。包括这样的功能的其它例子是容易识别的。

在步骤704,用户单元接收如果有则基于参数化语音信号的信息信号。结果,在步骤705和706,用户单元本身或联接到用户单元上的任何器件基于信息信号操作,或信息信号用来控制用户单元本身或联接到用户单元上的任何器件的操作,如可能是借助于车载系统的情形。应该注意,当信息信号包括数据时,数据能用来本地产生(即在用户单元处)控制信号。例如,来自基础结构的电话号码的接收能用来触发指令用户单元拨号电话号码的控制信号。要不然,变成可听的声音提示的接收可以引起控制信号的产生,指令联接到用户单元上的立体声减小其当前声频输出的音量或使其完全静噪。包括这样的功能的其它例子是容易识别的。

现在参照图4,表明有按照本发明提供客户机-服务器语音识别和合成系统的服务器部分的语音识别服务器的硬件实施例。这种服务器能驻留在对于图1以上描述的几种环境中。与用户单元或控制实体的数据通信能够通过基础结构或网络连接411实现。这种连接411对于例如无线系统可以是本地的,并且直接连接到无线网络上,如图1中所示。要不然,连接411可以是公共或私人数据网络、或其它的数据通信链接;本发明在这方面不受限制。

如以上提到的那样,本发明的基础结构能包括经数据网络150联接在一起的各种系统110、120、130、140。适当的数据网络150可以包括使用已知网络技术的私人数据网络、诸如互联网之类的公共网络、或其组合。作为选择例,或除此之外,在无线系统110内的语音识别服务器115、远程语音识别服务器123、132、143、145可以以各种方式连接到数据网络150上,以向用户单元102-103提供基于语音的服务。远程语音识别服务器在提供时,类似地能够通过数据网络150和任何插入通信路径与控制实体116通信。

技术领域

提供客户机-服务器语音识别和合成系统的服务器部分的一个语音识别服务器115可以联接到无线网络113上,由此允许无线系统110的操作者向用户单元102-103的用户提供基于语音的服务。一个控制实体116也可以联接到无线网络113上。控制实体116能用来响应由语音识别服务器115提供的输入把控制信号发送到用户单元102-103,以控制用户单元或互连到用户单元上的器件。如表示的那样,可以包括任何适当编程通用计算机的控制实体116,可以通过无线网络113、或直接地,如由虚线相互连接所示,联接到语音识别服务器115上。

图5表明语音识别和合成服务器功能的实施。与至少一个语音识别客户机合作,表明在图5中的语音识别服务器功能提供一个语音识别元件。来自用户单元的数据经收发机路径408到达接收机(RX)502处。收发机译码数据,并且把语音识别数据503从语音识别客户机通到语音识别分析器504。来自用户单元的其它信息506,如器件状态信息、器件能力、及与闯入上下文有关的信息通过接收机502通到一个本地控制处理器508。在一个实施例中,其它信息506包括来自用户单元已经致动语音识别元件(例如,语音识别客户机)的一部分的指示。这样一种指示能用来启动在语音识别服务器中的语音识别处理。

附图的简要描述图1是按照本发明的无线通信系统的方块图。

图5表明语音识别和合成服务器功能的实施。与至少一个语音识别客户机合作,表明在图5中的语音识别服务器功能提供一个语音识别元件。来自用户单元的数据经收发机路径408到达接收机(RX)502处。收发机译码数据,并且把语音识别数据503从语音识别客户机通到语音识别分析器504。来自用户单元的其它信息506,如器件状态信息、器件能力、及与闯入上下文有关的信息通过接收机502通到一个本地控制处理器508。在一个实施例中,其它信息506包括来自用户单元已经致动语音识别元件(例如,语音识别客户机)的一部分的指示。这样一种指示能用来启动在语音识别服务器中的语音识别处理。

期望由Aurora Project提出的客户机-服务器布置将适当地满足对分布语音识别系统的需要。然而,这时Aurora Project能实现什么特征和服务是不确定的。例如,当前正在努力开发所谓的远程信息处理系统。远程信息处理系统可以广义地定义成包括涉及对于用户和其在其车辆中的器件的基于信息的服务的输送的任何技术。然而,似乎不是定义语音识别技术如何能并入远程信息处理系统的任何有意义解决方案。因而,便利的是提供一种把语音识别技术并入远程信息处理系统、以及其它系统中,以便能够实现各种服务。

用于基于语音识别的信息信号提供的方法和设备

一种无线系统,包括至少一个与基础结构无线通信的用户单元。每个用户单元实现一个语音识别客户机,并且基础结构包括一个语音识别服务器。一个给定用户单元把以后由语音识别客户机参数化的未编码语音信号取作输入(601)。然后把参数化语音提供给语音识别服务器,语音识别服务器又对参数化语音进行语音识别分析(602)。部分基于由语音识别分析标识的任何识别发声的信息信号,以后提供给用户单元(604)。信息信号可以用来控制用户单元本身;用来控制联接到用户单元上的一个或多个器件,或者可以通过用户单元或联接到其上的器件基于其操作(607)。

无线系统110包括一根接收通过无线通道105从用户单元102-103传送的发射的天线112。天线112也经无线通道105发射到用户单元102-103。经天线112接收的数据转换成数据信号,并且传输到无线网络113。相反,来自无线网络113的数据发送到天线112以便发射。在本发明的上下文中,无线网络113包括实现无线系统必需的那些器件,如基站、控制器、资源分配器、接口、数据库等,如在先有技术中通常已知的那样。如具有本专业普通技巧的人员将理解的那样,并

操作步骤606和607也表明在图6中,并且描述语音识别服务器(或有关控制实体)响应另外的用户输入的操作。就是说,在步骤606,.响应信息信号提供的用户数据从用户单元接收。在本上下文中,"用户数据,,不仅可以包括参数化语音信号,而且可以包括其它输入数据,如例如DTMF音调。这种情形发生在例如用户原始通过姓名要求一方的电话号码的场合。然而,如果模糊因为多方具有相同姓名而存在,则在响应中提供的信息信号可以要求用户通过按键音填充(即使用DTMF音调)或通过响应诸方之一的姓名选择诸方之一。在这种情况下选择特定方的数据是用户数据。同样,包括这种功能的各种情形对于读者是显而易见的。响应用户数据,在步骤607可以提供同样包括数据/或控制信号的辅助信息信号。参照以前的例子,辅助信息信号包括选择方的电话号码,并且可能包括指令用户单元拨号电话号码的控制信号。现在参照图7,表明有描述按照本发明的用户单元的操作的流程图。在步骤701,用户单元接收未编码语音信号。最好,未编码语音信号数字地表示或转换成在辅助处理之前的数字表示。在步骤702,按照上述的技术,分析未编码语音信号以提供一个参数化语音信号。参数化语音信号然后在步骤703发射到语音识别服务器,其中如杲可能,则按照表明在图6中和上述的处理步骤,确定信息信号。

用户单元可以包括能够与通信基础结构通信的任何无线通信器件,如手持蜂窝电话103或驻留在车辆102内的无线通信器件。要理解,能使用除图1中表示的那些之外的各种用户单元;本发明在这方面不受限制。用户单元102-103最好包括:免提蜂窝电话的元件,用于免提声音通信;一个本地语音识别和合成系统;及客户机-服务器语音识别和合成系统的客户机部分。这些元件相对于图2和3在下面更详细地描述。

本发明提供一种主要适用于无线通信系统、用来根据语音识别处理把信息提供给用户单元的技术。总之,按照本发明的无线系统包括与基础结构无线通信的至少一个用户单元。最好,每个用户单元实现一个语音识别客户机,而基础结构包括一个语音识别服务器。一个给定用户单元把以后由语音识别客户机参数化的未编码信号取作输入。参数化语音然后提供给语音识别服务器,语音识别服务器又进行对参数化语音的语音识别分析。部分基于由语音识别分析标识的任何识别发声的信息信号,以后提供给用户单元。信息信号可以包括用来控制用户单元本身或控制联接到用户单元上的一个或多个器件的控制信号。要不然,信息信号可以包括数据信号以由用户单元本身或联接到用户单元上的器件操作。这样的数据信号能用来本地产生控制信号,或者可以导致对于语音识别服务器的另外用户数据的提供,语音识别服务器又能如上述那样借助于另外的信息信号响应。以这种方式,本发明提供一种部分基于客户机-服务器语音识别模型在无线用户单元中能够实现服务的技术。

在一个小实体系统120(如一个小商务或家庭)内的计算机122,如台式个人计算机或其它通用处理器件,能用来实现语音识别服务器123。到和来自用户单元102-103的数据通过无线系统IIO和数据网络150通向计算机122。执行存储的软件算法和过程,计算机122提供语音识别服务器123的功能,它在最佳实施例中包括语音识别系统和语音合成系统的服务器部分。在例如计算机122是用户的个人计算机的场合,在计算机上的语音识别服务器软件能联接到驻留在计算机上的用户个人信息上,如用户的邮件、电话薄、日历、或其它信息上。这种配置允许用户单元的用户利用基于声音的接口访问在其个人计算机上的个人信息。下面结合图2和3描述按照本发明的客户机-服务器语音识别和语音合成系统的客户机部分。下面结合图4和5描述按照本发明的客户机-服务器语音识别和语音合成系统的服务器部分。

现在参照图4,表明有按照本发明提供客户机-服务器语音识别和合成系统的服务器部分的语音识别服务器的硬件实施例。这种服务器能驻留在对于图l以上描述的几种环境中。与用户单元或控制实体的数据通信能够通过基础结构或网络连接411实现。这种连接411对于例如无线系统可以是本地的,并且直接连接到无线网络上,如图1中所示。要不然,连接411可以是公共或私人数据网络、或其它的数据通信链接;本发明在这方面不受限制。

本发明提供一种主要适用于无线通信系统、用来根据语音识别处理把信息提供给用户单元的技术。总之,按照本发明的无线系统包括与基础结构无线通信的至少一个用户单元。最好,每个用户单元实现一个语音识别客户机,而基础结构包括一个语音识别服务器。一个给定用户单元把以后由语音识别客户机参数化的未编码信号取作输入。参数化语音然后提供给语音识别服务器,语音识别服务器又进行对参数化语音的语音识别分析。部分基于由语音识别分析标识的任何识别发声的信息信号,以后提供给用户单元。信息信号可以包括用来控制用户单元本身或控制联接到用户单元上的一个或多个器件的控制信号。要不然,信息信号可以包括数据信号以由用户单元本身或联接到用户单元上的器件操作。这样的数据信号能用来本地产生控制信号,或者可以导致对于语音识别服务器的另外用户数据的提供,语音识别服务器又能如上述那样借助于另外的信息信号响应。以这种方式,本发明提供一种部分基于客户机-服务器语音识别模型在无线用户单元中能够实现服务的技术。

在步骤704,用户单元接收如果有则基于参数化语音信号的信息信号。结果,在步骤705和706,用户单元本身或联接到用户单元上的任何器件基于信息信号操作,或信息信号用来控制用户单元本身或联接到用户单元上的任何器件的操作,如可能是借助于车载系统的情形。应该注意,当信息信号包括数据时,数据能用来本地产生(即在用户单元处)控制信号。例如,来自基础结构的电话号码的接收能用来触发指令用户单元拨号电话号码的控制信号。要不然,变成可听的声音提示的接收可以引起控制信号的产生,指令联接到用户单元上的立体声减小其当前声频输出的音量或使其完全静噪。包括这样的功能的其它例子是容易识别的。

用于基于语音识别的信息信号提供的方法和设备技术领域

用户单元可以包括能够与通信基础结构通信的任何无线通信器件,如手持蜂窝电话103或驻留在车辆102内的无线通信器件。要理解,能使用除图1中表示的那些之外的各种用户单元;本发明在这方面不受限制。用户单元102-103最好包括:免提蜂窝电话的元件,用于免提声音通信;一个本地语音识别和合成系统;及客户机-服务器语音识别和合成系统的客户机部分。这些元件相对于图2和3在下面更详细地描述。