Integrar asistentes de voz en altavoces portátiles y auriculares inteligentes

Por Majeed Ahmad

Colaboración de Editores de DigiKey de América del Norte

2019-09-26

Los asistentes virtuales como Alexa de Amazon, Siri de Apple, Cortana de Microsoft y Google Assistant están impulsando la creación de dispositivos inteligentes habilitados para voz que van desde auriculares Bluetooth conectados con teléfonos inteligentes y otros dispositivos móviles hasta altavoces inteligentes para entornos de automatización del hogar y la oficina, así como la electrónica de consumo como los televisores. Si bien los servicios habilitados para la voz se utilizan cada vez más para controlar funciones como escuchar música, hacer llamadas y ejecutar sensores biométricos, los diseñadores encuentran un desafío al momento de identificar, capturar y transmitir de forma inalámbrica la voz en entornos que a menudo son ruidosos tanto acústica como eléctricamente.

Lo que se requiere son técnicas robustas de cancelación de ruido y una interfaz inalámbrica igualmente robusta, todo en una solución empaquetada con la que los desarrolladores pueden experimentar y aplicar rápidamente para ahorrar tiempo y costos.

Este artículo presenta varias soluciones de captura de voz de Cirrus Logic, XMOS y Qualcomm que ayudan a los diseñadores a comenzar rápidamente con la próxima generación de dispositivos móviles y auriculares con capacidad de voz.

Solución de captura de voz

Mientras que compañías como Apple y Microsoft comenzaron a implementar sus soluciones con teléfonos inteligentes y computadoras, Amazon lanzó su Alexa con el altavoz inteligente Echo y luego comenzó a expandir su uso a más dispositivos.

Sin embargo, el Echo tiene siete micrófonos, demasiados para un dispositivo portátil pequeño donde el espacio, el costo y la alimentación son muy importantes. Dicho esto, los fabricantes de chips como Cirrus Logic están incorporando soluciones de diseño más simples para permitir que los diseñadores lleven a Alexa a una variedad de dispositivos inteligentes y otros factores de forma del sistema de audio.

Tomemos, por ejemplo, aplicaciones para el hogar inteligente que emplean Alexa Voice Service (AVS) en iluminación y electrodomésticos controlados por voz, altavoces portátiles manos libres y altavoces en red. Aquí, se requieren soluciones de captura de voz para mejorar la experiencia del usuario al suprimir el ruido y otras interferencias del mundo real para obtener interacciones de voz más precisas y confiables.

La implementación de un asistente de voz exige el uso de palabras de activación de alta precisión y la interpretación de comandos en entornos ruidosos y durante la reproducción de música. La cancelación de eco también es crítica para lograr una experiencia de usuario superior; permite al usuario interrumpir la reproducción de música fuerte y las respuestas de Alexa para responder a las nuevas solicitudes con precisión.

Un buen lugar para comenzar a experimentar con diseños AVS es trabajar con el kit de desarrollo de captura de voz 598-2471-KIT para AVS de Cirrus Logic. Su objetivo es integrar la capacidad de Alexa en dispositivos de audio compactos con componentes de hardware y software de procesamiento de audio sintonizados acústicamente (Figura 1). Se basa en una plataforma Raspberry Pi 3 e incluye una placa de referencia que presenta el códec inteligente CS47L24-CWZR de Cirrus Logic, micrófonos digitales MEMS y algoritmos SoundClear^® para control de voz, supresión de ruido y cancelación de eco.

Imagen del kit de desarrollo de captura de voz 598-2471-KIT de Cirrus Logic Figura 1: El kit de desarrollo de captura de voz 598-2471-KIT de Cirrus Logic para dispositivos habilitados para AVS permite conectar una placa de captura de voz (arriba a la derecha) a una Raspberry Pi 3 (arriba a la izquierda) mediante un cable o colocarla como un HAT en la parte superior de la Raspberry Pi 3. (Fuente de la imagen: Cirrus Logic)

Bloques de construcción de captura de voz

El proceso de captura de voz comienza con el procesador de voz CS47L24 que combina un DSP 300 MMAC de doble núcleo con un códec de concentrador de audio para servir a una variedad de bloques de procesamiento de audio de función fija y eficiente en cuanto a la energía (Figura 2). Los núcleos DSP programables admiten una gama de características avanzadas de procesamiento de audio, como supresión de ruido multimicro, cancelación de eco acústico (AEC) y reconocimiento de voz.

Diagrama del procesador de voz CS47L24 de Cirrus Logic Figura 2: La captura de voz en el kit comienza con el procesador de voz CS47L24 que combina un DSP 300 MMAC de doble núcleo con un códec de concentrador de audio para servir a una variedad de bloques de procesamiento de audio de función fija y eficiencia energética. (Fuente de la imagen: Cirrus Logic)

El códec inteligente CS47L24 utiliza un convertidor digital a analógico (DAC) en chip con un monocontrolador de altavoz de 2 vatios para permitir la reproducción de audio de alta fidelidad. Es compatible con la detección automática de frecuencia de muestreo que ayuda con la transferencia de llamadas de voz de banda ancha y banda estrecha. Hay tres interfaces de audio digital que se proporcionan en el procesador CS47L24, cada una de las cuales admite una gama de frecuencias de muestreo de audio estándar y formatos de interfaz en serie.

El CS47L24 se alimenta de fuentes externas de 1,8 voltios y 1,2 voltios; sus arquitecturas de potencia, sincronización y controlador de salida están diseñadas para baja potencia en voz, música y modos de espera. El CS47L24 también proporciona una entrada MICVDD separada para el funcionamiento del micrófono por encima de 1,8 voltios.

El CI de los micrófonos digitales MEMS y los algoritmos SoundClear asociados para el control de voz, la supresión de ruido y la cancelación de eco proporcionan un audio de alta calidad en la entrada, al tiempo que reducen el consumo de energía del micrófono. El CI admite dos modos operativos: el modo de baja potencia, que es adecuado para la detección de actividad de voz siempre activa, y el modo de alto rendimiento, que está optimizado para la grabación de alta fidelidad. El modo está determinado por la frecuencia de reloj aplicada.

El micrófono incorpora un convertidor analógico a digital (ADC) para emitir un flujo de datos de un solo bit usando codificación de modulación de densidad de pulso (PDM) y para conectar de manera eficiente múltiples micrófonos en configuraciones estéreo y de matriz. Para los diseñadores, es importante buscar circuitos integrados con múltiples micrófonos, ya que estos pueden optimizarse para proporcionar una reducción agresiva del ruido y la cancelación del eco utilizando técnicas de formación de haz para lograr la comunicación de dúplex completo más clara y la captura de audio.

El micrófono MEMS también debe facilitar un amplio rango dinámico (100 decibelios (dB) es un buen punto de partida) entre el piso de ruido y el punto de sobrecarga acústica. Esto permite la grabación de audio de alta fidelidad en entornos silenciosos y ruidosos. Por ejemplo, permite grabar contenido de audio de bajo nivel, como música clásica o de voz, sin silbidos de fondo. Al mismo tiempo, asegura que los sonidos muy fuertes como los conciertos de rock y el ruido del viento no causen distorsión en el micrófono.

Para aprovechar al máximo el hardware, los algoritmos SoundClear eliminan el ruido a través de funciones de procesamiento como supresión de ruido, reconocimiento automático de voz (ASR) Enhance™ y cancelación de eco.

Captura de voz de campo lejano

Otra solución de captura de voz es el kit de desarrollo estéreo VocalFusion™ XK-VF3500-L33-AVS de XMOS para Amazon AVS. Este se centra en casos de uso de campo lejano, como televisores inteligentes, barras de sonido, decodificadores y adaptadores de medios digitales. Estas aplicaciones requieren el soporte estéreo AEC para soluciones de interfaz de voz "en toda la sala" y permiten a los usuarios encender el televisor y ajustar las lámparas de mesa mediante comandos de voz.

Las aplicaciones de captura de voz de campo lejano exigen que las señales de referencia AEC se calibren con precisión y que la latencia se ajuste cuidadosamente. Al hacerlo, los diseñadores pueden estar seguros de que los accesorios de voz de campo lejano que diseñan pueden escuchar y capturar con precisión los comandos de voz del usuario, independientemente del volumen de contenido y el entorno circundante.

El kit VocalFusion es una solución de matriz de micrófono lineal que ha sido calificada por Amazon para rendimiento de campo lejano. Permite a los diseñadores colocar a Alexa en dispositivos de última generación como televisores inteligentes, iluminación y electrodomésticos. El kit está construido alrededor del procesador de voz XVF3500-FB167-C que ofrece AEC de dúplex completo de dos canales para admitir la captura de voz en entornos acústicos complejos (Figura 3). La capacidad AEC habilitada para DSP facilita la desverberación, el control automático de ganancia y la supresión de ruido para garantizar una interacción de voz clara incluso en entornos ruidosos.

Diagrama del procesador de voz XVF3500 de XMOS Figura 3: El procesador de voz XVF3500 emplea la formación de haz adaptativo para localizar la fuente de voz deseada y aislar efectivamente los comandos de voz del audio estéreo mientras suprime el ruido de fondo y los ecos de la sala. (Fuente de la imagen: XMOS)

A continuación, el kit VocalFusion de cuatro micrófonos utiliza los micrófonos MEMS XENSIV™ serie IM69D130V01XTSA1 de Infineon que proporcionan datos de audio sin procesar para ejecutar algoritmos de procesamiento de señal de audio en el procesador de voz XVF3500. Los micrófonos IM69D130 están diseñados para permitir un rendimiento de captura de voz de campo lejano y susurrado y una distorsión armónica total (THD) de menos del 1 % a niveles de presión sonora (SPL) de hasta 128 dB.

La capacidad de "intrusión" proporcionada por el diseño de captura de voz permite a los usuarios interrumpir o pausar un dispositivo que está reproduciendo música, abriendo nuevas oportunidades para diseños basados en Alexa en equipos de entretenimiento estéreo para el hogar y equipos audiovisuales montados en la pared (Figura 4).

Figura 4: Un procesador de captura de voz y un micrófono trabajan juntos para crear una interfaz de voz para aplicaciones Alexa de campo lejano. (Fuente de la imagen: Infineon Technologies)

Un ejemplo de implementación en el mundo real es la televisión inteligente habilitada por inteligencia artificial (IA) de Skyworth que se basa en el procesador de voz XVF3500. La televisión inteligente siempre encendida se activa y responde a los comandos de voz con una identificación de fuente de sonido de 180 ° de hasta 5 metros (m).

Diseño de auriculares inteligentes

En el otro extremo del espectro de diseño se encuentran los auriculares y audífonos. Si bien se combinan con teléfonos inteligentes y tabletas, estos requieren cada vez más la integración del asistente de voz para la administración del calendario, el control inteligente del hogar, la transmisión de música y las actualizaciones del clima. Al igual que los altavoces inteligentes, los auriculares Bluetooth necesitan una mejora continua para transmitir audio de calidad en entornos ruidosos.

Los kits de diseño y desarrollo de referencia de auriculares inteligentes para las plataformas AVS y Google Assistant de Qualcomm son los principales bloques de construcción que permiten a los desarrolladores comenzar a usar auriculares activados por voz y diseños para escuchar. Los paneles de referencia ayudan a los desarrolladores a evaluar a los asistentes de voz, mientras que los kits de diseño permiten a los ingenieros de diseño moverse al entorno de desarrollo completo.

Consideremos el kit de desarrollo de auriculares inteligentes DK-QCC5124-GAHS-A-0 de Qualcomm para Google Assistant. Este admite la activación por pulsador para el asistente de voz de Google en teléfonos Android que tienen instalada la aplicación Google Assistant. Está construido alrededor de un chipset de audio Bluetooth de Qualcomm que utiliza la tecnología de reducción de ruido Clear Voice Capture (cVc™) de Qualcomm para mejorar la voz de la persona que llama al reducir los sonidos ambientales a través de la supresión de ruido y otras mejoras de audio.

La tecnología cVc 6.0 proporciona pérdida de paquetes y ocultación de errores de bits a través de un conjunto de algoritmos de reducción de ruido para conversaciones telefónicas claras. Otra tecnología notable es Qualcomm aptX™ HD que facilita bajas latencias para una transmisión de audio robusta. Es un códec de audio Bluetooth de alta definición que ha sido diseñado para mejorar la relación señal/ruido y reducir el ruido de fondo.

El diseño de referencia de los auriculares inteligentes DK-QCC5124-AVSHS-A-0 de Qualcomm para Amazon AVS también admite tecnologías de reducción de ruido cVc 6.0 y audio inalámbrico aptX HD. Admite la activación por pulsador para Alexa en teléfonos móviles con la aplicación Alexa instalada.

La plataforma, construida alrededor del chipset del transceptor Bluetooth QCC5124 de Qualcomm, también es compatible con el kit de accesorios móviles Alexa (AMA) que permite a los usuarios conectar cómodamente Bluetooth con la aplicación móvil Alexa en dispositivos Android e iOS (Figura 5). El kit AMA facilita la comunicación de comandos de voz desde los auriculares a Alexa a través del teléfono, mientras que Amazon AVS hace el trabajo pesado para el procesamiento del lenguaje natural.

Diagrama de la placa de desarrollo DK-QCC5124-AVSHS-A-0 para Amazon AVS de Qualcomm Figura 5: La placa de desarrollo DK-QCC5124-AVSHS-A-0 para Amazon AVS tiene los bloques de construcción clave de un diseño de auriculares inteligentes. (Fuente de la imagen: Qualcomm)

Eso significa dos cosas: primero, los desarrolladores no necesitan supervisar la mayor parte de la codificación para su integración de Alexa; y segundo, los desarrolladores no tienen que agregar ningún hardware de comunicación más allá de la conectividad Bluetooth.

En un nivel superior, el kit AMA permite que Amazon AVS facilite la comunicación entre accesorios de voz como auriculares inteligentes y el servicio Alexa a través de un mecanismo de control que opera entre el accesorio de voz y la aplicación Alexa Mobile.

Los desarrolladores pueden usar un kit de desarrollo de placa abierta después de la evaluación. Sin embargo, la programación del kit de desarrollo de placa abierta requiere un puente de transacción (DK-TRBI200-CE684-1) que no está incluido en el kit, pero se puede comprar por separado.

Conclusión

Para los diseñadores que buscan integrar asistentes de voz en su próximo diseño, los proveedores de silicio ya han realizado gran parte del trabajo pesado en términos de reconocimiento de palabras de activación, cancelación de ruido y capacidad siempre activa de bajo consumo. Usando sus diseños de referencia y los kits de desarrollo, los diseñadores pueden desarrollar soluciones de captura de voz para una gama de servicios inteligentes de control de voz, desde auriculares inteligentes y altavoces inteligentes hasta control total de voz en el hogar.

Descargo de responsabilidad: Las opiniones, creencias y puntos de vista expresados por los autores o participantes del foro de este sitio web no reflejan necesariamente las opiniones, las creencias y los puntos de vista de DigiKey o de las políticas oficiales de DigiKey.