Cómo los micrófonos MEMS ayudan a la detección de sonidos y al reconocimiento de palabras clave en los diseños activados por la voz

Por Majeed Ahmad

Colaboración de Editores de DigiKey de América del Norte

A medida que los usuarios dependen cada vez más de la voz como interfaz de usuario, los diseñadores se enfrentan al reto de aplicar las interfaces de usuario de voz (VUI) más precisas y fiables con el menor consumo de energía y el menor tiempo de respuesta posibles, y al mismo tiempo cumplir con presupuestos de espacio y costos más ajustados y calendarios de diseño cada vez más cortos. Para ayudar a los diseñadores a cumplir estos objetivos, varios proveedores han introducido micrófonos de sistemas microelectromecánicos avanzados (MEMS) con características de rendimiento que permiten una detección sólida de la palabra estela y el procesamiento de comandos de voz para VUI.

Los micrófonos MEMS, también conocidos como micrófonos de silicio, ya son populares en los teléfonos inteligentes, los relojes inteligentes, los auriculares inalámbricos, los coches y los televisores inteligentes, así como en los mandos a distancia. Esto se debe en gran parte al éxito de los asistentes personales de voz como Alexa de Amazon, Google Assistant y Siri de Apple. Estos asistentes escuchan órdenes de voz específicas y las extraen de los alrededores usando algoritmos de detección de palabras de activación. El truco para los diseñadores es implementar esta función de extracción de forma rápida y rentable, y al mismo tiempo mejorar la fiabilidad, la precisión y la captura de la voz en el campo lejano a pesar del ruido ambiental.

Este artículo trata de las características clave de los micrófonos MEMS que afectan al diseño de un VUI, incluyendo la relación señal-ruido (SNR), el rango dinámico, la sensibilidad y el tiempo de arranque. A continuación, presenta soluciones de hardware y software de TDK InvenSense, CUI Devices, STMicroelectronics y Vesper Technologies, y muestra cómo aplicarlas en diseños activados por voz.

Cómo funcionan los micrófonos MEMS

Los micrófonos MEMS normalmente constan de dos componentes en un solo paquete: una membrana MEMS que convierte las ondas de sonido en una señal eléctrica, y un amplificador que funciona como convertidor de impedancia para proporcionar una salida analógica utilizable a la cadena de señales de audio. Un tercer componente, un convertidor analógico-digital (ADC), también puede ser integrado en el mismo dado si se requiere una salida digital.

Diagrama de la construcción básica de un micrófono MEMSFigura 1: La construcción básica de un micrófono MEMS mostrando sus dos bloques de construcción clave: el transductor MEMS y la cadena de procesamiento de señales (en el ASIC). (Fuente de la imagen: CUI Devices)

Además de permitir el uso de micrófonos miniatura con salidas analógicas o digitales, la tecnología MEMS también ofrece un buen rendimiento en términos de coincidencia de fase y deriva.

Características principales del micrófono MEMS

Para los diseñadores de dispositivos de control de voz, los parámetros clave a buscar en un micrófono MEMS incluyen:

  • Relación señal-ruido (SNR): Es la relación entre el nivel de una señal de referencia y el nivel de ruido de la señal de salida del micrófono. Las mediciones de SNR incluyen el ruido aportado tanto por el elemento del micrófono como por cualquier otro dispositivo, como los IC, incorporado al paquete de micrófonos MEMS.
  • Sensibilidad: El valor de salida analógica o digital en respuesta a una onda senoidal de 1 kilohercio (kHz) con un nivel de presión sonora (SPL) de 94 decibelios (dB) o 1 Pascal (Pa), una medida de presión.
  • Tolerancia a la sensibilidad: El rango de sensibilidad de cualquier micrófono individual. Una estrecha tolerancia de sensibilidad asegura la consistencia cuando se usan varios micrófonos.
  • Rango dinámico: Una medida de la diferencia entre los niveles de presión sonora más altos y más bajos sobre los que el micrófono responde linealmente.
  • Respuesta de frecuencia: El rango de audio sobre el cual un micrófono puede operar.
  • Hora de inicio: La rapidez con la que un micrófono se despierta y emite una señal válida en respuesta a un evento de disparo.

Los dispositivos controlados por la voz, como los mandos a distancia, los televisores y los altavoces inteligentes suelen funcionar con un alto nivel de ruido ambiental. Además, un usuario puede estar cerca o a distancias de uno a 10 metros (m) en operaciones de campo lejano. Estas circunstancias son las que hacen que el rango dinámico, la sensibilidad y el SNR de un micrófono sean tan importantes. En las aplicaciones en las que se van a utilizar varios micrófonos en un conjunto, la tolerancia a la sensibilidad se vuelve crítica.

Aunque se puede especificar que cada micrófono tiene un cierto nivel de sensibilidad, los cambios estructurales diminutos pueden causar variaciones. Sin embargo, como los micrófonos MEMS se desarrollan utilizando procesos de fabricación de semiconductores estrechamente controlados, ofrecen las tolerancias de sensibilidad estrechamente ajustadas que se necesitan para el procesamiento eficaz de la señal de un conjunto de micrófonos (Figura 2).

Diagrama de los micrófonos utilizados en un conjuntoFigura 2: Los micrófonos utilizados en un arreglo deben estar bien ajustados para lograr el rendimiento de procesamiento de señal deseado. (Fuente de la imagen: CUI Devices)

Esta estrecha tolerancia es crítica en medio de la creciente adopción de arreglos de micrófonos en los diseños habilitados para VUI. En un conjunto de micrófonos, se utilizan dos o más micrófonos para recoger señales, y luego la señal de cada micrófono se procesa individualmente -amplificada, retrasada o filtrada- antes de que las señales se combinen para formar la señal resultante. En los arreglos de micrófonos, las entradas múltiples pueden emplearse para crear una respuesta direccional, también conocida como formación de haces, para filtrar el ruido no deseado mientras se enfoca el sonido desde una dirección más deseada.

El tiempo de inicio de un micrófono MEMS también es crítico con respecto a la captura de palabras clave completas y asegurar la precisión de las palabras clave. Para conservar la energía, los dispositivos habilitados para la VUI se mantienen en un estado de baja potencia; pero si el tiempo de inicio del micrófono en respuesta a un disparador de activación es corto, afecta al tiempo de activación de la VUI, lo que a su vez, afecta al rendimiento de la detección de la palabra de activación así como al consumo de energía.

Una vez que se elige un micrófono teniendo en cuenta estas características, los algoritmos de procesamiento de voz posteriores pueden realizar mejor la extracción de la voz del usuario frente a un elevado ruido ambiental, o de los usuarios que hablan a distancia, o ambos.

Interfaces de micrófono MEMS analógicos frente a los digitales

Como se mencionó en la sección sobre el funcionamiento de los micrófonos MEMS, la salida de un micrófono MEMS puede ser analógica o digital. Los micrófonos MEMS analógicos utilizan un amplificador interno para conducir la señal de salida del micrófono a un nivel razonablemente alto con una baja impedancia de salida. Esto proporciona una interfaz directa con el procesador de audio. En el caso de las VUI, el diseñador debe asegurarse de que el procesador asociado tiene un ADC a bordo, o el diseñador puede seleccionar un ADC para cumplir con sus requisitos específicos. En el caso de este último, esto puede añadir complejidad y costo.

Con un micrófono digital MEMS, la salida del micrófono puede aplicarse directamente a un circuito digital, generalmente un microcontrolador o un procesador de señales digitales (DSP). Los diseños de VUI para ambientes eléctricamente ruidosos tienden a favorecer los micrófonos digitales porque las señales de salida digitales tienen mayor inmunidad al ruido que las señales de salida analógicas.

Además, los micrófonos MEMS digitales suelen emplear la modulación de densidad de pulso (PDM) para convertir el voltaje de la señal analógica en un flujo digital de un solo bit que contiene una densidad correspondiente de señales altas lógicas. Esto proporciona una mayor inmunidad a las interferencias de radiofrecuencia (RFI) y a las interferencias electromagnéticas (EMI). Esto es particularmente importante en los grandes conjuntos de micrófonos y en los sistemas físicamente grandes, como los sistemas de infoentretenimiento de los vehículos activados por la voz.

En cuanto a la sensibilidad, para los micrófonos analógicos, se mide en el nivel de presión sonora en decibelios referido a 1 voltio (dB/V). En el caso de los micrófonos digitales, se suele medir en decibelios con respecto a la escala completa (dB FS).

Soluciones de micrófonos MEMS para VUI

El micrófono MEMS analógico ICS-40740 de TDK InvenSense se ocupa de muchos requisitos de rendimiento de micrófonos críticos para aplicaciones VUI. Comprende un elemento de micrófono MEMS, un convertidor de impedancia y un amplificador de salida diferencial en un pequeño paquete de montaje superficial de 4.00 x 3.00 x 1.20 milímetros (mm). Funciona con un suministro de 1.5 voltios que consume solo 165 microamperios (µA) mientras está en funcionamiento (Figura 3).

Imagen del micrófono analógico MEMS ICS-40740 de InvenSenseFigura 3: El micrófono MEMS analógico ICS-40740 se ajusta tanto al tamaño como a la potencia de los altavoces inteligentes y a los dispositivos que se pueden llevar puestos, como los auriculares con cancelación de ruido. (Fuente de la imagen: TDK InvenSense)

Tiene un SNR de 70 dBA (decibelios ponderados A) y lo acopla con un amplio rango dinámico de 108.5 dB, lo que permite detectar las voces a pesar del elevado ruido ambiental, y en condiciones de campo lejano. También tiene una amplia respuesta de frecuencia operativa que va de 80 hertzios (Hz) a 20 kHz, una respuesta lineal de 132.5 dB y una tolerancia de sensibilidad de ±1 dB. Esto último lo hace muy útil para los arreglos de micrófonos.

La pequeña huella del ICS-40740 y su bajo consumo de energía lo hacen adecuado para aplicaciones de Internet de las Cosas (IoT) construidas alrededor de altavoces inteligentes y dispositivos llevables como auriculares con cancelación de ruido.

El VM3000 de Vesper Technologies es un micrófono piezoeléctrico digital omnidireccional de puerto inferior MEMS que tiene un tiempo de inicio ultrarrápido de menos de 200 microsegundos (µs), lo que le permite despertarse lo suficientemente rápido como para capturar palabras completas de la estela (Figura 4).

Imagen del micrófono piezoeléctrico digital MEMS VM3000 de VesperFigura 4: El micrófono piezoeléctrico digital MEMS VM3000 tiene un tiempo de inicio ultra rápido de menos de 200 µs, lo que le permite despertarse lo suficientemente rápido como para capturar palabras completas de la estela. (Fuente de la imagen: Vesper Technologies)

En un micrófono piezoeléctrico MEMS, cuando una onda sonora golpea el voladizo piezoeléctrico, lo mueve y crea un voltaje. Ese voltaje es detectado por un circuito comparador de muy baja potencia, que envía una señal de estela al sistema de audio.

Dado que los micrófonos piezoeléctricos MEMS no requieren un voltaje de polarización, el VM3000 prácticamente no consume energía hasta que se enciende mediante un comando de activación. Además, puede permanecer en modo de suspensión mientras dibuja solo 0.35 µA y puede cambiar al modo de rendimiento en menos de 100 µs. El modo de reposo de potencia ultra baja, combinado con el cambio rápido de modo, también asegura que no se pierda ninguna información cuando el dispositivo de audio se despierte.

El micrófono digital VM3000 puede ser emparejado con prácticamente cualquier chip de audio y su salida presenta la multiplexación de dos micrófonos en una sola línea de datos. Alcanza un SNR típico de 63 dB a una señal de 1 kHz y ofrece un punto de sobrecarga acústica (AOP) de SPL de 122 dB.

El VM3000 viene en un paquete de 3.5 x 2.65 x 1.3 mm y ahorra en la lista de materiales (BOM) al integrar un ADC. Además, el VM3000 utiliza un cristal piezoeléctrico de una sola capa, lo que lo hace inmune a las derivas de sensibilidad y lo protege contra el polvo, el agua, la humedad y otras partículas ambientales.

Los micrófonos piezoeléctricos MEMS como el VM3000 también simplifican el diseño de audio de los arreglos evitando la necesidad de una malla o membrana protectora para cubrir varios micrófonos. Esa malla o membrana, que suele estar adherida al puerto acústico como elemento protector contra la contaminación ambiental, puede provocar una disminución de la sensibilidad del micrófono MEMS.

El VM3000 también es relativamente fácil de implementar, ya que puede conectarse directamente a un CODEC u otro procesador (Figura 5). El sistema maestro (CODEC, etc.) proporciona el reloj maestro, CLK, que define la velocidad a la que los bits se transmiten en la línea de DATA (Datos).

El diagrama del VM3000 de Vesper puede conectarse directamente a un procesador externoFigura 5: El VM3000 puede conectarse directamente a un procesador externo y puede conectar dos micrófonos a una sola línea DATA. (Fuente de la imagen: Vesper Technologies)

Curiosamente, se pueden conectar dos micrófonos en una sola línea de datos. Esto se debe a que los datos se establecen en el borde ascendente o descendente del reloj (CLK), definido por la clavija de Selección de L/R, con Selección de L/R = GND (arriba) estableciendo los datos en el borde descendente, y Selección de L/R = VDD (abajo) estableciendo los datos en el borde ascendente. El CODEC o procesador puede entonces separar los flujos de bits en base a su alineación con los bordes CLK.

Empezando: Kits de evaluación de micrófonos MEMS

Para evaluar los parámetros clave y simplificar el diseño de los sistemas de audio que utilizan micrófonos MEMS, los proveedores proporcionan tarjetas de referencia y kits de desarrollo de software. Por ejemplo, Vesper ofrece la tarjeta de evaluación S-VM3000-C que comprende un micrófono digital MEMS VM3000 y un condensador de derivación de la fuente de alimentación de 0.1 microfaradios (µF), junto con un conector de borde.

Asimismo, para sus sensores MEMS analógicos ICS-40740, TDK InvenSense proporciona la tarjeta de evaluación EV_ICS-40740-FX que permite a los diseñadores analizar el rendimiento de los micrófonos de salida analógica diferencial de forma rápida y eficiente. Aparte del micrófono MEMS, el único otro componente que tiene este kit de desarrollo es un condensador de derivación de alimentación de 0,1 µF.

CUI Devices, que ofrece micrófonos MEMS tanto analógicos como digitales, proporciona el kit de desarrollo DEVKIT-MEMS-001 para la creación de prototipos y pruebas de diseño (Figura 6). Esta placa de evaluación tiene cuatro circuitos de evaluación de micrófonos independientes.

Imagen de la placa de desarrollo DEVKIT-MEMS-001 de CUI DevicesFigura 6: El DEVKIT-MEMS-001 dispone de cuatro circuitos de evaluación de micrófono desmontables: dos para las salidas analógicas y dos para las digitales. (Fuente de la imagen: CUI Devices)

La placa tiene dos micrófonos analógicos MEMS: el puerto inferior CMM-2718AB-38308-TR y el puerto superior CMM-2718AT-42308-TR; y dos micrófonos digitales MEMS, el puerto inferior CMM-4030DB-26354-TR y el puerto superior CMM-4030DT-26354-TR. Las opciones de puerto de sonido superior e inferior están disponibles para los micrófonos de salida tanto analógicos como digitales para una mayor flexibilidad de diseño.

Al comparar los dos dispositivos analógicos, el CMM-2718AB-38308-TR tiene una sensibilidad de -38 dB y un SNR de 65 dBA. El CM-2718AT-43208-TR tiene una sensibilidad de -42 dB y un SNR de 60 dBA. Ambos tienen un rango de frecuencia de 100 Hz a 10 kHz y extraen 80 µA de un carril de suministro de 2 voltios.

Con respecto a los dos micrófonos digitales, el CMM-4030DB-26354-TR tiene una sensibilidad de -26 dB FS y un SNR de 64 dBA. El CMM-4030DT-26354-TR tiene una sensibilidad de -26 dB FS y un SNR de 65 dBA. Ambos utilizan un formato de datos PDM de 1 bit, operan en el rango de frecuencia de 100 Hz a 10 kHz, y extraen 0.54 miliamperios (mA) de un suministro de 2 voltios.

Conclusión

Un análisis más detallado de los micrófonos MEMS, tanto analógicos como digitales, muestra sus ventajas de rendimiento a nivel de sistema y cómo complementan los diseños de interfaz de voz siempre activa. Los últimos micrófonos MEMS emplean novedosas tecnologías para prolongar la duración de las baterías, mejorar la calidad del audio en el campo lejano y soportar los contaminantes ambientales. La mejora de la precisión de las palabras clave es otra de las principales consideraciones de diseño, que está estrechamente ligada a parámetros como el SNR, la tolerancia a la sensibilidad y el tiempo de arranque, todos los cuales se están abordando en los últimos dispositivos para acomodar mejor los diseños de la VUI.

DigiKey logo

Descargo de responsabilidad: Las opiniones, creencias y puntos de vista expresados por los autores o participantes del foro de este sitio web no reflejan necesariamente las opiniones, las creencias y los puntos de vista de DigiKey o de las políticas oficiales de DigiKey.

Información sobre el autor

Image of Majeed Ahmad

Majeed Ahmad

Majeed Ahmad es un ingeniero electrónico con más de 20 años de experiencia en medios tecnológicos B2B. Fue el jefe de editores de EE Times Asia, una publicación complementaria de EE Times.

Majeed escribió seis libros sobre electrónica. También contribuye a las publicaciones sobre diseño electrónico, entre ellos circuitos, productos electrónicos y diseño informático integrado.

Información sobre la editorial

Editores de DigiKey de América del Norte