Un enfoque rentable para la selección aleatoria de recipientes

Por Keith Larson

Colaboración de Editores de DigiKey de América del Norte

2026-02-10

A medida que la industria avanza hacia líneas de fabricación cada vez más automatizadas, muchas tareas complejas antes reservadas a los operarios humanos son ahora realizadas por máquinas. Una de las más complejas es la selección aleatoria de recipientes. Es decir, la capacidad de asomarse a una bandeja llena de componentes dispuestos al azar, para luego identificar y recuperar el que corresponde a la siguiente tarea de la línea, y que puede estar medio escondido bajo una pila de otros componentes.

Las aplicaciones para seleccionar aleatoriamente los recipientes van desde la carga de máquinas hasta la preparación de kits y la clasificación, y esta tecnología se utiliza ampliamente en los sectores de la automoción, la electrónica, el comercio electrónico y los dispositivos médicos. Aunque la tarea es relativamente sencilla para una persona, el brazo robótico asignado al trabajo debe aprovechar la visión artificial 3D de alta velocidad, el reconocimiento de patrones y los algoritmos de planificación de trayectorias para tener éxito. Más recientemente, los enfoques de aprendizaje automático también están ayudando a perfeccionar la identificación y la recuperación satisfactoria de los componentes de los recipientes.

Luz estructurada frente a escaneado láser

Aunque el uso de la luz láser para escanear y mapear metódicamente las superficies es bien conocido, la mayoría de los sistemas modernos de selección aleatoria de recipientes aprovechan enfoques de "luz estructurada" que son más rápidos, seguros y rentables que el mapeo láser. Más allá de la selección de recipientes, el escaneado mediante luz estructurada se emplea ampliamente en campos como el diseño industrial, el control de calidad, los juegos de realidad aumentada y la obtención de imágenes médicas. Las condiciones de iluminación ambiental y las superficies reflectantes de los componentes son factores potencialmente complicados.

La luz estructurada consiste en proyectar rápidamente una serie de patrones, como rayas y cuadrículas (figura 1), sobre el contenido del recipiente. Desde cualquier ángulo que no sea el del proyector, los patrones se distorsionan. Estas distorsiones revelan la complejidad tridimensional del contenido del recipiente y se capturan en una serie de imágenes fijas, que es donde entra en escena la necesidad de una conectividad de alta velocidad y una informática de gran potencia.

La imagen del escáner de luz estructurada revela la identidad, la ubicación y la orientación Figura 1: Al capturar y analizar las imágenes creadas por patrones de luz y oscuridad proyectados en un recipiente lleno de componentes, el escaneado de luz estructurada revela la identidad, ubicación y orientación de las distintas piezas dentro del recipiente. (Fuente de la imagen: Lattice Semiconductor)

Los FPGA asumen tareas repetitivas

La mayoría de las soluciones de luz estructurada se componen de dos módulos conectados a través de Ethernet: un módulo sensor y un módulo informático. El módulo sensor está conectado a un proyector e inicia la proyección de una serie de patrones de luz estructurada en el recipiente. Una cámara situada fuera del eje respecto al proyector capta las imágenes resultantes. En el caso de la solución de luz estructurada de Lattice Semiconductor, se genera una serie de 41 imágenes discretas, que incluyen patrones positivos, negativos, horizontales y verticales. La secuencia de imágenes captadas por la cámara vuelve al módulo sensor a través de un enlace MIPI Camera Serial Interface (CSI).

El módulo sensor también incluye recursos de arreglos programables de puertas en campo (FPGA) que codifican la serie de 41 imágenes en una única imagen codificada de 10 bits, con indicación de la ubicación de un "píxel correspondiente" común de las imágenes generadas. A continuación, esta imagen codificada se transmite al módulo informático a través de un enlace Ethernet. Esta codificación aumenta considerablemente la velocidad de transmisión al módulo informático, así como la capacidad de respuesta y el rendimiento del sistema en su conjunto. Por ejemplo, el envío de 41 imágenes en bruto con una resolución de 1920 x 1080 píxeles representa 680 MB de tráfico de datos, mientras que la única imagen codificada solo representa 41 MB de datos. Esto representa una reducción de 16 a 1 en el volumen de datos, junto con un aumento correspondiente en el rendimiento del sistema.

Los FPGA adicionales en el módulo sensor pueden descargar aún más las tareas del módulo informático al generar el mapa de profundidad píxel a píxel que perfila de forma efectiva los objetos individuales en el recipiente, y ayuda al módulo informático a calcular un objetivo de punto de recogida óptimo para el brazo robótico asociado. Se trata de una tarea muy repetitiva que puede realizarse en paralelo para cada píxel. Como alternativa, el usuario puede utilizar el mismo recurso del módulo informático pero añadir capacidades adicionales. Del mismo modo, la FPGA puede realizar toda o parte de la detección y segmentación de objetos basada en el aprendizaje automático para descargar aún más el módulo informático.

Hardware frente a software

La razón por la que una combinación de FPGA en el módulo sensor y CPU/GPU en el módulo informático funciona tan bien en esta aplicación reside en las fortalezas complementarias de cada plataforma. Los FPGA destacan en tareas muy repetitivas, como el procesamiento específico de los sensores y la sincronización a nivel de fotograma necesarios para consolidar la información de 41 imágenes en una sola imagen codificada. Es una tarea muy adecuada para una implementación de hardware configurable. Mientras tanto, el punto fuerte de la CPU/GPU reside en los cálculos complejos de alto nivel, como los de optimización y toma de decisiones, que se implementan más fácilmente en software (Figura 2).

Figura 2: Al dividir adecuadamente la carga de trabajo computacional entre la FPGA y los recursos de la CPU/GPU, el enfoque de Lattice Semiconductor para la selección aleatoria de recipientes optimiza el rendimiento del sistema y reduce sus costos desde el punto de vista de la lista de materiales. (Fuente de la imagen: Lattice Semiconductor)

En el caso de la aplicación de selección aleatoria de recipientes, la codificación FPGA local en el módulo sensor reduce drásticamente los datos que deben enviarse al módulo informático, lo que aumenta la velocidad de ejecución de la recogida. Mientras tanto, la FPGA también reduce las exigencias de cálculo de la CPU/GPU alojada en el módulo informático, lo que permite utilizar un procesador de menor costo.

El pequeño factor de forma y el bajo consumo de energía de las FPGA también significan que el módulo sensor puede alojarse en una carcasa de plástico relativamente pequeña sin necesidad de elementos de disipación de energía, como un ventilador o un disipador térmico. El efecto neto global es una lista con menos materiales para la solución total.

Cerrar el círculo

Una vez que la imagen codificada se transfiere del módulo sensor al módulo informático, la CPU/GPU utiliza la triangulación para generar una imagen de profundidad a partir de la imagen codificada, de forma parecida a un mapa topográfico del fondo del océano. A continuación, esta imagen de profundidad se utiliza para la detección de objetos (segmentación) y el posterior cálculo de los puntos de toma. Mientras que la visión por computadora desempeña el papel principal de guía en la identificación de objetos y el cálculo de los puntos de recogida, en aplicaciones más complejas a veces se utilizan modelos CAD para facilitar la detección de objetos mediante la correspondencia geométrica. Más recientemente, se han desarrollado enfoques basados en el aprendizaje automático para manejar escenarios más complicados; algunos aprovechan el aprendizaje profundo para mejorar el rendimiento basándose en los resultados de cada selección progresiva.

Por último, una vez finalizada la representación tridimensional del contenido del recipiente y seleccionado un punto de recogida adecuado para recuperar el siguiente componente, se comunican las instrucciones al robot para su ejecución. Una vez completada la selección aleatoria, el ciclo comienza de nuevo.

Conclusión

La luz estructurada es más segura y de mayor rendimiento que el láser cuando se trata de aplicaciones de selección aleatoria de recipientes. Además, un enfoque híbrido que aproveche tanto los recursos de la FPGA como los de la CPU/GPU obtiene los mejores resultados y es también el más rentable desde el punto de vista de la factura de los materiales. Esto se debe tanto a la adecuada división del trabajo entre las dos tecnologías de semiconductores como al consumo de energía relativamente bajo de las FPGA en el módulo sensor, que a su vez elimina la necesidad de medidas auxiliares de refrigeración.

Descargo de responsabilidad: Las opiniones, creencias y puntos de vista expresados por los autores o participantes del foro de este sitio web no reflejan necesariamente las opiniones, las creencias y los puntos de vista de DigiKey o de las políticas oficiales de DigiKey.