Acelere las aplicaciones de inteligencia artificial en el kit de evaluación VCK190 de Xilinx con los núcleos IP de Design Gateway

Por Design Gateway Co., Ltd.

2022-11-18

Los dispositivos de la serie Versal AI Core de Xilinx están diseñados para resolver el problema único y más difícil de la inferencia de la IA mediante el uso de un motor de cómputo de IA de clase ASIC de alta eficiencia de cálculo junto con un tejido programable flexible para construir una aplicación de IA con aceleradores que maximizan la eficiencia para cualquier carga de trabajo dada al mismo tiempo que ofrecen baja potencia y baja latencia.

El kit de evaluación VCK190 de la serie Versal AI Core cuenta con el dispositivo VC1902, que tiene el mejor rendimiento de IA de la cartera. El kit está hecho para diseños que requieren un alto rendimiento de inferencia de IA y de procesamiento de señales. Al ofrecer una potencia de cálculo 100 veces superior a la de las actuales CPU de clase servidor y contar con varias opciones de conectividad, el kit VCK190 es una plataforma de evaluación y creación de prototipos ideal para una amplia gama de aplicaciones, desde la nube hasta el borde.

Imagen del kit de evaluación VCK190 serie Xilinx Versal AI Core Figura 1: Kit de evaluación VCK190 serie Xilinx Versal AI Core. (Fuente de la imagen: AMD, Inc)

Características principales del kit de evaluación VCK190

Dispositivo de la serie Versal AI Core integrado
- Equipado con silicio de producción Versal ACAP XCVC1902
- Motores de IA y DSP que proporcionan un rendimiento de cálculo 100 veces superior al de las actuales CPU de clase de servidor
- Diseños de referencia de socios preconstruidos para la creación rápida de prototipos
La última tecnología de conectividad para el desarrollo de aplicaciones de vanguardia
- IP de disco duro PCIe® Gen4 integrada para una interfaz de dispositivo de alto rendimiento, como las unidades de estado sólido (SSD) NVMe y los procesadores de host.
- IP Hard EMAC 100G integrada para interfaces de red 100G de alta velocidad
- Interfaces de memoria DDR4 y LPDDR4
Herramientas cooptimizadas y método de depuración
- Vivado® ML, plataforma de software unificada Vitis™, Vitis AI, herramientas del motor de IA para el desarrollo de aplicaciones de inferencia de IA

Acelerador de interfaz de IA con los dispositivos de la serie Versal AI Core de Xilinx

Figura 2: Diagrama de bloques del dispositivo Versal AI Core VC1902 ACAP de Xilinx. (Fuente de la imagen: AMD, Inc)

La plataforma de aceleración de computación adaptativa Versal® AI Core (ACAP) es un dispositivo heterogéneo, multinúcleo y altamente integrado que puede adaptarse dinámicamente a nivel de hardware y software para una amplia gama de cargas de trabajo de IA, por lo que es ideal para aplicaciones de computación de borde de IA o tarjetas aceleradoras de nube. La plataforma integra motores escalares de última generación para la computación integrada, motores adaptables para la flexibilidad del hardware y motores inteligentes formados por motores DSP y revolucionarios motores de IA para la inferencia y el procesamiento de señales. El resultado es un acelerador adaptable que supera el rendimiento, la latencia y la eficiencia energética de las FPGA y GPU tradicionales para las cargas de trabajo de IA/ML.

Rendimiento de la inferencia de IA VCK190

La VCK190 es capaz de ofrecer un rendimiento de cálculo 100 veces superior al de las actuales CPU de clase de servidor. A continuación, se muestra un ejemplo de rendimiento basado en la implementación del motor de IA por el núcleo DPU C32B6 con un lote = 6. Consulte la siguiente tabla para conocer la tasa de producción (en fotogramas/segundo o fps) de varias muestras de redes neuronales en VCK190 con la DPU funcionando a 1250 MHz.

No	Red neuronal	Tamaño de la entrada	GOPS	Rendimiento (fps) (Hilo múltiple)
1	face_landmark	96x72	0.14	24605.3
2	facerec_resnet20	112x96	3.5	5695.3
3	inception_v2	224x224	4	1845.8
4	medical_seg_cell_tf2	128x128	5.3	3036.3
5	MLPerf_resnet50_v1.5_tf	224x224	8.19	2744.2
6	RefineDet-Medical_EDD_tf	320x320	9.8	1283.6
7	tiny_yolov3_vmss	416x416	5.46	1424.4
8	yolov2_voc_pruned_0_77	448x448	7.8	1366.0

Tabla 1: Ejemplo de rendimiento de la inferencia de IA VCK190.

Vea más detalles sobre el rendimiento de VCK190 AI en la Guía del usuario de la biblioteca Vitis AI (UG1354), r2.5.0 en https://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board

¿Cómo los núcleos IP de Design Gateway aceleran el rendimiento de las aplicaciones de IA?

Los núcleos IP de Design Gateway están diseñados para gestionar el protocolo de Red y Almacenamiento de datos sin necesidad de que intervenga la CPU. Esto lo hace ideal para descargar completamente a los sistemas de CPU del complicado procesamiento de protocolos y lo que les permite utilizar la mayor parte de su potencia de cálculo para aplicaciones de IA, incluyendo la inferencia de IA, el procesamiento de datos previo y posterior, la interfaz de usuario, la comunicación de red y el acceso al almacenamiento de datos para obtener el mejor rendimiento posible.

Figura 3: Diagrama de bloques de un ejemplo de aplicación de IA con los núcleos IP de Design Gateway. (Fuente de la imagen: Design Gateway)

Rendimiento del motor de descarga TCP IP (TOExxG-IP) de Design Gateway

El procesamiento de flujos de datos TCP de alta velocidad y alto rendimiento a través de 10GbE o 25GbE por parte de los sistemas de CPU tradicionales necesita más del 50% del tiempo de la CPU, lo que reduce el rendimiento general de las aplicaciones de IA. Según la prueba de rendimiento de TCP 10G en los sistemas MPSoC Linux de Xilinx, el uso de la CPU durante la transmisión de TCP 10GbE es superior al 50%, la velocidad de transferencia de datos de envío y recepción de TCP podría alcanzarse sólo alrededor del 40% al 60% de la velocidad de 10GbE o 400 MB/s a 600 MB/s.

Al implementar el núcleo TOExxG-IP de Design Gateway, el uso de la CPU para la transmisión TCP a través de 10 GbE y 25 GbE puede reducirse casi al 0%, mientras que la utilización del ancho de banda ethernet puede lograrse cerca del 100%. Esto permite enviar y recibir datos a través de la red TCP directamente por pura lógica de hardware y alimentar el motor de IA Versal con un uso mínimo de la CPU y la menor latencia posible. La figura 4 muestra la comparación del uso de la CPU y la velocidad de transmisión TCP entre los sistemas TOExxG-IP y MPSoC Linux.

Imagen de la comparación del rendimiento de la transmisión TCP de 10G/25G mediante sistemas MPSoC Linux Figura 4: Comparación del rendimiento de la transmisión TCP 10G/25G por parte de los sistemas MPSoC Linux y el núcleo TOExxG-IP de Design Gateway. (Fuente de la imagen: Design Gateway)

TOExxG-IP de Design Gateway para dispositivos Versal

Vista general del Diagrama del sistema TOExxG-IP Figura 5: Vista general de los sistemas TOExxG-IP. (Fuente de la imagen: Design Gateway)

El núcleo TOExxG-IP implementa la pila TCP/IP (en lógica hardwire) y se conecta con el módulo EMAC Hard IP y Ethernet Subsystem de Xilinx para la interfaz de hardware de capa inferior con velocidad 10G/25G/100G Ethernet. La interfaz de usuario del TOExxG-IP consta de una interfaz de registro para las señales de control y una interfaz FIFO para las señales de datos. El TOExxG-IP está diseñado para conectarse con el subsistema Ethernet de Xilinx a través de la interfaz AXI4-ST. La frecuencia de reloj de la interfaz de usuario depende de la velocidad de la interfaz Ethernet (por ejemplo, 156.625 MHz o 322.266 MHz).

Características de TOExxG-IP

Implementación completa de la pila TCP/IP sin necesidad de la CPU
Admite una sesión con un TOExxG-IP
La multisesión puede implementarse utilizando múltiples instancias de TOExxG-IP
Soporte para el modo Servidor y Cliente (apertura y cierre pasivo/activo)
Soporte para el marco Jumbo
Interfaz de datos sencilla mediante una interfaz FIFO estándar
Interfaz de control sencilla mediante una interfaz RAM de un solo puerto

Los usos de los recursos de la FPGA en el dispositivo FPGA XCVC1902-VSVA2197-2MP-ES se muestran en la Tabla 2 siguiente.

Familia	Ejemplo de dispositivo	Fmax (MHz)	Regulaciones CLB	CLB LUT	Slice	IOB	BRAMTile¹	URAM	Herramientas de diseño
Núcleo de IA Versal	XCVC1902-VSVA2197-2MP-ES	350	11340	10921	2165	-	51.5	-	Vivado2021.2

Tabla 2: Ejemplo de estadísticas de aplicación del dispositivo Versal.

En su hoja de datos se describen más detalles del TOExxG-IP, que puede descargarse del sitio web de Design Gateway en los siguientes enlaces:

Rendimiento de la IP del controlador de host NVMe de Design Gateway

La velocidad de la interfaz de Almacenamiento NVMe con PCIe Gen3 x4 o PCIe Gen4 x4 tiene velocidades de datos de hasta 32 Gbps y 64 Gbps. Esta velocidad es entre tres y seis veces superior a la de 10GbE Ethernet. El procesamiento del complicado protocolo de almacenamiento NVMe por parte de la CPU para lograr la mayor velocidad de acceso al disco posible requiere más tiempo de CPU que el protocolo TCP a través de 10GbE.

Design Gateway resolvió este problema desarrollando el núcleo IP NVMe que es capaz de funcionar como un controlador de host NVMe independiente, capaz de comunicarse con una unidad de estado sólido (SSD) NVMe directamente sin la CPU. Esto permite una alta eficiencia y rendimiento del acceso a las unidades de estado sólido (SSD) NVMe PCIe Gen3 y Gen4, lo que simplifica la interfaz de usuario y las características estándar para facilitar su uso sin necesidad de conocer el protocolo NVMe. El rendimiento de las unidades de estado sólido (SSD) NVMe PCIe Gen4 puede alcanzar una velocidad de transferencia de hasta 6 GB/s con NVMe IP, como se muestra en la figura 6.

Imagen de la comparación del rendimiento de las unidades de estado sólido (SSD) NVMe PCIe Gen3 y Gen4 Figura 6: Comparación del rendimiento de las unidades de estado sólido (SSD) NVMe Gen3 y Gen4 con el núcleo NVMe-IP de Design Gateway. (Fuente de la imagen: Design Gateway)

NVMe-IP de Design Gateway para dispositivos Versal

Esquema de los sistemas NVMe-IP Figura 7: Visión general de los sistemas NVMe-IP. (Fuente de la imagen: Design Gateway)

Características de NVMe-IP

Capaz de implementar la capa de aplicación, la capa de transacción, la capa de enlace de datos y algunas partes de la capa física para acceder a la unidad SSD NVMe sin una CPU o una memoria DDR externa
Funciona con Xilinx PCIe Gen3 y Gen4 Hard IP
Posibilidad de utilizar BRAM y URAM como búferes de datos sin necesidad de una interfaz de memoria externa
Soporta seis comandos: Identificar, Apagar, Escribir, Leer, SMART y Purgar (soporte opcional de comandos adicionales disponible)

Los usos de los recursos FPGA en el dispositivo FPGA XCVC1902-VSVA2197-2MP-E-S se muestran en la Tabla 2.

Familia	Ejemplo de dispositivo	Fmax (MHz)	Regulaciones CLB	CLB LUT	Slice	IOB	BRAMTile¹	URAM	Herramientas de diseño
Núcleo de IA Versal	XCVC1902-VSVA2197-2MP-ES	375	6280	3948	1050	-	4	8	Vivado2022.1

Tabla 3: Ejemplo de estadísticas de aplicación del dispositivo Versal.

En la hoja de datos del dispositivo NVMe-IP para Versal se describen más detalles, que pueden descargarse del sitio web de Design Gateway en el siguiente enlace:

Hoja de datos del núcleo IP NVMe para Xilinx Gen4

Conclusión:

Tanto el núcleo TOExxG-IP como el NVMe-IP podrían ayudar a acelerar el rendimiento de las aplicaciones de IA descargando por completo los sistemas de la CPU de los protocolos intensivos de computación y memoria, como TCP y el protocolo de Almacenamiento NVMe, que son fundamentales para las aplicaciones de IA en tiempo real. Esto permite al dispositivo de la serie Versal AI Core de Xilinx realizar inferencia de IA y aplicaciones informáticas de alto rendimiento sin cuellos de botella ni retrasos por el procesamiento de protocolos de red y almacenamiento de datos.

El kit de evaluación VCK190 y la solución IP de red y almacenamiento de Design Gateway permiten obtener el mejor rendimiento posible en aplicaciones de IA con el menor uso posible de recursos de la FPGA y una eficiencia energética muy alta en el dispositivo Versal AI Core de Xilinx.

Descargo de responsabilidad: Las opiniones, creencias y puntos de vista expresados por los autores o participantes del foro de este sitio web no reflejan necesariamente las opiniones, las creencias y los puntos de vista de DigiKey o de las políticas oficiales de DigiKey.

Acelere las aplicaciones de inteligencia artificial en el kit de evaluación VCK190 de Xilinx con los núcleos IP de Design Gateway

Características principales del kit de evaluación VCK190

Acelerador de interfaz de IA con los dispositivos de la serie Versal AI Core de Xilinx

Lo más destacado de la plataforma ACAP de Versal

Rendimiento de la inferencia de IA VCK190

¿Cómo los núcleos IP de Design Gateway aceleran el rendimiento de las aplicaciones de IA?

Rendimiento del motor de descarga TCP IP (TOExxG-IP) de Design Gateway

TOExxG-IP de Design Gateway para dispositivos Versal

Características de TOExxG-IP

Rendimiento de la IP del controlador de host NVMe de Design Gateway

NVMe-IP de Design Gateway para dispositivos Versal

Características de NVMe-IP

Conclusión:

Related Product Highlight

Información sobre el autor

INFORMACIÓN

AYUDA

CONTÁCTENOS

SÍGANOS