NVIDIA presenta la plataforma Omniverse Avatar

NVIDIA ha anunciado hoy NVIDIA Omniverse Avatar, una plataforma tecnológica para generar avatares de IA interactivos. Omniverse Avatar conecta las tecnologías de la compañía en inteligencia artificial del habla, visión por computadora, comprensión del lenguaje natural, motores de recomendación y tecnologías de simulación. Los avatares creados en la plataforma son personajes interactivos con gráficos 3D con trazado de rayos que pueden ver, hablar, conversar sobre una amplia gama de temas y comprender la intención hablada de forma natural.

Omniverse Avatar abre la puerta a la creación de asistentes de IA que se pueden personalizar fácilmente para prácticamente cualquier industria. Estos podrían ayudar con los miles de millones de interacciones diarias de servicio al cliente (pedidos de restaurantes, transacciones bancarias, hacer citas y reservas personales, y más), lo que generaría mayores oportunidades comerciales y una mayor satisfacción del cliente.

“Ha llegado el amanecer de los asistentes virtuales inteligentes”, dijo Jensen Huang, fundador y director ejecutivo de NVIDIA. “Omniverse Avatar combina las tecnologías de IA, simulación y gráficos fundamentales de NVIDIA para crear algunas de las aplicaciones en tiempo real más complejas jamás creadas. Los casos de uso de robots colaborativos y asistentes virtuales son increíbles y de gran alcance “.

Omniverse Avatar es parte de NVIDIA Omniverse, una plataforma de colaboración y simulación de mundo virtual para flujos de trabajo 3D actualmente en beta abierta con más de 70.000 usuarios.

En el discurso de apertura de NVIDIA GTC 21 de esta mañana, Huang compartió varios ejemplos de Omniverse Avatar: Project Tokkio para soporte al cliente, Conserje de NVIDIA DRIVE para servicios inteligentes siempre activos en vehículos, y Proyecto Maxine para videoconferencia.

En la primera demostración del Proyecto Tokkio, Huang mostró a sus colegas participando en una conversación en tiempo real con un avatar creado como una réplica de juguete de él mismo, el juguete Jensen, conversando sobre temas como la biología y la ciencia climática.

En una segunda demostración del Proyecto Tokkio, destacó un avatar de servicio al cliente en un quiosco de restaurante, capaz de ver, conversar y comprender a dos clientes mientras pedían hamburguesas vegetarianas, papas fritas y bebidas. Las demostraciones fueron impulsadas por el software NVIDIA AI y Megatron 530B, que es actualmente el modelo de lenguaje personalizable más grande del mundo.

En una demostración de la plataforma DRIVE Concierge AI, un asistente digital en la pantalla del tablero central ayuda al conductor a seleccionar el mejor modo de conducción para llegar a su destino a tiempo, y luego sigue su solicitud para establecer un recordatorio una vez que el alcance del automóvil desciende por debajo de las 100 millas .

Por separado, Huang mostró la capacidad de Project Maxine para agregar funciones de audio y video de última generación a las aplicaciones de creación de contenido y colaboración virtual. Se muestra a un hablante de inglés en una videollamada en un café ruidoso, pero se puede escuchar claramente sin ruido de fondo. Mientras habla, sus palabras se transcriben y traducen en tiempo real al alemán, francés y español con su misma voz y entonación.

Elementos clave del avatar del omniverso

Omniverse Avatar utiliza elementos de inteligencia artificial del habla, visión por computadora, comprensión del lenguaje natural, motores de recomendación, animación facial y gráficos entregados a través de las siguientes tecnologías:

  • Su reconocimiento de voz se basa en NVIDIA Riva, un kit de desarrollo de software que reconoce el habla en varios idiomas. Riva también se utiliza para generar respuestas de voz similares a las humanas utilizando capacidades de conversión de texto a voz.
  • Su comprensión del lenguaje natural se basa en la Megatron 530B modelo de lenguaje de gran tamaño que puede reconocer, comprender y generar el lenguaje humano. Megatron 530B es un modelo previamente entrenado que puede, con poca o ninguna capacitación, completar oraciones, responder preguntas de un gran dominio de temas, resumir historias largas y complejas, traducir a otros idiomas y manejar muchos dominios para los que no está capacitado específicamente. .
  • Su motor de recomendaciones es proporcionado por NVIDIA Merlin, un marco que permite a las empresas construir sistemas de recomendación de aprendizaje profundo capaces de manejar grandes cantidades de datos para hacer sugerencias más inteligentes.
  • Sus capacidades de percepción están habilitadas por NVIDIA Metropolis, un marco de visión por computadora para análisis de video.
  • Su animación de avatar está impulsada por NVIDIA Video2Face y Audio2Face, Tecnologías de renderizado y animación facial 2D y 3D impulsadas por IA.

Estas tecnologías se componen en una aplicación y se procesan en tiempo real utilizando NVIDIA Marco informático unificado. Empaquetadas como microservicios escalables y personalizables, las habilidades se pueden implementar, administrar y orquestar de manera segura en múltiples ubicaciones por Comando de flota de NVIDIA.

Leave a Comment