NVIDIA anunció que la plataforma NVIDIA Maxine proporciona a los desarrolladores un conjunto de software de videoconferencia de inteligencia artificial acelerado por GPU basado en la nube para mejorar la transmisión de video.
Este lanzamiento hace posible que los proveedores de servicios lleven nuevas capacidades impulsadas por inteligencia artificial a las más de 30 millones de reuniones web que se estima que tienen lugar todos los días. Los proveedores de servicios de videoconferencia que ejecutan la plataforma en GPU NVIDIA en la nube pueden ofrecer a los usuarios nuevos efectos de inteligencia artificial, que incluyen corrección de mirada, una súper resolución, cancelación de ruido, re-iluminación de rostros y más.
La plataforma Maxine reduce la cantidad de ancho de banda que se requiere para las videollamadas. En lugar de transmitir toda la pantalla de píxeles, el software de inteligencia artificial analiza los puntos faciales clave de cada persona en una llamada y luego vuelve a animar de manera inteligente la cara en el video del otro lado. Esto hace posible transmitir video con muchos menos datos fluyendo de un lado a otro a través de Internet.
Con esta nueva tecnología de compresión de video basada en IA que se ejecuta en las GPUs NVIDIA, los desarrolladores pueden reducir el consumo de ancho de banda de video hasta una décima parte de los requisitos del estándar de compresión de video de transmisión H.264.
Además, esto reduce los costos para los proveedores y ofrece una experiencia de videoconferencia más fluida para los usuarios finales, que pueden disfrutar de más servicios impulsados por IA mientras transmiten menos datos en sus computadoras, tabletas y teléfonos.
Funciones de IA mejoran las experiencias de videoconferencia
Los nuevos avances de los investigadores de NVIDIA que se incluirán en Maxine hacen que las videoconferencias se sientan más como una conversación cara a cara. Los proveedores de servicios de videoconferencia podrán aprovechar la investigación de NVIDIA research in GANs, o redes generativas de confrontación, para ofrecer una variedad de nuevas características.
Por ejemplo, la alineación de rostros permite que los mismos se ajusten automáticamente para que las personas parezcan estar enfrentadas durante la llamada, mientras que la corrección de la mirada ayuda a simular el contacto visual, incluso si la cámara no está alineada con la pantalla del usuario. Dado que las videoconferencias se han multiplicado por diez desde principios de año, estas funciones ayudan a las personas a participar en la conversación en lugar de mirar a la cámara.
Los desarrolladores también pueden agregar funciones que permitan a los participantes de la llamada elegir sus propios avatares animados con animación realista impulsada automáticamente por su voz y tono emocional en tiempo real. Una opción de fotograma automático permite que la transmisión de video siga al orador incluso si se aleja de la pantalla.
Con las funciones de IA conversacional impulsadas por NVIDIA Jarvis SDK, los desarrolladores pueden integrar asistentes virtuales que utilizan modelos de lenguaje de IA de última generación para el reconocimiento de voz, la comprensión del lenguaje y la generación de voz. Los asistentes virtuales pueden tomar notas, establecer elementos de acción y responder preguntas con voces humanas. Los servicios de inteligencia artificial conversacional adicionales, como traducciones, subtítulos y transcripciones, ayudan a garantizar que los participantes puedan comprender lo que se está discutiendo en la llamada.