Relevante — episodio 120 📢🦾👾🚙
Los robots ven e interpretan, hay un nuevo RoboDog, una AI generativa para simular voces, un secretito del Tetris, Vision Computing, Audi y la realidad mixta, Tweets, música ¡y mucho más!
#robots 🦾
Qué significa el nuevo buzzword en robótica, VRB (interestingengineering): Visual Robotics Bridge, lo que significa “cómo entrenar a un robot a realizar una tarea, sin un humano de por medio y sin entrenamientos en ambientes virtuales”. En este hermoso paper de la Carnegie Mellon University está la explicación en detalle de la investigación. ¿Cómo funciona? VRB es la evolución de WHIRL, donde en su versión previa se entrenaba al robot viendo videos de un humano realizando una acción determinada, anotada. Ahora, lo hace tomando videos de Internet del comportamiento humano, con eso se entrenó un modelo de rendimiento visual -visual affordance- que estima dónde y cómo es probable que interactúe un humano. Incluyen varios mecanismos de aprendizaje: offline imitation learning, exploration, goal-conditioned learning, y action parameterization for reinforcement learning. ¿Objetivos? Integrar a la perfección las técnicas de vision computing con la manipulación robótica, en 4 entornos del mundo real, en más de 10 tareas diferentes y 2 plataformas robóticas que operan en la vida real.
Es fabulosa la definición de affordance, según UX: Affordance es un término acuñado originalmente por un psicólogo, J.J. Gibson, en la década de 1970. La definió como la relación entre un actor y el entorno. Hoy en día, este concepto se extiende más allá de la psicología y se aplica al diseño de interfaces digitales. Entenderlo permite comprender mejor el diseño de productos e interfaces y ayuda al profesional del diseño a llevar su carrera un paso más allá.
Robodogs Open Source (Youtube): Debido al éxito de los robodogs de Boston Dynamics, crearon a DINGO, un prototipo (bastante final) de un robot de similares características, pero open source. Solo su placa madre es custom-made para el robot, el resto son robo-partes que son accesibles. Corre un Ubuntu, te deja acceder al OS y sus API’s para poder entrenar y simular caminatas. Casi todas su partes son removibles, y además tiene la capacidad de poder sumarle otros periféricos como un scanner LiDAR. Es chiquitín, en comparación al de BD.
#games 👾
Las fichas de los Tetris tenían nombre (): Resulta que el usuario de Twitter @vecchitto descubrió que en el manual del juego original, las piezas tenían originalmente nombres como Orange Ricky, Blue Ricky, Cleveland, Rhode Island, Hero, Teewee, Smashboy. La nota original tiene un desarrollo sobre cada uno de los los nombres.
#AI 📢
Voicebox, de Meta (Genbeta): Es una AI generativa del habla. Es el primer modelo capaz de generalizar tareas de generación del habla para las que no ha sido específicamente entrenado. A partir de una frase escrita, Voicebox las convierte en voces sintetizadas pero también agrega una capa de estilos. Disponible en inglés, francés, alemán, español, polaco y portugués. Fue entrenado con 50.000 horas de audiolibros en inglés, y 60.000 horas en otros idiomas. ¿Para qué serviría? Para dar voces naturales a asistentes virtuales y NPC del del metaverso. Como también para aquellos que han perdido la voz. ¿Más features? Editar audio pre-grabado para eliminar bocinazos o ladridos, sacar audio con tu voz pero en otro idioma, editar palabras en audios reemplazándolos por lo que hayas indicado en el prompt. Deepfake a la vuelta de la esquina, por eso no lo hicieron open source.
En episodio 28 💻🎭🖤🌌 hablamos del caso de Val Kilmer, que perdió su voz e hicieron un clip con su voz, reconstruida por Inteligencia Artificial.
Dos nuevas herramienta de vision computing (TAPIR y OmniMotion ): El desafío técnico que cubren estos 2 papers es fantástico: Hacer un seguimiento de movimiento de puntos de un objeto, en cualquier video proporcionado. El primero es TAPIR y el segundo es Tracking Everything Everywhere All At Once, ambos analizan cada cuadro la secuencia de video por separado para encontrar una coincidencia de punto tras punto, hallando el candidato adecuado en el proximo cuadro. Ambos buscan hacer seguimiento de trayectorias de diferentes objetos identificando cuadro a cuadro cómo se mueve el objeto. Los algoritmos encadenan cuadro a cuadro estimando con muy buenos resultados hacia donde se movieron los objetos a lo largo de todo el video. ¿Para qué serviría? Primero para poder capturar movimiento con más puntos de captura, no hacer solo seguimiento de humanos, sino también de telas por mencionar algo. Uno de los algoritmos predice muy bien la oclusión (cosa que he sufrido en otros proyectos), lo cual sirve mucho para Realidad Aumentada y Realidad Mixta.
#metaverse #VR #AR #EV 🚙
AUDI AG presentó el concepto de "Audi Dimensions" (Aporte involuntario del amigo Nacho Harriague desde su Linkedin, síganlo): Audi en asociación con Magic Leap desarrollaron concept car tiene dos cualidades particulares. AR + conducción automatizada/manual. Durante los diferentes modos de manejo los Magic Leaps permitirán utilizar el entorno real-virtual. La computación espacial se integra en los automóviles de manera muy efictenciente. Desde mi punto de vista habrá que explorar más tecnología, porque no quiero verme obligado a usar anteojos para tener una mejor experiencia de manejo. Abajo el video, encabezado por el Head de UX/UI en Audi.
Videos Increíbles 📺
Lo que nadie necesitaba: Un torneo de Taekwondo en el metaverso, pero uno al lado del otro. Lo realmente destacable es que la cantidad de sensores que les ponen para registrar sus movimientos.
#music by Rafael Rodrigues 🤘❄️🎸
Esta semana tenemos muchos lanzamientos de la nuevas generaciones, así que sin prisa y sin pausa, los repasamos. El increíble de Tiago PZK hizo una colaboración con el productor Marshmello y lanzaron “Como Yo”. Por otro lado su amigo DUKI, nos lleva de viaje con su nuevo álbum “Antes de Ameri” con 14 canciones plagadas de colaboraciones de la talla de Quevedo y Jhayco. A su vez el mega pegado BIZARRAP lanzó una nueva sesión junto a Rauw Alejandro.
Como no todo es cachengue, también escuchamos cosas tranquilas como el hermoso lanzamiento de Norah Jones junto a Emily King llamado Bad Memory, para su podcast llamado Nora Jones is Playing Along. Disfrutálo.
PD: En un hecho histórico y sin precedentes los amigos de La Renga coparon Londres. Sí, leíste bien. Los oriundos de Mataderos llenaron una plaza e hicieron delirar a los Argentino que caminan esas tierras.
Todo lo nuevo sumado a nuestra Relevante Playlist acá.👇