Los científicos entrenaron una IA a través de los ojos de un bebé en un esfuerzo por enseñarle a la tecnología cómo se desarrolla la humanidad, en medio del temor de que pueda destruirnos.
Investigadores de la Universidad de Nueva York le colocaron una grabadora headcam a Sam cuando solo tenía seis meses y cumplía dos años.
El metraje de 250.000 palabras y las imágenes correspondientes se introdujeron en un modelo de inteligencia artificial, que aprendió a reconocer diferentes objetos de forma similar a como lo hizo Sam.
La IA desarrolló su conocimiento de la misma manera que lo hizo el niño: observando el entorno, escuchando a las personas cercanas y conectando puntos entre lo que se veía y se oía.
El experimento también determinó la conexión entre la representación visual y lingüística en el desarrollo de un niño.
Investigadores de la Universidad de Nueva York grabaron una perspectiva en primera persona de la apariencia de un niño colocando una cámara a Sam, de seis meses (en la foto), hasta que cumplió aproximadamente dos años.
Los investigadores se propusieron descubrir cómo los humanos vinculan las palabras con la representación visual, como asociar la palabra «pelota» con un objeto redondo que rebota en lugar de otras características, objetos o eventos.
La cámara capturó al azar las actividades diarias de Sam, como las horas de comida, la lectura de libros y el juego del niño, lo que equivalía a unas 60 horas de datos.
‘Al utilizar modelos de IA para estudiar el problema real del aprendizaje de idiomas que enfrentan los niños, podemos abordar los debates clásicos sobre qué ingredientes necesitan los niños para aprender palabras: si necesitan sesgos específicos del idioma, conocimiento innato o simplemente aprendizaje asociativo para comenzar. ‘ dijo Brenden Lake, profesor asistente en el Centro de Ciencia de Datos y Departamento de Psicología de la Universidad de Nueva York y autor principal del artículo.
La cámara capturó 61 horas de metraje, lo que equivale aproximadamente al uno por ciento de las horas de vigilia de Sam, y se utilizó para entrenar el modelo CVCL para vincular palabras con imágenes. La IA pudo determinar que estaba viendo un gato
El modelo CVCL vinculó con precisión imágenes y texto alrededor del 61,6 por ciento de las veces. En la foto se muestra el objeto que la IA pudo determinar basándose en las imágenes.
«Parece que podemos conseguir más con solo aprender de lo que comúnmente se piensa».
Los investigadores utilizaron un codificador de visión y texto para traducir imágenes y lenguaje escrito para que el modelo de IA interpretara las imágenes obtenidas a través de los auriculares de Sam.
Si bien las imágenes a menudo no vinculaban directamente palabras e imágenes, el robot del modelo Child’s View for Contrastive Learning (CVCL), compuesto por la IA y la cámara frontal, pudo reconocer los significados.
El modelo utilizó un enfoque de aprendizaje contrastivo que acumula información para predecir qué imágenes y texto van juntos.
Los investigadores presentaron varias pruebas de 22 palabras e imágenes separadas que estaban presentes en el video del niño y descubrieron que el modelo podía relacionar correctamente muchas de las palabras y sus imágenes.
Sus hallazgos mostraron que el modelo de IA podía generalizar lo aprendido con una tasa de precisión del 61,6 por ciento y fue capaz de identificar correctamente ejemplos invisibles como «manzana» y «perro» el 35 por ciento de las veces.
«Demostramos, por primera vez, que una red neuronal entrenada con esta información evolutivamente realista de un solo niño puede aprender a vincular palabras con sus contrapartes visuales», afirma Wai Keen Vong, científico investigador del Centro de Ciencia de Datos y la Universidad de Nueva York. primer autor del artículo.
«Nuestros resultados demuestran cómo los avances algorítmicos recientes, combinados con la experiencia naturalista de un niño, tienen el potencial de remodelar nuestra comprensión del lenguaje temprano y la adquisición de conceptos».
Los investigadores descubrieron que todavía existen inconvenientes en el modelo de IA y, si bien la prueba resultó prometedora para comprender cómo los bebés desarrollan las funciones cognitivas, estaba limitada por su incapacidad para experimentar plenamente la vida del bebé.
Un ejemplo mostró que CVCL tenía problemas para aprender la palabra «mano», que suele ser algo que el bebé aprende muy temprano en su vida.
«Los bebés tienen sus propias manos y tienen mucha experiencia con ellas», dijo Vong. Naturalezay añade: «Ese es definitivamente un componente que falta en nuestro modelo».
Los investigadores planean realizar investigaciones adicionales para replicar el aprendizaje temprano de idiomas en niños pequeños de alrededor de dos años.
Aunque la información no era perfecta, Lake dijo que «era totalmente única» y presenta «la mejor ventana que hemos tenido sobre a qué tiene acceso un solo niño».