La revolución de la IA generativa ha comenzado. ¿Cómo llegamos ahí?
El progreso en los sistemas de inteligencia artificial a menudo parece ser cíclico. Cada pocos años, las computadoras de repente pueden hacer algo que nunca antes habían podido hacer. “¡Aquí!” proclaman los verdaderos creyentes en la IA: “¡La era de la inteligencia artificial general está cerca!” “¡Tonterías!”, dicen los escépticos. «¿Recuerdas los autos sin conductor?»
La verdad por lo general se encuentra en algún lugar en el medio.
Estamos en otro ciclo, esta vez con IA generativa. Los titulares de los medios están dominados por noticias sobre el arte de la inteligencia artificial, pero también hay avances sin precedentes en muchas áreas completamente dispares. En todo, desde video hasta biología, programación, escritura, traducción y más, la IA avanza al mismo ritmo increíble.
¿Por qué está pasando todo esto ahora?
Es posible que esté familiarizado con los últimos desarrollos en el mundo de la IA. Ha visto trabajos galardonados, escuchado entrevistas de personas fallecidas y leído sobre avances en el plegamiento de proteínas. Pero estos nuevos sistemas de IA no solo crean demostraciones geniales en laboratorios de investigación. Están evolucionando rápidamente hacia herramientas prácticas y verdaderos productos comerciales que cualquiera puede usar.
Hay una razón por la que todo sucedió a la vez. Todos los logros se basan en una nueva clase de modelos de IA que son más flexibles y potentes que cualquier otro anterior. Debido a que se usaron por primera vez para tareas de lenguaje, como responder preguntas y escribir ensayos, a menudo se les conoce como modelos de lenguaje extenso (LLM, por sus siglas en inglés). GPT3 de OpenAI, BERT de Google, etc. son todos LLM.
Pero estos modelos son extremadamente flexibles y adaptables. Las mismas estructuras matemáticas han demostrado ser tan útiles en la visión por computadora, la biología y más, que algunos investigadores las han llamado «modelos maestros» para articular mejor su papel en la IA moderna.
¿De dónde provienen estos modelos básicos y cómo se separaron del lenguaje para impulsar lo que vemos hoy en la IA?
Base de los modelos de cimentación
Hay una santísima trinidad en el aprendizaje automático: modelos, datos y cálculos. Los modelos son algoritmos que toman entradas y producen salidas. Los datos se refieren a los ejemplos en los que se entrenan los algoritmos. Para aprender algo, debe haber suficientes datos con suficiente integridad para que los algoritmos puedan producir un resultado útil. Los modelos deben ser lo suficientemente flexibles para reflejar la complejidad de los datos. Y finalmente, debe haber suficiente poder de cómputo para ejecutar los algoritmos.
La primera revolución de la IA moderna ocurrió con el aprendizaje profundo en 2012, cuando comenzó la resolución de problemas de visión por computadora con redes neuronales convolucionales (CNN). Las CNN tienen una estructura similar a la corteza visual. Han existido desde la década de 1990, pero aún no han sido prácticos debido a las altas demandas de potencia informática.
Sin embargo, en 2006, Nvidia lanzó CUDA, un lenguaje de programación que permitía que las GPU se usaran como supercomputadoras de propósito general. En 2009, los investigadores de IA de Stanford introdujeron Imagenet, una colección de imágenes etiquetadas que se utilizan para entrenar algoritmos de visión por computadora. En 2012, AlexNet combinó CNN entrenadas en GPU con datos de Imagenet para crear el mejor clasificador visual que el mundo jamás haya visto. El aprendizaje profundo y la inteligencia artificial brotaron de allí.
CNN, el conjunto de datos de ImageNet y las GPU fueron la combinación mágica que abrió grandes avances en la visión por computadora. 2012 provocó un auge en el interés por el aprendizaje profundo y generó industrias enteras, como las relacionadas con la conducción autónoma. Pero rápidamente nos dimos cuenta de que había límites para esta generación de aprendizaje profundo. Las CNN eran buenas para la visión, pero otras áreas no tuvieron su avance en el modelado. Una gran brecha fue en el procesamiento del lenguaje natural (NLP), es decir, hacer que las computadoras entiendan y trabajen con el lenguaje humano normal en lugar del código.
El problema de comprender y trabajar con el lenguaje es fundamentalmente diferente del problema de trabajar con imágenes. El lenguaje de procesamiento requiere trabajar con secuencias de palabras donde el orden es importante. Un gato sigue siendo un gato sin importar dónde se encuentre en la imagen, pero hay una gran diferencia entre «este lector aprenderá sobre la IA» y «IA aprenderá sobre este lector».
Hasta hace poco, los investigadores se basaban en modelos como las redes neuronales recurrentes (RNN) y la memoria a corto plazo a largo plazo (LSTM) para procesar y analizar datos de manera oportuna. Estos modelos fueron efectivos para reconocer secuencias cortas, como palabras habladas de frases cortas, pero tuvieron problemas con oraciones y párrafos más largos. Es solo que la memoria de estos modelos no estaba lo suficientemente desarrollada para capturar la complejidad y riqueza de ideas y conceptos que surgen al combinar oraciones en párrafos y ensayos. Eran estupendos para simples asistentes de voz al estilo de Siri y Alexa, pero nada más.
Obtener los datos correctos para el entrenamiento fue otro desafío. ImageNet era un conjunto de 100 000 imágenes etiquetadas que requirió un esfuerzo humano significativo, en su mayoría estudiantes graduados y trabajadores de Amazon Mechanical Turk, para crear. Y ImageNet en realidad se inspiró y modeló en un proyecto anterior llamado WordNet que intentaba crear un conjunto de datos etiquetados para el vocabulario en inglés. Si bien no hay escasez de texto en Internet, generar un conjunto de datos significativo para entrenar una computadora para manejar el lenguaje humano más allá de las palabras individuales lleva mucho tiempo. Y es posible que los accesos directos que cree para una aplicación en los mismos datos no se apliquen a otra tarea.
Deja una respuesta