La euforia por el código abierto
Los modelos de código abierto son aquellos en los que las ponderaciones o los parámetros que determinan el comportamiento de un modelo se hacen públicos, a veces con los detalles de su arquitectura y entrenamiento. Esto permite que cualquiera pueda descargarlo y ejecutarlo en su propia computadora o en la nube. En el caso de Nvidia, la compañía también revela las innovaciones técnicas que intervienen en la construcción y el entrenamiento de sus modelos, lo que facilita a las startups y a los investigadores modificar y construir sobre las innovaciones de la compañía.
A mediados de la semana, Nvidia también presentó Nemotron 3 Super, su modelo de IA de código abierto más capaz hasta la fecha. El nuevo modelo tiene 128,000 millones de parámetros, una medida del tamaño y la complejidad del modelo, lo que lo hace aproximadamente equivalente a la versión más grande de GPT-OSS de OpenAI, aunque la compañía afirma que supera a GPT-OSS y a otros modelos en varias pruebas comparativas.
En concreto, Nvidia afirma que Nemotron 3 Super ha obtenido una puntuación de 37 en el Índice de Inteligencia Artificial, que evalúa modelos en 10 pruebas diferentes. GPT-OSS obtuvo 33 puntos, pero varios modelos chinos obtuvieron puntuaciones más altas. Nvidia afirma que Nemotron 3 Super se probó en secreto en PinchBench, un nuevo punto de referencia que evalúa la capacidad de un modelo para controlar OpenClaw, y obtuvo el primer puesto en esa prueba.
Nvidia también presentó una serie de trucos técnicos que utilizó para entrenar a Nemotron 3. Entre ellos se incluyen técnicas de arquitectura y entrenamiento que mejoran la capacidad de razonamiento del modelo, el manejo de contextos largos y la capacidad de respuesta al aprendizaje por refuerzo.
"Nvidia se está tomando mucho más en serio el desarrollo de modelos abiertos. Y estamos logrando un gran progreso", afirma Bryan Catanzaro, vicepresidente de investigación aplicada de aprendizaje profundo en Nvidia.
CEO Mark Zuckerberg reinició los esfuerzos de IA de la compañía, y señaló que podría no hacer futuros modelos completamente abiertos. OpenAI ofrece un modelo abierto, llamado GPT-oss, pero es inferior a las mejores ofertas propietarias de la empresa y no se adapta bien a las modificaciones.A los mejores modelos estadounidenses, de OpenAI, Anthropic y Google, solo se puede acceder a través de la nube o mediante una interfaz de chat. En cambio, los pesos de muchos de los mejores modelos chinos, de DeepSeek, Alibaba, Moonshot AI, Z.ai y MiniMax, se publican de forma abierta y gratuita. Como resultado, muchas nuevas empresas e investigadores de todo el mundo están construyendo sobre modelos chinos.
"Nos interesa ayudar a que el ecosistema se desarrolle", afirma Catanzaro, que se incorporó a Nvidia en 2011 y ayudó a encabezar el cambio de la empresa, que pasó de fabricar tarjetas gráficas para juegos a fabricar silicio para IA. Nvidia lanzó el primer modelo de Nemotron en noviembre de 2023. Catanzaro añade que Nvidia ha terminado recientemente el preentrenamiento de un modelo de 550,000 millones de parámetros. El preentrenamiento implica introducir enormes cantidades de datos en un modelo repartido entre un gran número de chips especializados que funcionan en paralelo.
la robótica, la modelización del clima y el plegamiento de proteínas.Kari Briski, vicepresidente de software de IA generativa para empresas, afirma que los futuros modelos de IA de Nvidia ayudarán a la empresa a mejorar no solo sus chips, sino también los centros de datos a gran escala que construye: "Lo construimos para ampliar nuestros sistemas y probar no solo la computación, sino también el almacenamiento y la red, y para construir nuestra hoja de ruta de arquitectura de hardware".
La publicación abierta de los modelos también puede tener ventajas estratégicas a largo plazo para Nvidia. Los chips de la compañía siguen siendo el estándar de oro para el entrenamiento de grandes modelos de IA, con clientes que gastan miles de millones en adquirir el hardware de la compañía para sus centros de datos. Pero el auge de los modelos abiertos chinos podría en algún momento erosionar la posición de Nvidia si esos modelos demostraran mejoras espectaculares en el hardware rival.
financiar modelos abiertos.Andy Konwinski, informático y empresario que dirige el Instituto Laude, una organización sin fines de lucro centrada en promover la apertura en la IA, afirma que la inversión de Nvidia es muy significativa por su posición en el nexo de la investigación en IA: "Están al frente de muchos esfuerzos abiertos y cerrados de IA. Es una señal sin precedentes de que creen en la apertura".
Artículo originalmente publicado enWIRED.Adaptado por Alondra Flores.