SomosNLP: La larga marcha de un grupo de voluntarios para lograr un ChatGPT hispano: “Un modelo formado en español sería increíble”

“La pregunta es ‘dame una receta típica peruana’ y luego te la doy”, dice María Grandury, fundadora de la organización de voluntariado SomosNLP. Grandury describe una acción banal para los nuevos chatbots creados con inteligencia artificial (IA). Esa simple solicitud, sin embargo, incluye un enorme trabajo previo, en su mayor parte automatizado, pero en gran parte también humano.

Esa pregunta necesita al menos tres elementos básicos: primero, una base de datos que incluya recetas peruanas en español, que provengan de internet. En segundo lugar, una lista de preguntas y respuestas que le permite al modelo aprender qué responder cuando se le pregunta sobre una receta peruana. Y tercero, un control que te permite revisar la respuesta y decir si es correcta.

Esta sencilla explicación de tres pasos esconde una enorme variedad de opciones, donde la financiación es clave. Las grandes empresas de Silicon Valley y las inglesas lo dominan todo con diferencia. ¿Qué se hace desde otros idiomas? Se intenta, en diferentes niveles. El español también debería ser una lengua dominante, pero en realidad no lo es tanto. El reto de hacer que una máquina aprenda a responder cualquier pregunta en español (no un puñado, centrada en un solo tema) es enormemente complejo.

El primer paso clave es reunir cantidades masivas de texto para entrenar lo que se llama un modelo fundamental. “No tenemos mucho texto, pero hay más en los últimos tres años, la comunidad ha ido creciendo y han surgido iniciativas del Gobierno”, afirma Grandury. Se refiere sobre todo a Alia, un modelo impulsado por el Gobierno de España y del que el ministro José Luis Escrivá dijo en EL PAÍS que “abrirá las puertas a una nueva generación de productos tecnológicos enriquecidos con el vasto patrimonio lingüístico del español y el lenguas cooficiales”. de España».

El modelo es una parte que requiere muchos datos originales pero también mucha informática. Por eso es imprescindible el acuerdo del Gobierno con el SuperCentro de Computación de Barcelona y con IBM. Pero con eso sólo hay un modelo capaz de escribir texto a partir de una frase inicial, no de una pregunta. Pero los chats que se han popularizado son precisamente de preguntas y respuestas. Estas instrucciones no existen en español, al menos público. Ahí es donde entra en juego SomosNLP (NLP por sus siglas en inglés de Natural Language Processing), que intenta reunir recursos para que mejore la presencia del español en la IA: “De las bases de datos con instrucciones, sólo son públicas las que están en público. Inglés. Lo que se suele hacer es tomarlos y traducirlos”, afirma Grandury. “Lo que vamos a hacer seguramente es crear el mayor corpus abierto de instrucciones en español hasta el momento”, añade.

Grandury, de 26 años y natural de Ponferrada, ya tiene experiencia en el espinoso camino de montar un modelo viable en español. Tras licenciarse en matemáticas y física en la Universidad de Oviedo y trabajar brevemente en Berlín, fichó por Clibrain. En el verano de 2023 Clibrain “quería ser el referente mundial de la IA en español” y su cofundadora, Elena González-Blanco, era “el referente mundial de la IA en español”, según titulares de prensa. Incluso sacaron un modelo con un nombre tan español como Lince. Hoy Clibrain ha cerrado.

“Lince funcionó bien, había que hacerlo más accesible, por ejemplo con una interfaz. Aunque también es costoso tenerlo disponible para que la gente lo use”, dice Grandury, refiriéndose a la necesidad informática que requiere que un modelo esté disponible en Internet para responder las preguntas de los usuarios.

Francia ya tiene su líder

Mientras tanto, Francia ha conseguido con Mistral una empresa nacional que compite a escala global. «Él campeón “La IA europea pone su mirada en los gigantes tecnológicos de EE.UU.”, tituló el New York Times en abril. Su director ejecutivo, el francés Arthur Mensch, de 31 años, ex empleado de Google, dijo: «Estos modelos dan forma a nuestra comprensión cultural del mundo, y los valores franceses y estadounidenses difieren de maneras sutiles pero importantes».

La brecha de financiación sigue siendo enorme: OpenAI ha logrado inversiones por valor de 13.000 millones de dólares; Mistral, 540 millones. El modelo de Mistral está en inglés, pero aparentemente hay un esfuerzo por poner más contenido en francés: al menos literatura francesa del siglo XIX, que ya no tiene derechos de autor, según el Los Tiempos de la Ciudad Nueva York.

Grandury se reunió con gente de Mistral poco después de lanzar su modelo. “Ya no contaban mucho. Les pregunté si habían entrenado con texto en francés o español. ‘Puede ser’, me dijeron”, sin aclarar ningún detalle. «La gente no habla», añade.

El presidente francés, Emmanuel Macron, recibe a Mensch. El presidente español, Pedro Sánchez, anunció el nuevo modelo Alia y se reunió con el español Darío Gil, vicepresidente de IBM. En ausencia de empresas poderosas, los españoles bien situados pueden ser de ayuda. Probablemente ayude en Francia que uno de los “padres de la IA” sea el francés Yann LeCun, científico jefe de IA en Meta.

Hoy me reuní con Darío Gil, vicepresidente de @IBM y director mundial de @IBMResearch.
Hemos acordado colaborar con la multinacional tecnológica para desarrollar modelos de lenguaje de IA en español y lenguas cooficiales, que anunciamos en el pasado MWC.
España apuesta por… pic.twitter.com/DwxzSBF3Ad
— Pedro Sánchez (@sanchezcastejon) 5 de abril de 2024

La ventaja del inglés es que Internet está en inglés. El español y el francés deben buscar y negociar con multitud de instituciones para alimentar sus modelos, al igual que lenguas más pequeñas como el español cooficial o las lenguas precolombinas en América Latina.

Somos NLP no tiene la capacidad de entrenar estos modelos, pero puede montar esfuerzos voluntarios, como un hackatón, para reunir pares de preguntas y respuestas generales. ¿Qué motiva a cientos de voluntarios a realizar estos esfuerzos para mejorar la IA en español? “Te unes a una gran comunidad internacional de personas con los mismos intereses que tú y sabes que, mientras aprendes y ganas visibilidad, estás aportando tu granito de arena a un objetivo común: colaborar con la preservación de tu lengua y cultura. ”, dice Grandury.

Unos 20 equipos de cinco personas crearon 200.000 instrucciones en unos pocos días. Es factible crear preguntas y respuestas con código a partir de bases de datos de temas específicos. “Hay pdfs, webs sobre temas legales o de refugiados en conversaciones en grupos abiertos de Telegram. Cuando tengas muchos datos, podrás crear automáticamente pares de preguntas y respuestas sobre ese texto. Luego lo envías a un espacio de escritura y ahora los humanos, las personas de cada equipo, revisan si tienen sentido. Es mucho más rápido porque ya no es necesario leer y buscar una pregunta y su respuesta”, afirma Grandury. Los seres humanos son como profesores de idiomas del chatbotsquienes señalan errores y aciertos y los corrigen para que mejoren sus respuestas.

El objetivo de SomosNLP es crear 10 millones de preguntas y respuestas originales en español. «Seguiría siendo un tercio del mayor corpus sintético en inglés», afirma Grandury. En SomosNLP el trabajo actualmente es estrictamente voluntario. Sólo algunos patrocinios de sus acciones, como el uso de servidores o premios, provienen, entre otros, de la empresa Hugging Face, construida alrededor de una comunidad que trabaja la IA de forma abierta.

👋 Les presento este mini avatar con el que queremos explicar de forma didáctica temas importantes que trabajamos en @mintradigital
Hoy nos cuenta por qué es clave contar con un modelo de lengua en español y lenguas cooficiales como el que estamos preparando: #ALIA 👇 pic.twitter.com/N5UYMLUyim
— José Luis Escrivá (@joseluisescriva) 7 de mayo de 2024

Las grandes empresas de Silicon Valley no desvelan cómo hacen este proceso. En enero de 2023, se supo que OpenAI había pagado a miles de trabajadores en Kenia para que escribieran respuestas demasiado tóxicas para que el chatbot aprendiera a no darlas. Pero apenas hay más detalles: «No sabemos hasta qué punto automatizan la creación de preguntas», afirma Grandury. “Luego hay mucha parte humana en la que no manejamos ni remotamente la misma cantidad de datos. «Imaginar cuántas personas están registradas allí es impensable».

Meta acaba de lanzar su nuevo modelo Llama 3. En un documento titulado Nuestro enfoque responsable hacia Meta AI y Meta Llama 3, la empresa dedica 3000 palabras a explicar los pasos, a menudo en colaboración con humanos, para no dar respuestas políticamente incorrectas. Pero no cuentan cómo han hecho todo el proceso anterior.

¿Por qué no usar ChatGPT en español?

Una pregunta repetida es por qué no utilizar los modelos que ya existen y que responden bien en español. Además de cuestiones estratégicas, culturales y abiertas, es difícil que un modelo creado originalmente en inglés sepa distinguir variantes dialectales del español.

“El truco no sería tomar un modelo multilingüe y adaptarlo, sino tomar uno que esté entrenado en español y luego adaptarlo con datos en español, sería increíble”, dice Grandury. ¿Cómo se notarían las diferencias? “Hay cosas más sutiles en el lenguaje, por ejemplo cómo te expresas si tienes un C1 o C2 o si usas expresiones coloquiales o más elaboradas”.

El objetivo inmediato del modelo impulsado por el Gobierno es dar a empresas y organizaciones algo muy español para sus necesidades concretas: es fácil afinar un modelo para que responda sólo a accidentes laborales en España, seguros de coche o altas en tales una universidad. “La tendencia es ir hacia modelos especializados: uno legal, por ejemplo, para que también aprendas a hablar más con ese tipo de lenguaje”, afirma Grandury.

Aunque un objetivo final es avanzar hacia un chat general como ChatGPT, no será un camino fácil: “No lo vamos a hacer solos”, aclara por si acaso.

puedes seguir EL PAÍS Tecnología en Facebook y X o regístrate aquí para recibir nuestra boletín semanal.

Suscríbete para seguir leyendo

Leer sin límites

Más información