El proyecto, impulsado por el Centro Nacional de Inteligencia Artificial de Chile (Cenia), cuenta con el respaldo de expertos, organizaciones y centros de investigación de México, Argentina, Colombia, Ecuador, Estados Unidos, España, Perú y Uruguay, como la Universidad de la República. Sin embargo, el avance de esta ambiciosa propuesta se enfrenta a importantes obstáculos legales, en particular respecto a los derechos de autor y la propiedad intelectual.
“En Uruguay, por ejemplo, solo se puede citar un fragmento de un texto protegido, pero no se puede usar para fines educativos o de investigación. Esto limita enormemente nuestra capacidad para recopilar datos. En Estados Unidos, no necesitas pedir permiso para usar documentos si es para investigación. Aquí, tendríamos que revisar cada uno de esos documentos, hasta el momento más de 129 millones, para ver si podemos usarlos legalmente. Es una barrera enorme”, señaló Díaz.
Las IA se entrenan con grandes cantidades de datos en línea, a menudo creados por personas o entidades con derechos legales sobre su material. El Cenia chileno ha formado convenios con comunidades que tienen datos utilizables, sobre todo universidades con repositorios de acceso libre e institutos de investigación. Aun así, la cantidad de datos recolectados es limitada en comparación con lo que se necesita para el entrenamiento de este modelo de lenguaje grande (LLM, por sus siglas en inglés), igual al que utilizan ahora ChatGPT (Open AI) o Gemini (Google). “Aunque hay muchas organizaciones y comunidades aportando datos, el suministro se está agotando”, explicó Díaz.
Esto ha obligado a recurrir a otras fuentes de datos, como enormes datasets licenciados libremente, que le brindan a Latam GPT la capacidad de dar respuesta a una gran cantidad de temas, o web scraping ético, que permite extraer información de sitios webs de forma automatizada.
La falta de fair use y sus consecuencias
La falta de un marco legal similar al fair use en América Latina no solo ralentiza el proceso de recopilación de datos, sino que también expone al proyecto a posibles demandas por infracción de derechos de autor. Díaz destacó que, incluso cuando el uso es claramente sin fines de lucro y con propósitos de investigación, las leyes actuales no ofrecen suficiente protección para los desarrolladores de IA.
“El fair use permite el uso de material protegido siempre que no compita con la explotación comercial de la obra y no cause daño al autor. Aquí, no tenemos esa flexibilidad. Si no está explícitamente permitido en la ley, es ilegal”, dijo Díaz. Agregó que eso los expone a una situación complicada porque saben que de utilizar ese tipo de datos estarían incurriendo en algo “técnicamente ilegal”, pero que “es la única forma de avanzar”.
El problema de la información pública
Otro desafío importante es el acceso a información pública, como las transcripciones de debates parlamentarios, que son significativos para entrenar un modelo de IA que refleje la realidad política y social de América Latina. En muchos países, estas transcripciones están protegidas por derechos de autor.
“En Uruguay, por ejemplo, las taquigráficas de las sesiones parlamentarias están protegidas por derechos de autor. Incluso, si son información pública, no podemos usarlas sin permiso. Lo mismo ocurre en otros países. Solo Argentina, Chile, Costa Rica y Paraguay permiten el uso de estas transcripciones sin restricciones”, explicó Díaz.
En junio del año pasado, la Cámara de Diputados de Uruguay aprobó por unanimidad una reforma a la Ley de Derechos de Autor para facilitar el trabajo de instituciones culturales, educativas y de investigación. Sin embargo, el proyecto quedó en estudio en el Senado. Según Díaz, el problema es que “nadie quiere agregar excepciones y limitaciones con fines de investigación para la ciencia de datos”. Además, criticó la falta de análisis reales sobre los impactos de la IA y señaló que existe una “burbuja de falsas expectativas” con respecto a lo horrible que va a ser la IA.
“Ninguna de las afirmaciones, ni de la suposiciones u oposiciones están basadas en análisis de impactos reales”, enfatizó.
La inseguridad jurídica y el futuro del proyecto
La “inseguridad jurídica” provocada por estas limitaciones legales no solo afecta la velocidad del desarrollo de Latam GPT, previsto para ser lanzado en junio próximo, sino que también plantea dilemas éticos para los investigadores. Díaz admitió que, en algunos casos, el equipo ha tenido que tomar decisiones difíciles para avanzar en el proceso de datos, sabiendo que están operando en un área gris legal. “Sabemos que estamos haciendo algo ilegal en algunos casos, pero es la única forma de avanzar”, admitió a Búsqueda.
“Hemos optado por una estrategia de ‘gestión de riesgo’, notificando a las fuentes de datos sobre el uso que haremos de la información y ofreciendo la posibilidad de retirar cualquier contenido que sea reclamado. Es una forma de ser transparentes, pero no resuelve el problema de fondo”, explicó.
Díaz también mencionó que, en algunos casos, incluso cuando la información está disponible en plataformas como YouTube, los términos de servicio de estas plataformas impiden el web scraping. “Si queremos usar los subtítulos de los videos de los parlamentos en YouTube, técnicamente no podemos hacerlo sin violar los términos de servicio. Es un callejón sin salida”, dijo.
La experta destacó que, a pesar de estos desafíos, el equipo de Latam GPT sigue adelante con el proyecto, buscando alternativas legales y promoviendo cambios en las leyes de derechos de autor en la región. “Estamos evidenciando estos problemas para resolverlos. No podemos permitir que leyes obsoletas frenen el desarrollo de la inteligencia artificial en América Latina”, concluyó.
El llamado a la reforma legal
El proyecto Latam GPT ha puesto en evidencia “la necesidad urgente” de reformar las leyes de derechos de autor en América Latina para adaptarlas a las necesidades de la era digital. Díaz señaló que, sin estas reformas, el desarrollo de la IA en la región seguirá enfrentando obstáculos significativos, limitando su potencial para impulsar la educación, la investigación y la innovación.
“En Cuba, por ejemplo, ya se han hecho cambios en la ley de derechos de autor para permitir el uso de material protegido con fines de investigación. Es un paso importante, pero necesitamos que otros países de la región sigan ese ejemplo”, explicó. “Si no actualizamos nuestras leyes, siempre estaremos compitiendo con las grandes tecnológicas con escarbadientes, y no es justo”.
El futuro de Latam GPT
A pesar de los desafíos legales, Díaz se mostró optimista sobre el futuro del proyecto. “Estamos visibilizando los grandes problemas que enfrentamos, y cada vez más personas y organizaciones están dispuestas a apoyarnos”, dijo.
Confirmó que desde Uruguay planea llevar los desafíos legales que enfrenta el proyecto a la Organización Mundial de la Propiedad Intelectual (OMPI) en abril, durante la reunión del Comité de Derechos de Autor y Conexos (SCCR, por sus siglas en inglés) en Ginebra. “Vamos a la OMPI para evidenciar estos problemas y buscar soluciones. Necesitamos que se reconozca que el uso de datos con fines de investigación no debería ser tratado como una infracción, especialmente cuando no hay un interés económico de por medio”.
Además, Díaz destacó que no son los únicos que enfrentan estos desafíos. “Tenemos compañeros en África que están lidiando con problemas similares. Quieren desarrollar modelos de lenguaje en dialectos africanos, pero se topan con barreras legales porque no tienen acceso a datos suficientes. Es una lucha global por el acceso al conocimiento”, señaló.
Sobre la posibilidad de regulaciones sobre estas herramientas puso un elemento a considerar: “Una cosa es OpenAI y otra cosa es el colectivo de África o el proyecto de Cenia en Chile. No podemos regular para todos igual. Hay que entender que proyectos como Latam GPT no son lo mismo que las grandes tecnológicas. Necesitamos un enfoque diferenciado”.