Aunque la IA generativa se comporta como los humanos al hacer uso de la copia para crear nuevas imágenes, el uso de datos preexistentes genera controversias sobre la propiedad intelectual. ¿Es justo entrenarla usando cualquier tipo de fotos o copiando un estilo, como sucedió hace poco con el estudio Ghibli? El debate sobre el “uso justo” cobra fuerza mientras la IA consume energía y cuestiona lo que entendemos por creatividad.
Por Ana María Castillo | Crédito imagen: X.com
Copiar nos hace humanos. Cada desarrollo individual o colectivo es la suma y la reorganización de conocimientos previamente alcanzados por otros. Damos saltos, hacemos cambios, logramos mejoras, pero vamos sosteniéndonos —a veces en un equilibrio precario— sobre los hombros del trabajo de los demás para poder avanzar.
Hoy, la llamada inteligencia artificial generativa, es decir, los grandes modelos de lenguaje (LLM – Large Language Models) hacen algo que parece similar: se basan en información preexistente para volver a ordenarla de manera tan coherente que parece creativa. En este paso, nos encontramos con la pregunta sobre la propiedad intelectual, sobre la información que sirve para el entrenamiento de los modelos, sobre los datos con los que se construyen las realidades sintéticas que hemos aceptado como parte de nuestra vida cotidiana.
En las últimas semanas, Meta ha enviado correos electrónicos a sus usuarios de Instagram para recordarles que su información pública, además de imágenes subidas y comentarios, podrán ser utilizados para el entrenamiento de su IA. Aunque puedes oponerte a esta utilización, el proceso es engorroso y hay que responder una pregunta que no habla de consentimiento, sino que se plantea así: “¿en qué te afecta el tratamiento de estos datos?”. La cuestión hace pensar.
¿En qué me afecta que usen mis contenidos o mi información para entrenar IA? ¿En qué afecta a Hayao Miyazaki que se utilice su “estilo” para procesar fotos? Al fin y al cabo, es una muestra de admiración, ¿no?
En este caso, la paradoja es doble: se usa un referente gráfico que, estereotipado discutiblemente, termina ajustando características de nuestras imágenes a algo que se podría parecer —eventualmente— a un dibujo del Studio Ghibli, lo cual plantea la pregunta por si se ha hecho un uso indiscriminado de imágenes de entrenamiento que no han sido pagadas a los autores. Esta posibilidad desvaloriza el trabajo de artistas y tantos otros involucrados en la creación de productos culturales masivos y pone en riesgo a creadores independientes que se enfrentan a un sistema ya suficientemente precarizado.
Algo similar ocurre en la disputa entre la agencia de fotos Getty Images y Stability AI, que alega fair use, por cuanto su entrenamiento se basa en datos recopilados masivamente de internet, entre los que se encuentran las imágenes de Getty. ¿Uso justo para quiénes?
Adicionalmente, se está usando una tecnología altamente invasiva con el medio ambiente para replicar imágenes que nos permiten parecernos por un momento a la Princesa Mononoke, personaje mítico de Ghibli. Aquí, pienso que sería pertinente poner un emoji de llanto. No solo porque el argumento de esa película y de gran parte de la obra del Studio Ghibli se ha dedicado justamente a la promoción del cuidado de la naturaleza y de la crítica hacia el impacto negativo del ser humano sobre el planeta, sino también porque se ha normalizado que la copia es la réplica de un producto o una idea sin una correspondiente reflexión y atribución. O peor, una réplica que ha sido pensada, pero que hacemos pasar como original o propia porque da igual de quién sea la idea original. Incluso, y más peligroso todavía, da lo mismo si la idea original y sus réplicas son trazables, verificables o ancladas en la realidad.
Open AI también habla de un “uso transformador” cuando grupos de escritores reclaman masivamente que sus obras son usadas para entrenamiento de los LLM. La empresa reclama que sus modelos “se inspiran” en los textos apropiados y que son capaces de generar frases propias, conversaciones sobre los textos y preguntas sobre los mismos, “agregando valor” a los documentos originales. Esta empresa y otras se defienden diciendo que no hay prohibiciones respecto del entrenamiento de IA con información disponible libremente en internet. ¿Pero qué pasa cuando todas las preguntas comienzan a ser iguales? Cuando las estructuras de los textos están tan organizadas que no aparecen ni faltas gramaticales ni ortográficas, pero tampoco aparece la chispa de conexión con otra persona, porque nos perdemos en lo que resulta una lectura insípida. Clara y bien estructurada, pero desprovista de las imperfecciones humanas, donde podemos diferenciarnos o quizá más importante, reconocernos entre nosotros mismos.
¿Y qué pasa cuando los datos de entrenamiento sirven a los usuarios de la IA o a las propias empresas para generar contenidos que compiten en el mercado con los proveedores originales de información? Es lo que alega el New York Times, por ejemplo, o Getty, quienes también cuestionan si las imágenes generadas con IA pueden o no registrarse como originales. De acuerdo al Parlamento Europeo, no. De todas maneras, no hay acuerdo sobre lo que implica un uso justo, sobre todo cuando nos preguntamos para quiénes sería justo.
Por otro lado, crear algo y distribuirlo con licencia libre no significa que no exista la necesidad de atribuir autoría o limitar su reproducción a desarrollos o soluciones sin fines de lucro. Es decir, hay toda una conversación larga, compleja, extenuante, como suelen ser las resoluciones de conflicto entre seres humanos, que lleva años en marcha, pero a la que se le ha puesto acelerador.
Desconocemos los alcances del filtrado de datos a nivel individual y colectivo. Hemos hablado largamente de burbujas informativas y personalización algorítmica, pero no ha habido momento para hablar sobre qué implica la IA para los procesos creativos en Chile, cómo pueden ser mejorados y apoyados por las tecnologías generativas ni tampoco sobre los problemas de crear imágenes estereotipadas que responden a estándares alejados de realidades de la mayoría global. Payal Arora, investigadora de la Universidad de Utrecht, explica en sus textos y charlas que las imágenes procesadas con IA tienden a reproducir rostros caucásicos y sonrisas occidentalizadas. No hay suficiente información de entrenamiento para producir otro tipo de imágenes, lo que acaba modelando y homogeneizando la producción de materiales culturales.
Tampoco conocemos a cabalidad el impacto real de las grandes tecnológicas sobre el medio ambiente. Aunque académicas expertas en IA como Paz Peña y Kate Crawford han explicado muy claramente las enormes cantidades de energía que requieren los sistemas de almacenamiento para funcionar como deseamos, el hecho es que se sigue produciendo información a un ritmo que el planeta no es capaz de gestionar. Se buscan alternativas en sistemas basados en la colaboración para entender mejor cómo hacernos cargo de la posibilidad de generar tecnologías relevantes a nivel local, soluciones que no estén destinadas a favorecer solo a una minoría, sino que puedan ser aliento para todas las comunidades y promuevan la justicia social, pero lo cierto es que la colaboración se ve como una amenaza y necesita mucho empuje político para ser una realidad.
Muchas de las disputas por propiedad intelectual siguen abiertas y sin resolución, sobre todo porque no hay acuerdo sobre qué significa el uso justo de imágenes de entrenamiento que circulan libremente en la red. Las regulaciones hasta la fecha son dispares y más en el escenario geopolítico que vivimos. Iniciativas como el proyecto Hemispheres buscan justamente comprender cómo las regiones aprenden unas de otras y cómo los contextos regulatorios se adaptan de acuerdo a las necesidades de los actores involucrados. En esta línea, se busca promover la discusión y el intercambio de perspectivas que permitan favorecer el desarrollo tecnológico a partir de estándares de cuidado y protección de la ciudadanía, donde haya la mayor participación posible de todos los sectores.
Quizá entonces la pregunta no sea solamente qué datos se usan para entrenar a las IA, sino qué valores estamos transfiriendo en el proceso. Si asumimos que toda creación puede ser aprovechada sin contexto, sin permiso y sin retribución, estamos cimentando un futuro en el que las obras humanas —con todo su trasfondo, emoción e imperfección— pierden su lugar frente a simulacros eficientes, pero vacíos. La inteligencia artificial puede ser una herramienta poderosa, pero no debería convertirse en excusa para repetir lógicas extractivistas, ahora con datos, ni para vaciar de contenido nuestras formas de crear.
La creatividad no es solo producción de imágenes, textos o melodías. También es relación, memoria, afecto, y eso no se entrena con datasets. Lo que está en juego no es solo el derecho a la autoría, sino la posibilidad de defender una cultura que reconozca las voces múltiples que la componen, que respete la diversidad de sus expresiones y que no sacrifique sus matices en nombre de la eficiencia tecnológica. Porque si todo se homogeniza, ¿qué queda de distinto por decir?