Post

¿Está empobreciendo la IA el lenguaje periodístico (y de la sociedad)?

¿Está empobreciendo la IA el lenguaje periodístico (y de la sociedad)?

Source: The Conversation – (in Spanish) – By Xosé López-García, Periodismo digital, comunicación digital, Universidade de Santiago de Compostela

markus winkler k Am hKISLM unsplash Markus Winkler / Unsplash., CC BY

¿Qué ocurre con el lenguaje público cuando una parte creciente de los textos que circulan en la prensa, internet y las redes comienza a ser escrita por máquinas? La cuestión no afecta solo al periodismo como actividad profesional. También puede afectar la riqueza de la lengua que usamos para comprender, describir y debatir la realidad.

Históricamente, la prensa ha sido uno de los espacios donde la lengua pública se expande y enriquece. No es el único motor del cambio lingüístico, por supuesto, pero sí uno de los ámbitos donde las sociedades ponen a circular palabras, giros y formas de nombrar hechos emergentes. Distintos trabajos sobre lenguaje periodístico y neologismos muestran justamente que los periódicos han funcionado como espacios de creación y difusión de vocabulario nuevo, especialmente, cuando deben dar cuenta de acontecimientos, tecnologías o transformaciones sociales para públicos amplios.

Ese papel puede debilitarse si una parte importante de la escritura periodística se delega en sistemas generativos. Los grandes modelos de lenguaje se basan, de manera general, en la predicción del siguiente token o palabra probable dentro de una secuencia. Por eso, producen textos fluidos y plausibles, pero también tienden a privilegiar regularidades estadísticas, patrones frecuentes y formulaciones ya estabilizadas. En sí mismo, esto no implica una degradación automática del lenguaje. El problema aparece cuando esa lógica se vuelve dominante en la escritura pública.

Entrenamiento de la IA con textos producidos por otras IA

El riesgo se vuelve más serio cuando esos sistemas empiezan a entrenarse con textos producidos por otras IA. Eso es lo que varias investigaciones recientes han descrito como una dinámica de model collapse o “colapso del modelo”: un proceso degenerativo en el que los datos generados por un modelo contaminan el entrenamiento de generaciones posteriores.

Traducido al plano del lenguaje, esto significa que si los sistemas aprenden cada vez más de textos sintéticos y si esos textos comienzan además a llenar la web y el espacio público, el ecosistema verbal disponible para futuros entrenamientos se estrecha. Más texto artificial significa menos contacto con la variación social efectiva del lenguaje humano, lo que puede significar un deterioro de la lengua en diferentes ámbitos.

Reproducción y amplificación de sesgos

Para empezar, cuando disminuye la variación de los datos y predominan patrones ya consolidados, los sesgos presentes en el material de entrenamiento pueden reforzarse en lugar de corregirse. La literatura reciente sobre evolución de modelos de lenguaje y sesgo advierte precisamente que los procesos recursivos pueden amplificar prejuicios existentes en vez de diversificar perspectivas.

Por otro lado, la escritura empieza a sonar cada vez más parecida a sí misma: se repiten estructuras sintácticas, tonos medios, secuencias formularias y maneras previsibles de desarrollar los párrafos. Esto importa particularmente en el periodismo, porque la prensa no solo transmite información: también media entre registros especializados y públicos amplios, selecciona énfasis, traduce vocabularios y ensaya formulaciones. Cuando la prosa pública se vuelve demasiado uniforme, disminuye esa capacidad de ajuste fino frente a la novedad.

Erosión de la innovación lingüística

Así, se reducen las palabras raras o específicas, las construcciones menos frecuentes y algunos matices pragmáticos, como la ironía, la ambigüedad o ciertas modulaciones del punto de vista. El aumento del texto sintético en el entrenamiento se asocia con degradación de desempeño y con una cobertura más pobre de la distribución del lenguaje humano. En términos simples: el sistema conserva mejor el centro que los bordes.

Y es que muchas innovaciones nacen como desvíos inestables, usos raros o soluciones locales para nombrar algo nuevo. Si el sistema favorece siempre lo más probable, esas formas emergentes tienen menos espacio para circular y consolidarse. Este punto no debe entenderse como una oposición abstracta entre “humano” y “máquina”, sino como una diferencia entre una lengua expuesta a la contingencia social y una prosa generada a partir de regularidades ya aprendidas.

Deterioro del ecosistema lingüístico público

No se trata solo de tener menos palabras distintas, sino también menos capacidad de establecer distinciones finas. Cuando el lenguaje se vuelve más vago, más repetitivo o más predecible, también se empobrecen las herramientas con que una sociedad describe problemas, matiza posiciones y debate en el espacio público.

En un nivel más amplio, el problema ya no es solo qué le pasa a un modelo, sino qué le pasa al ecosistema lingüístico público. Si la web se llena de textos sintéticos, los propios lectores, periodistas e instituciones pasarán a convivir con un lenguaje público menos diverso. Algunos trabajos recientes hablan incluso de “contaminación” del ecosistema web por datos sintéticos y muestran que el modo en que se mezclan datos reales y artificiales es decisivo para evitar deterioros mayores.

¿Está todo perdido?

Conviene, eso sí, no exagerar. La investigación no sostiene que cualquier uso de IA produzca inevitablemente colapso o degradación. Algunos estudios muestran que, cuando los datos sintéticos se mezclan con los datos reales en vez de reemplazarlos por completo, el colapso no se comporta del mismo modo y el error puede permanecer acotado. Es decir, el problema no está en usar IA de forma puntual ni en mezclar prudentemente datos sintéticos y humanos, sino en reemplazar masivamente la escritura humana y luego reciclar ese reemplazo como si fuera lenguaje vivo.

Con la incorporación de la IA a las rutinas de producción periodística, el periodismo gana en eficiencia. Pero ¿qué pierde una sociedad cuando el lenguaje que circula públicamente se vuelve más uniforme, más predecible y menos abierto a lo nuevo? Si la prensa renuncia, aunque sea en parte, a su función de escribir, traducir, nombrar y ensayar formulaciones nuevas, no solo cambian las rutinas de trabajo. También, se debilita uno de los espacios donde la lengua pública históricamente más ha podido enriquecerse, renovarse y expandir sus posibilidades.

The Conversation

Las personas firmantes no son asalariadas, ni consultoras, ni poseen acciones, ni reciben financiación de ninguna compañía u organización que pueda obtener beneficio de este artículo, y han declarado carecer de vínculos relevantes más allá del cargo académico citado anteriormente.

ref. ¿Está empobreciendo la IA el lenguaje periodístico (y de la sociedad)? – https://theconversation.com/esta-empobreciendo-la-ia-el-lenguaje-periodistico-y-de-la-sociedad-280765

MIL OSI – Global Reports