STEPHANIE ARNETT/MITTR | GETTY

Inteligencia Artificial

Cuando los entrenadores de IA subcontratan su trabajo a otras IA

Es una práctica que podría introducir más errores en modelos que ya de por sí son propensos a errores

por Rhiannon Williams | traducido por
03 Julio, 2023

Según un nuevo estudio, una proporción significativa de las personas que se dedican a entrenar modelos de IA podrían estar subcontratando ese trabajo a la propia IA.

Para entrenar a los sistemas de IA hace falta una gran cantidad de datos para que realicen tareas específicas con precisión y fiabilidad. Muchas empresas pagan a trabajadores externos de plataformas como Mechanical Turk para que realicen tareas que suelen ser difíciles de automatizar, como resolver CAPTCHA, clasificar datos y anotar texto. Estos datos se introducen en los modelos de IA para entrenarlos. Los trabajadores están mal pagados y, a menudo, se espera que realicen muchas tareas rápidamente.

No es de extrañar que algunos de ellos recurran a herramientas como ChatGPT para maximizar su potencial. Sin embargo, ¿cuántos lo han hecho? Para averiguarlo, un equipo de investigadores de la Escuela Politécnica Federal de Suiza (EPFL) contrató a 44 personas en la Amazon Mechanical Turk, la plataforma de trabajo por encargo, para que resumieran 16 extractos de varios artículos de investigación médica. A continuación, analizaron sus respuestas mediante un modelo de IA que habían entrenado ellos mismos y que busca señales que revelen resultados ChatGPT, como la falta de variedad en la elección de palabras. También extrajeron el número de pulsaciones de las teclas de los trabajadores para averiguar si habían copiado y pegado sus respuestas, un indicador de que habían sido generadas en otro lugar.

Calcularon que entre el 33% y el 46% de los trabajadores habían utilizado modelos de IA como ChatGPT de OpenAI. Es un porcentaje que irá aumentando a medida que ChatGPT y otros sistemas de IA sean más potentes y accesibles, según los autores del estudio, que se ha compartido en arXiv y aún no ha sido revisado por otros expertos.

"No creo que sea el fin de las plataformas de colaboración colectiva. Solo cambia la dinámica", afirma Robert West, profesor adjunto en la EPFL y coautor del estudio.

Utilizar datos generados por la IA para entrenarla podría introducir más errores en modelos que ya de por sí son propensos a cometerlos. Los grandes modelos lingüísticos suelen presentar información falsa como si fueran hechos. Si generan resultados incorrectos y estos se utilizan para entrenar otros modelos de IA, podrían absorber los errores y amplificarlos con el tiempo. Por tanto, cada vez sería más difícil averiguar su origen, asegura Ilia Shumailov, investigador junior de Informática de la Universidad de Oxford (Reino Unido), que no participó en el proyecto.

No obstante, aún no hay una solución sencilla. "Cuando utilizas datos artificiales, adquieres los malentendidos de los modelos y los errores estadísticos", explica Shumailov. "Tienes que asegurarte de que tus errores no están sesgando la salida de otros modelos, y no hay una forma sencilla de hacerlo".

El estudio subraya la necesidad de disponer de nuevas formas de comprobar si los datos han sido producidos por humanos o por una IA. También pone de manifiesto otro problema, la tendencia de las empresas tecnológicas a confiar en los trabajadores externos para que realicen el trabajo vital, que incluye ordenar los datos que alimentan los sistemas de IA.

"No va a colapsar todo", afirma West. "Pero la comunidad de IA tendrá que investigar a fondo qué tareas son más propensas a ser automatizadas, y encontrar formas de evitarlo".

Inteligencia Artificial

Cuando los entrenadores de IA subcontratan su trabajo a otras IA

La IA puede impulsar la creatividad de algunos, pero limitarla en su conjunto

Del asistente al "agente": así es la siguiente generación de la IA

Seis formas en las que IA puede convertirse en tu asistente de viaje