The Fort Worth Press - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

USD -
AED 3.672985
AFN 68.564771
ALL 93.747911
AMD 390.284429
ANG 1.810594
AOA 913.509585
ARS 1003.974897
AUD 1.540035
AWG 1.8025
AZN 1.695095
BAM 1.867656
BBD 2.028371
BDT 120.054049
BGN 1.8769
BHD 0.376987
BIF 2967.603314
BMD 1
BND 1.350013
BOB 6.941467
BRL 5.816273
BSD 1.004588
BTN 84.879318
BWP 13.715061
BYN 3.287735
BYR 19600
BZD 2.025029
CAD 1.399205
CDF 2869.999779
CHF 0.88787
CLF 0.035289
CLP 973.739762
CNY 7.248704
CNH 7.261055
COP 4389.25
CRC 510.697626
CUC 1
CUP 26.5
CVE 105.296581
CZK 24.37597
DJF 178.896958
DKK 7.15976
DOP 60.533139
DZD 133.646288
EGP 49.731703
ERN 15
ETB 125.19309
EUR 0.95985
FJD 2.27535
FKP 0.789317
GBP 0.79789
GEL 2.725037
GGP 0.789317
GHS 15.9733
GIP 0.789317
GMD 71.00031
GNF 8659.405931
GTQ 7.755077
GYD 210.182537
HKD 7.783795
HNL 25.38723
HRK 7.133259
HTG 131.897725
HUF 394.705022
IDR 15911.4
ILS 3.721435
IMP 0.789317
INR 84.47995
IQD 1316.106114
IRR 42104.999996
ISK 140.210173
JEP 0.789317
JMD 159.547343
JOD 0.709102
JPY 154.53898
KES 129.549834
KGS 86.499929
KHR 4051.853797
KMF 469.649893
KPW 899.999621
KRW 1405.050428
KWD 0.30774
KYD 0.837201
KZT 498.204702
LAK 22005.452662
LBP 89966.529634
LKR 292.295131
LRD 181.336364
LSL 18.178163
LTL 2.95274
LVL 0.60489
LYD 4.907395
MAD 10.047317
MDL 18.293632
MGA 4704.107261
MKD 58.76173
MMK 3247.960992
MNT 3397.999946
MOP 8.054107
MRU 39.953781
MUR 46.849963
MVR 15.450407
MWK 1742.028515
MXN 20.47025
MYR 4.467505
MZN 63.913532
NAD 18.17825
NGN 1691.080248
NIO 36.77015
NOK 11.128895
NPR 135.806643
NZD 1.71322
OMR 0.385062
PAB 1.004588
PEN 3.816004
PGK 4.044176
PHP 58.934986
PKR 279.238615
PLN 4.16856
PYG 7884.8734
QAR 3.662677
RON 4.775598
RSD 112.291014
RUB 103.632259
RWF 1380.387139
SAR 3.754515
SBD 8.36952
SCR 13.619873
SDG 601.500789
SEK 11.12161
SGD 1.34755
SHP 0.789317
SLE 22.584986
SLL 20969.504736
SOS 574.129781
SRD 35.404949
STD 20697.981008
SVC 8.790275
SYP 2512.529858
SZL 18.186159
THB 34.624501
TJS 10.699307
TMT 3.51
TND 3.178235
TOP 2.342101
TRY 34.561285
TTD 6.819267
TWD 32.597018
TZS 2655.858977
UAH 41.476647
UGX 3711.856071
UYU 42.810419
UZS 12855.000234
VES 46.269553
VND 25427.5
VUV 118.722009
WST 2.791591
XAF 626.409275
XAG 0.03196
XAU 0.000371
XCD 2.70255
XDR 0.766351
XOF 626.39432
XPF 113.885189
YER 249.902147
ZAR 18.098971
ZMK 9001.200433
ZMW 27.702577
ZWL 321.999592
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: © AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

J.P.Estrada--TFWP