The Fort Worth Press - ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio

USD -
AED 3.673005
AFN 68.420651
ALL 93.767284
AMD 390.49835
ANG 1.806877
AOA 912.000456
ARS 1007.254839
AUD 1.543675
AWG 1.8025
AZN 1.700677
BAM 1.865047
BBD 2.024202
BDT 119.800507
BGN 1.858102
BHD 0.376968
BIF 2961.779795
BMD 1
BND 1.349913
BOB 6.927922
BRL 5.821538
BSD 1.002517
BTN 84.506895
BWP 13.677455
BYN 3.280949
BYR 19600
BZD 2.020865
CAD 1.40563
CDF 2870.999618
CHF 0.882802
CLF 0.035383
CLP 976.339657
CNY 7.230102
CNH 7.258102
COP 4403.8
CRC 512.27769
CUC 1
CUP 26.5
CVE 105.148475
CZK 24.0327
DJF 178.523068
DKK 7.086401
DOP 60.439613
DZD 133.662973
EGP 49.6516
ERN 15
ETB 125.456964
EUR 0.94995
FJD 2.27125
FKP 0.789317
GBP 0.79303
GEL 2.729832
GGP 0.789317
GHS 15.740087
GIP 0.789317
GMD 71.000408
GNF 8638.643602
GTQ 7.737494
GYD 209.743864
HKD 7.781735
HNL 25.356169
HRK 7.133259
HTG 131.578696
HUF 391.459701
IDR 15867.45
ILS 3.654385
IMP 0.789317
INR 84.424102
IQD 1313.295062
IRR 42087.4992
ISK 137.489852
JEP 0.789317
JMD 158.306792
JOD 0.7093
JPY 151.361057
KES 129.501759
KGS 86.799139
KHR 4024.221618
KMF 468.950275
KPW 899.999621
KRW 1393.919767
KWD 0.30755
KYD 0.835447
KZT 500.581695
LAK 21938.473862
LBP 89777.620964
LKR 291.944005
LRD 179.953464
LSL 18.140579
LTL 2.95274
LVL 0.60489
LYD 4.905308
MAD 10.049969
MDL 18.321477
MGA 4681.212214
MKD 58.447788
MMK 3247.960992
MNT 3397.999946
MOP 8.03597
MRU 39.876031
MUR 46.719926
MVR 15.450114
MWK 1738.409017
MXN 20.70523
MYR 4.442498
MZN 63.90015
NAD 18.140579
NGN 1687.50999
NIO 36.894704
NOK 11.10914
NPR 135.21065
NZD 1.69896
OMR 0.384995
PAB 1.002522
PEN 3.783114
PGK 4.041348
PHP 58.747034
PKR 278.556157
PLN 4.096429
PYG 7823.317376
QAR 3.655332
RON 4.728901
RSD 111.146999
RUB 111.136133
RWF 1381.286594
SAR 3.757247
SBD 8.39059
SCR 13.142933
SDG 601.502736
SEK 10.94647
SGD 1.343199
SHP 0.789317
SLE 22.702243
SLL 20969.504736
SOS 572.921633
SRD 35.404976
STD 20697.981008
SVC 8.772147
SYP 2512.529858
SZL 18.146015
THB 34.505497
TJS 10.712147
TMT 3.51
TND 3.168043
TOP 2.342099
TRY 34.64875
TTD 6.816318
TWD 32.4906
TZS 2645.000029
UAH 41.654588
UGX 3714.263918
UYU 42.721187
UZS 12846.871245
VES 46.695951
VND 25385
VUV 118.722009
WST 2.791591
XAF 625.519234
XAG 0.032775
XAU 0.000377
XCD 2.70255
XDR 0.766883
XOF 625.519234
XPF 113.726089
YER 249.924997
ZAR 18.15785
ZMK 9001.202945
ZMW 27.644804
ZWL 321.999592
ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio
ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio / Foto: © AFP/Archivos

ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio

Los modelos de lenguaje de gran tamaño (LLM), como ChatGPT, uno de los sistemas de inteligencia artificial más populares del mundo, siguen teniendo dificultades para razonar usando la lógica y se equivocan con frecuencia, según un estudio.

Tamaño del texto:

Estos robots conversacionales reflejan los sesgos de género, éticos y morales de los humanos presentes en los textos de los que se alimenta, recuerda el estudio aparecido el miércoles en la revista Open Science de la Royal Society británica.

¿Pero reflejan también los sesgos cognitivos de los humanos en las pruebas de razonamiento?, se preguntó Olivia Macmillan-Scott, estudiante de doctorado del departamento de ciencias de computación de la University College de Londres (UCL).

El resultado de la investigación es que los LLM muestran "un razonamiento a menudo irracional, pero de una manera diferente a la de los humanos", explica la investigadora a AFP.

Bajo la dirección de Mirco Musolesi, profesor y director del Machine Intelligence Lab de UCL, Macmillan-Scott sometió siete modelos de lenguaje -dos versiones de ChatGPT (3.5 y 4) de OpenAI, Bard de Google, Claude 2 de Anthropic y tres versiones de Llama de Meta- a una serie de pruebas psicológicas pensadas para humanos.

¿Cómo afrontan, por ejemplo, el sesgo que lleva a favorecer soluciones con el mayor número de elementos, en detrimento de las que tiene una proporción adecuada?

Un ejemplo. Si tenemos una urna con nueve canicas blancas y una roja y otra urna con 92 blancas y 8 rojas, ¿cual hay que elegir para tener más posibilidades de sacar una canica roja?

La respuesta correcta es la primera urna, porque hay un 10% de posibilidades frente a solo un 8% para la segunda opción.

Las respuestas de los modelos de lenguaje fueron muy inconstantes. Algunos respondieron correctamente seis de cada diez veces la misma prueba. Otros solo dos de diez aunque la prueba no cambió.

"Obtenemos una respuesta diferente cada vez", apuntala la investigadora.

Los LLM "pueden ser muy buenos para resolver una ecuación matemática complicada pero luego te dicen que 7 más 3 son 12", afirma.

En un caso el modelo denominado Llama 2 70b se negó de manera sorprendente a responder a una pregunta alegando que el enunciado contenía "estereotipos de género dañinos".

- "No estoy muy seguro" -

Estos modelos "no fallan en estas tareas de la misma manera que falla un humano", señala el estudio.

Es lo que el profesor Musolesi llama "errores de máquina".

"Hay una forma de razonamiento lógico que es potencialmente correcta si la tomamos por etapas, pero que está mal tomada en su conjunto", apunta.

La máquina funciona con "una especie de pensamiento lineal", dice el investigador, y cita al modelo Bard (ahora llamado Gemini), capaz de realizar correctamente las distintas fases de una tarea pero que obtiene un resultado final erróneo porque no tiene visión de conjunto.

Sobre esta cuestión el profesor de informática Maxime Amblard, de la Universidad francesa de Lorena, recuerda que "los LLM, como todas las inteligencias artificiales generativas, no funcionan como los humanos".

Los humanos son "máquinas capaces de crear sentido", lo que las máquinas no saben hacer, explica a AFP.

Hay diferencias entre los distintos modelos de lenguaje y en general GPT-4, sin ser infalible, obtuvo mejores resultados que los demás.

Macmillan-Scott afirma sospechar que los modelos llamados "cerrados", es decir cuyo código operativo permanece en secreto, "incorporan otros mecanismos en segundo plano" para responder a preguntas matemáticas.

En todo caso, por el momento, es impensable confiar una decisión importante a un LLM.

Según el profesor Mosulesi, habría que entrenarlos para que respondan "No estoy muy seguro" cuando sea necesario.

S.Palmer--TFWP