The Fort Worth Press - ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

USD -
AED 3.67302
AFN 68.291665
ALL 93.057229
AMD 389.770539
ANG 1.808359
AOA 911.999622
ARS 1001.919444
AUD 1.544092
AWG 1.795
AZN 1.703104
BAM 1.855228
BBD 2.025868
BDT 119.90021
BGN 1.85709
BHD 0.376614
BIF 2963.296747
BMD 1
BND 1.345185
BOB 6.933055
BRL 5.796203
BSD 1.003315
BTN 84.297531
BWP 13.716757
BYN 3.283486
BYR 19600
BZD 2.022453
CAD 1.407425
CDF 2865.00031
CHF 0.88767
CLF 0.035506
CLP 979.709938
CNY 7.233902
CNH 7.240503
COP 4425.67
CRC 510.64839
CUC 1
CUP 26.5
CVE 104.59491
CZK 23.954978
DJF 178.66544
DKK 7.07361
DOP 60.456292
DZD 133.234044
EGP 49.302899
ERN 15
ETB 121.511455
EUR 0.94838
FJD 2.27595
FKP 0.789317
GBP 0.79132
GEL 2.734973
GGP 0.789317
GHS 16.027888
GIP 0.789317
GMD 71.000285
GNF 8646.941079
GTQ 7.74893
GYD 209.812896
HKD 7.784165
HNL 25.339847
HRK 7.133259
HTG 131.909727
HUF 386.359922
IDR 15839.3
ILS 3.749297
IMP 0.789317
INR 84.42825
IQD 1314.3429
IRR 42092.496279
ISK 137.610055
JEP 0.789317
JMD 159.351136
JOD 0.7091
JPY 154.760969
KES 129.929869
KGS 86.496657
KHR 4053.579729
KMF 466.575022
KPW 899.999621
KRW 1392.550147
KWD 0.30754
KYD 0.836179
KZT 498.615064
LAK 22046.736197
LBP 89848.180874
LKR 293.122747
LRD 184.608672
LSL 18.253487
LTL 2.95274
LVL 0.60489
LYD 4.900375
MAD 10.002609
MDL 18.230627
MGA 4667.201055
MKD 58.441866
MMK 3247.960992
MNT 3397.999946
MOP 8.045323
MRU 40.054641
MUR 47.210062
MVR 15.450134
MWK 1739.868711
MXN 20.342601
MYR 4.466497
MZN 63.902545
NAD 18.253747
NGN 1666.779868
NIO 36.921442
NOK 11.0727
NPR 134.880831
NZD 1.70441
OMR 0.38465
PAB 1.003296
PEN 3.808919
PGK 4.034511
PHP 58.72503
PKR 278.580996
PLN 4.092995
PYG 7828.648128
QAR 3.65762
RON 4.721202
RSD 110.989157
RUB 99.885908
RWF 1378.077124
SAR 3.755975
SBD 8.390419
SCR 13.839562
SDG 601.503045
SEK 10.965735
SGD 1.34174
SHP 0.789317
SLE 22.600719
SLL 20969.504736
SOS 573.447802
SRD 35.315503
STD 20697.981008
SVC 8.779169
SYP 2512.529858
SZL 18.247358
THB 34.737974
TJS 10.695389
TMT 3.51
TND 3.165498
TOP 2.342103
TRY 34.491635
TTD 6.812749
TWD 32.519502
TZS 2660.000224
UAH 41.44503
UGX 3682.325879
UYU 43.055121
UZS 12842.792233
VES 45.732015
VND 25375
VUV 118.722009
WST 2.791591
XAF 622.255635
XAG 0.03262
XAU 0.000386
XCD 2.70255
XDR 0.755845
XOF 622.229073
XPF 113.127366
YER 249.874979
ZAR 18.12535
ZMK 9001.198001
ZMW 27.546563
ZWL 321.999592
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo
ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo / foto: © AFP/Arquivos

ChatGPT e IA conversacional continuam incapazes de raciocinar, diz estudo

Os grandes modelos de linguagem (LLM, na sigla em inglês), como o ChatGPT, um dos sistemas de inteligência artificial (IA) mais populares do mundo, ainda seguem tendo dificuldades para raciocinar usando a lógica e cometem erros frequentes, de acordo com um estudo.

Tamanho do texto:

Estes robôs conversacionais refletem os preconceitos de gênero, éticos e morais dos humanos presentes nos textos dos quais se alimentam, recorda o estudo publicado na quarta-feira (5) na revista Open Science da Royal Society britânica.

Mas eles também refletem estes preconceitos nos testes de raciocínio?, questionou Olivia Macmillan-Scott, doutoranda do departamento de Ciências da Computação da University College de Londres (UCL).

O resultado da pesquisa é que os LLM mostram "um raciocínio muitas vezes irracional, mas de uma forma diferente da dos humanos", explica a pesquisadora à AFP.

Sob a supervisão de Mirco Musolesi, professor e diretor do Machine Intelligence Lab da UCL, Macmillan-Scott apresentou sete modelos de linguagem — duas versões do ChatGPT (3.5 e 4), da OpenAI, Bard, do Google, Claude 2, da Anthropic, e três versões de LLaMA, da Meta — a uma série de testes psicológicos desenvolvidos para humanos.

Como esta tecnologia aborda o preconceito que leva a privilegiar soluções com um maior número de elementos, em detrimento daquelas com uma proporção adequada?

Um exemplo: se tivermos uma urna com nove bolinhas brancas e uma vermelha e outra urna com 92 bolinhas brancas e 8 vermelhas, qual devemos escolher para ter a melhor chance de obter uma bolinha vermelha?

A resposta correta é a primeira urna, visto que há 10% de possibilidades frente a 8% da segunda opção.

As respostas dos modelos de linguagem foram muito inconsistentes. Alguns responderam corretamente ao mesmo teste seis em cada dez vezes. Outros apenas duas em cada dez, embora o teste não tenha mudado. "Cada vez obtemos uma resposta diferente", diz a pesquisadora.

Os LLM "podem ser bons para resolver uma equação matemática complicada, mas logo te dizem que 7 mais 3 é igual a 12", constatou.

- "Não tenho muita certeza" -

Estes modelos "não falham nestas tarefas da mesma forma que um humano", afirma o estudo. É o que Musolesi chama de "erros de máquina".

"Existe uma forma de raciocínio lógico que é potencialmente correta se a considerarmos por etapas, mas que é errada tomada como um todo", ressalta.

A máquina funciona com "uma espécie de pensamento linear", diz o professor, e cita o modelo Bard (atual Gemini), capaz de realizar corretamente as diferentes fases de uma tarefa, mas que obtém um resultado final incorreto por não ter uma visão geral.

Sobre esta questão, o professor de ciências da computação Maxime Amblard, da University of Lorraine, na França, recorda que os LLM, como todas as inteligências artificiais generativas, não funcionam como os humanos".

Os humanos são "máquinas capazes de criar significado", o que as máquinas não conseguem, explica à AFP.

Existem diferenças entre os diferentes modelos de linguagem e em geral, o GPT-4, sem ser infalível, obteve resultados melhores que os demais.

Macmillan-Scott suspeita que os modelos "fechados", cujo código operacional permanece secreto, "incorporam mecanismos em segundo plano" para responder a questões matemáticas.

De toda forma, neste momento é impensável confiar uma decisão importante a um LLM. Segundo o professor Musolesi, eles deveriam ser treinados para responder "não tenho muita certeza" quando necessário.

B.Martinez--TFWP