Neuroștiințele sub lupă: cât de fiabile sunt măsurătorile fMRI?

În ultimii ani, neuroimagistica a devenit aproape sinonimă cu ideea de „dovadă obiectivă” în ceea ce privește psihologia și neuroștiințele. Imaginile colorate ale creierului sunt percepute ca fiind mai convingătoare decât chestionarele sau observațiile comportamentale. Totuși, când ne uităm la o întrebare de bază, cât de fidele sunt aceste măsurători, răspunsul este mai puțin confortabil. Meta-analize recente sugerează că multe măsuri fMRI utilizate în psihologie au o fidelitate test-retest modestă, adesea în jur de 0.3 până la 0.5, ceea ce are implicații serioase pentru câtă încredere ar trebui să avem în concluziile despre creier și comportament.

Pentru a înțelege problema, trebuie clarificat ce înseamnă fidelitate. Dacă măsor aceeași persoană de două ori, în condiții similare, ar trebui să obțin rezultate similare. În psihometrie, acest lucru se exprimă adesea prin coeficientul ICC. O meta-analiză amplă publicată în Psychological Science a analizat 90 de experimente și a raportat o fidelitate medie de aproximativ 0.40 pentru activarea din task-uri fMRI, un nivel considerat scăzut pentru cercetare a diferențelor individuale (Elliott et al., 2020). Cu alte cuvinte, aceeași persoană poate arăta destul de diferit la două scanări separate, chiar dacă trăsătura psihologică presupus măsurată nu s-a schimbat.

Situația nu este mult mai bună pentru conectivitatea funcțională în stare de repaus. O revizuire sistematică și meta-analiză publicată în NeuroImage a găsit un ICC mediu de aproximativ 0.29 pentru conexiunile individuale dintre regiuni cerebrale, ceea ce indică o fidelitate slabă (Noble et al., 2019). Asta înseamnă că multe studii care corelează „o conexiune” cu o trăsătură psihologică pornesc de la o măsură cu un nivel ridicat de zgomot. stabilind astfel plafonul maxim al unui efect măsurat real.

De ce se spune că fidelitatea stabilește plafonul maxim al unui efect? Pentru că o corelație poate exista doar între părțile „reale” ale celor două măsuri, nu între componentele lor de eroare. Fiecare scor este un amestec de semnal și zgomot; dacă o măsură are fidelitate 0.40, înseamnă că mai mult de jumătate din variație este eroare. Când corelăm două astfel de măsuri, doar porțiunea lor stabilă și reală poate contribui la relația adevărată. Cu cât una sau ambele sunt mai zgomotoase, cu atât scade automat potențialul maxim al corelației observabile. Chiar dacă, la nivel teoretic, două constructe ar fi puternic legate, în date relația nu poate depăși limita impusă de cât de bine sunt măsurate. Astfel, fidelitate nu afectează doar precizia estimării, ci stabilește direct cât de mare poate fi efectul pe care îl vom vedea.

Dacă mai mult de jumătate din variație este eroare de măsurare, atunci „semnalul” real este îngropat într-o cantitate mare de zgomot. În eșantioane mici, acest zgomot nu se anulează prin mediere statistică, ci poate domina rezultatul. Asta înseamnă că poți obține un efect aparent semnificativ care reflectă în mare parte fluctuații aleatorii, nu o relație stabilă între creier și trăsătură.

Mai mult, eroarea mare produce două tipuri de distorsiuni:

Subestimare sistematică – efectele reale apar mai slabe decât sunt (atenuare).
Supraestimare accidentală – atunci când, din întâmplare, zgomotul se aliniază cu ipoteza, efectul poate părea mult mai mare decât este în realitate.

În eșantioane mici, variabilitatea aleatorie este mare, iar distribuția estimărilor este foarte largă. Asta înseamnă că studiile pot produce rezultate extreme doar din hazard. Dacă doar rezultatele „interesante” sunt publicate, apare un bias suplimentar: literatura ajunge să conțină efecte aparent puternice, care în realitate sunt instabile și greu de replicat.

Mai mult, unele analize arată că practicile de raportare pot amplifica artificial impresia de fidelitate. Elliott și colegii săi au demonstrat că selectarea și raportarea doar a valorilor ICC peste un anumit prag poate duce la o estimare meta-analitică mult mai mare decât realitatea (ICC = indicator al stabilității în timp a unei măsuri: arată cât de asemănătoare sunt rezultatele aceleiași persoane la testări repetate; valori mai mari înseamnă măsurare mai fiabilă, Elliott et al., 2020). Acest lucru ilustrează un mecanism prin care literatura publicată poate părea mai robustă decât este de fapt.

Este important să nu cădem în extrema opusă și să concluzionăm că fMRI este inutil. Unele efecte la nivel de grup sunt reproductibile, iar anumite paradigme sau măsuri pot avea fidelitate mai bună, mai ales când se colectează mai mult timp de scanare sau se utilizează abordări multivariate. Totuși, scepticismul sănătos este justificat atunci când vedem afirmații de tipul „am identificat rețeaua cerebrală a empatiei” sau „acest tipar prezice depresia”, fără raportarea explicită a fiabilității și fără validare pe eșantioane independente.

În concluzie, problema centrală nu este că neuroimagistica ar fi lipsită de valoare, ci că nivelul de încredere public și mediatic depășește adesea nivelul de fidelitate demonstrat empiric. Pentru a avansa, domeniul are nevoie de eșantioane mai mari, raportare sistematică a fiabilității, validare externă și mai multă prudență în interpretare. Până atunci, cititorii și profesioniștii ar trebui să trateze cu rezervă concluziile puternice despre creier și personalitate sau despre biomarkeri pentru probleme de sănătate mintală.

Referințe

Elliott, M. L., Knodt, A. R., Ireland, D., Morris, M. L., Poulton, R., Ramrakha, S., Sison, M. L., Moffitt, T. E., Caspi, A., & Hariri, A. R. (2020). What is the test–retest reliability of common task-fMRI measures? New empirical evidence and a meta-analysis. Psychological Science, 31(7), 792–806. https://pmc.ncbi.nlm.nih.gov/articles/PMC7370246/

Noble, S., Scheinost, D., & Constable, R. T. (2019). A decade of test–retest reliability of functional connectivity: A systematic review and meta-analysis. NeuroImage, 203, 116157. https://pubmed.ncbi.nlm.nih.gov/31494250/

De ce limitează matematic fiabilitatea concluziile? (for nerds)

În psihometrie, orice scor observat $X$ X este văzut ca fiind compus dintr-o componentă „adevărată” $T$ T și o componentă de eroare $E$ E: $X = T + E$ X=T+E

Fiabilitatea ( $r_{xx}$ rxx) este proporția din varianța scorului observat care provine din varianța adevărată: $r_{xx} = \frac{\mathrm{Var}(T)}{\mathrm{Var}(X)}$ rxx=Var(X)Var(T)

Dacă fiabilitatea este 0.40, asta înseamnă că doar 40% din variația măsurii reflectă diferențe reale între persoane, iar 60% este zgomot (eroare de măsurare).

Consecința crucială apare atunci când corelăm două variabile. Corelația observată dintre două măsuri este „atenuată” de fiabilitatea lor. Formula clasică a atenuării este: $r_{xy}^{\text{observat}} = r_{xy}^{\text{adevărat}} \cdot \sqrt{r_{xx} \cdot r_{yy}}$ rxyobservat=rxyadeva˘rat⋅rxx⋅ryy

Unde:

$r_{xy}^{\text{adevărat}}$ rxyadeva˘rat este corelația reală dintre constructele psihologice,
$r_{xx}$ rxx și $r_{yy}$ ryy sunt fiabilitățile celor două măsuri.

Să presupunem un scenariu optimist:

trăsătura psihologică este măsurată perfect ( $r_{yy} = 1$ ryy=1),
măsura fMRI are fiabilitate 0.40 ( $r_{xx} = 0.40$ rxx=0.40).

Atunci: $r_{xy}^{\text{observat}} = r_{xy}^{\text{adevărat}} \cdot \sqrt{0.40} \approx r_{xy}^{\text{adevărat}} \cdot 0.63$ rxyobservat=rxyadeva˘rat⋅0.40≈rxyadeva˘rat⋅0.63

Chiar dacă relația reală ar fi 0.50 (destul de puternică în științele comportamentale), corelația maxim observabilă devine: $0.50 \times 0.63 = 0.315$ 0.50×0.63=0.315

Deci o relație „mare” la nivel teoretic apare în date ca fiind doar moderată.

Dacă și trăsătura psihologică are fiabilitate 0.70 (ceea ce este realist), atunci: $\sqrt{0.40 \times 0.70} = \sqrt{0.28} \approx 0.53$ 0.40×0.70=0.28≈0.53

Astfel, o relație reală de 0.50 ar apărea ca: $0.50 \times 0.53 = 0.265$ 0.50×0.53=0.265

Practic, măsurarea imprecisă taie aproape la jumătate efectul detectabil.