Inteligența artificială ar putea fi limitată de lipsa gustului, a capacității de atingere și a mirosului, ceea ce o împiedică să înțeleagă pe deplin conceptele în același mod ca oamenii - sugerând că modelele mai avansate ar putea avea nevoie de un corp de robot.
Cea mai recentă generație de modele de inteligență artificială pare să aibă o înțelegere a lumii la nivel uman, dar lipsa lor de informații senzoriale și a unui corp limitează cât de bine pot înțelege concepte precum o floare sau umorul.
Qihui Xu de la Universitatea de Stat din Ohio și colegii săi au întrebat atât oamenii, cât și modelele lingvistice mari (LLM) despre înțelegerea lor a aproape 4500 de cuvinte – de la „floare” și „copită” la „umorist” și „leagăn”. Participanților și modelelor de inteligență artificială li s-a cerut să evalueze fiecare cuvânt pentru o varietate de aspecte, cum ar fi nivelul de excitare emoțională pe care îl evocă sau legăturile lor cu simțurile și interacțiunea fizică cu diferite părți ale corpului.
Scopul a fost de a vedea cum LLM-urile, inclusiv GPT-3.5 și GPT-4 de la OpenAI și PaLM și Gemini de la Google, se compară cu oamenii în clasamentele lor. Se pare că oamenii și inteligența artificială au o hartă conceptuală similară a cuvintelor care nu se referă la interacțiunile cu lumea exterioară, dar diferă foarte mult atunci când cuvintele sunt legate de simțuri și acțiuni fizice.
De exemplu, modelele de inteligență artificială au tendința de a crede că cineva ar putea experimenta florile prin intermediul trunchiului - ceva ce majoritatea oamenilor ar găsi ciudat, preferând să le aprecieze vizual sau cu o adulmecare.
Problema, spune Xu, este că LLM-urile își construiesc înțelegerea lumii din text preluat de pe internet, iar acest lucru pur și simplu nu este suficient pentru a înțelege conceptele senzuale.
Unele modele de inteligență artificială sunt antrenate pe informații vizuale, cum ar fi fotografii și videoclipuri, pe lângă text, iar cercetătorii au descoperit că rezultatele acestor modele se potriveau mai mult cu evaluările cuvintelor umane, ridicând posibilitatea ca adăugarea mai multor simțuri să aducă viitoarele modele de inteligență artificială tot mai aproape de înțelegerea umană a lumii.
„Acest lucru ne spune că beneficiile antrenamentului multimodal ar putea fi mai mari decât ne așteptam. Este ca și cum unu plus unu poate fi de fapt mai mare decât doi” … În ceea ce privește dezvoltarea inteligenței artificiale, acest lucru susține cumva importanța dezvoltării modelelor multimodale și importanța de a avea un corp.” – potrivit lui Xu.
Philip Feldman de la Universitatea din Maryland, comitatul Baltimore, spune că oferirea unui corp de robot modelelor de inteligență artificială și expunerea lor la input senzoriomotor ar duce probabil la o creștere substanțială a capacității, poate, dar că va trebui să fim foarte atenți la modul în care se face acest lucru, având în vedere riscul ca roboții să provoace vătămări fizice persoanelor din jurul lor.
Evitarea unor astfel de riscuri ar însemna adăugarea de balustrade la acțiunile roboților sau utilizarea doar a unor roboți moi, care nu pot provoca daune, pentru antrenament, spune Feldman - dar acest lucru ar avea și dezavantajele sale.
„Acest lucru va denatura modul în care înțeleg lumea… Unul dintre lucrurile pe care le-ar învăța este că poți ricoșa de pe lucruri, deoarece au o masă mică. Așa că acum încerci să pui acea înțelegere profundă legată de contactul fizic [într-un robot real cu masă] și roboții tăi umanoizi cred că se pot ciocni pur și simplu unul de celălalt la viteză maximă. Ei bine, asta va fi o problemă.”, spune Feldman.
***
Credit foto: Shutterstock - Gumbariya
Sursă: NewScientist