Este Gemini de la Google cu adevărat mai bun decât ChatGPT?

25 martie 20246 aprilie 2024 Michael G. Madden

Google Deepmind a anunțat Gemini, noul său model de inteligență artificială (IA) care va concura cu ChatGPT de la OpenAI. În timp ce ambele modele sunt exemple de „IA generativă”, care învață să găsească modele de antrenament în datele de intrare pentru a genera date noi (imagini, cuvinte, etc), ChatGPT este un model de limbaj mare (LLM- large language model) care se concentrează pe producerea de text.

În același mod în care ChatGPT este o aplicație web pentru conversații care se bazează pe rețeaua neuronală cunoscută sub numele de GPT (antrenată pe cantități uriașe de text), Google are o aplicație web conversațională numită Bard, care se bazează pe un model numit LaMDA (antrenat pe dialog). Între timp Google a introdus un upgrade pe bază de Gemini.

Gemini diferă de alte modele IA generative anterioare, cum ar fi LaMDA, prin faptul că este un „model multimodal”. Aceasta înseamnă că funcționează direct cu mai multe moduri de intrare și ieșire: pe lângă faptul că acceptă introducerea și ieșirea textului, Gemini acceptă imagini, audio și video. În consecință, apare un nou acronim: LMM (large language model) adică model multimodal mare, care nu trebuie confundat cu LLM.

În septembrie 2023, OpenAI a anunțat un model numit GPT-4Vision care poate funcționa și cu imagini, audio și text. Cu toate acestea, nu este un model complet multimodal, așa cum promite Gemini.

De exemplu, în timp ce ChatGPT-4, care se bazează pe GPT-4V, poate funcționa cu intrări audio și poate genera vorbire la ieșire, OpenAI a confirmat că acest lucru se face prin conversia vorbirii în text la intrare folosind un alt model de învățare profundă numit Whisper.

ChatGPT-4 convertește, de asemenea, textul în vorbire la ieșire folosind un model diferit, ceea ce înseamnă că GPT-4V însuși funcționează exclusiv cu text.

De asemenea, ChatGPT-4 poate produce imagini, dar face acest lucru prin generarea de solicitări de text care sunt transmise unui model separat de învățare profundă numit Dall-E 2, care convertește descrierile de text în imagini.

În schimb, Google a proiectat Gemini să fie „multimodal nativ”. Aceasta înseamnă că modelul de bază se ocupă direct de o gamă largă de tipuri de date de intrare (audio, imagini, video și text) pe care le poate genera direct la ieşire.

Verdictul

Distincția dintre aceste două abordări poate părea academică, dar este importantă.

Concluzia generală din raportul tehnic Google și din alte teste calitative până în prezent este că versiunea curentă disponibilă publicului Gemini, numită Gemini 1.0 Pro, nu este în general la fel de bună ca GPT-4 și este mai asemănătoare ca capabilități cu GPT 3.5.

Google a anunțat și o versiune mai puternică de Gemini, numită Gemini 1.0 Ultra și a prezentat câteva rezultate care arată că este mai puternică decât GPT-4. Cu toate acestea, este dificil de evaluat acest lucru, din două motive.

Primul motiv este că Google nu a lansat încă Ultra, așa că rezultatele nu pot fi validate independent în prezent.

Al doilea motiv pentru care este greu de evaluat afirmațiile Google este acela că s-a prezentat un videoclip demonstrativ oarecum înșelător, vezi mai jos.

Videoclipul arată modelul Gemini comentând interactiv și cursiv pe un flux video live.

Așa cum a semnalat inițial Bloomberg, demonstrația din videoclip nu a fost realizată în timp real. De exemplu, modelul a învățat în prealabil anumite sarcini specifice, cum ar fi trucul cu cele trei cupe și mingea de hârtie, în care Gemini urmăreşte în ce cupă se află mingea. Pentru a face acest lucru, i-a fost arătată o secvență de imagini statice în care mâinile prezentatorului sunt pe cupele care se schimbă.

Viitor promițător

În ciuda acestor probleme, cred că Gemini și modelele mari multimodale sunt un pas înainte extrem de interesant pentru IA generativă. Acest lucru se datorează atât capacităților lor viitoare, cât și peisajului competitiv al instrumentelor IA.

Aşa cum am arătat într-un articol anterior, GPT-4 a fost instruit pe aproximativ 500 de miliarde de cuvinte – în esență toate texte de bună calitate, disponibile public.

Performanța modelelor de învățare profundă este, în general, determinată de creșterea complexității modelului și a cantității de date de antrenament. Acest lucru a condus la întrebarea cum ar putea fi realizate îmbunătățiri suplimentare, deoarece aproape că am rămas fără noi date de instruire pentru modelele lingvistice. Cu toate acestea, modelele multimodale deschid noi rezerve enorme de date de antrenament – sub formă de imagini, audio și videoclipuri.

Modelele de IA precum Gemini, care pot fi instruite direct pe toate aceste date, vor avea probabil capacități mult mai mari în viitor. De exemplu, m-aș aștepta ca modelele antrenate pe video să dezvolte reprezentări interne sofisticate pentru „fizica naivă”. Aceasta descrie înțelegerea de bază privind cauzalitatea, mișcarea, gravitația și alte fenomene fizice.

De asemenea, sunt încântat de ceea ce înseamnă acest lucru pentru peisajul competitiv al IA. În ciuda apariției multor modele IA generative, modelele GPT ale OpenAI au fost dominante, demonstrând un nivel de performanță pe care alte modele nu l-au putut aborda.

Credit: MeSSrro/Shutterstock

Gemini de la Google reprezintă apariția unui concurent major care va ajuta la promovarea domeniului inteligenţei artificiale. Desigur, OpenAI lucrează aproape sigur la GPT-5 și ne putem aștepta ca acesta să fie, de asemenea, multimodal și să demonstreze noi capabilități remarcabile.

Acestea fiind spuse, sunt dornic să văd apariția unor modele multimodale foarte mari, care sunt open-source și non-comerciale. Sper că acestea vor apărea în următorii ani.

Îmi plac și câteva caracteristici ale implementării Gemini. De exemplu, Google a anunțat o versiune numită Gemini Nano care este capabilă să ruleze direct pe telefoanele mobile.

Astfel de modele reduc impactul asupra mediului al calculului IA și au multe beneficii din perspectiva confidențialității. Sunt sigur că această dezvoltare îi va determina şi pe ceilalţi concurenți să le urmeze exemplul.

Traducere după Google’s Gemini: is the new AI model really better than ChatGPT?

Ştiinţa Online

Este Gemini de la Google cu adevărat mai bun decât ChatGPT?

Verdictul

Viitor promițător

Lasă un răspuns Anulează răspunsul