odakle umjetna inteligencija dobiva informacije

Odakle umjetna inteligencija dobiva svoje informacije?

Jeste li ikada sjedili tamo i češkali se po glavi, kao... odakle ovo zapravo dolazi? Mislim, umjetna inteligencija ne pretražuje prašnjave hrpe knjižnica niti gleda kratke videozapise s YouTubea usput. Pa ipak, nekako izvlači odgovore na sve - od trikova za lazanje do fizike crnih rupa - kao da unutra ima neki beskrajni ormar za spise. Stvarnost je čudnija i možda intrigantnija nego što biste pretpostavili. Idemo malo razotkriti (i da, možda usput razbijemo nekoliko mitova).

Je li to čarobnjaštvo? 🌐

Nije to čarolija, iako se ponekad tako čini. Ono što se događa "ispod haube" u osnovi je predviđanje uzoraka. Veliki jezični modeli (LLM) ne pohranjuju činjenice na način na koji se vaš mozak drži bakinog recepta za kolačiće; umjesto toga, obučeni su pogoditi sljedeću riječ (token) na temelju onoga što je bilo prije [2]. U praksi, to znači da se vežu za odnose: koje se riječi slažu, kako rečenice obično poprimaju oblik, kako se cijele ideje grade poput skele. Zato izlaz zvuči ispravno, iako - potpuno iskreno - to je statistička mimikrija, a ne razumijevanje [4].

Što zapravo čini informacije generirane umjetnom inteligencijom korisnima? Nekoliko stvari:

Raznolikost podataka - prikupljanje podataka iz bezbrojnih izvora, a ne iz jednog uskog toka.
Ažuriranja - bez ciklusa osvježavanja, brzo zastarijeva.
Filtriranje - idealno hvatanje smeća prije nego što uđe (iako, budimo realni, ta mreža ima rupe).
Unakrsna provjera - oslanjanje na autoritativne izvore (npr. NASA, WHO, velika sveučilišta), što je neophodno u većini priručnika za upravljanje umjetnom inteligencijom [3].

Ipak, ponekad izmišlja - s puno samopouzdanja. Te takozvane halucinacije? U osnovi, uglađene gluposti izrečene ozbiljnog lica [2][3].

Članci koje biste možda željeli pročitati nakon ovog:

🔗 Može li umjetna inteligencija predvidjeti brojeve lutrije
Istraživanje mitova i činjenica o predviđanjima lutrije pomoću umjetne inteligencije.

🔗 Što znači holistički pristup umjetnoj inteligenciji
Razumijevanje umjetne inteligencije s uravnoteženim perspektivama o etici i utjecaju.

🔗 Što Biblija kaže o umjetnoj inteligenciji
Ispitivanje biblijskih perspektiva o tehnologiji i stvaranju čovjeka.

Brza usporedba: Odakle umjetna inteligencija crpi 📊

Nisu svi izvori jednaki, ali svaki igra svoju ulogu. Evo kratkog pregleda.

Vrsta izvora	Tko ga koristi (AI)	Cijena/vrijednost	Zašto funkcionira (ili ne funkcionira...)
Knjige i članci	Veliki jezični modeli	Neprocjenjivo (otprilike)	Gusto, strukturirano znanje - jednostavno brzo stari.
Web stranice i blogovi	Gotovo sve umjetne inteligencije	Besplatno (s bukom)	Divlja sorta; mješavina briljantnosti i apsolutnog smeća.
Akademski radovi	Umjetne inteligencije s puno istraživanja	Ponekad uz naplatu	Rigoroznost + kredibilitet, ali umotano u teški žargon.
Korisnički podaci	Personalizirane umjetne inteligencije	Vrlo osjetljivo ⚠️	Oštro krojenje, ali glavobolje s privatnošću u izobilju.
Web u stvarnom vremenu	Umjetne inteligencije povezane s pretraživanjem	Besplatno (ako je online)	Održava informacije svježima; nedostatak je rizik od širenja glasina.

Svemir podataka za trening 🌌

Ovo je faza „učenja u djetinjstvu“. Zamislite da djetetu dajete milijune slikovnica, isječaka iz vijesti i Wikipedijinih zečjih rupa odjednom. Tako izgleda predtrening. U stvarnom svijetu, pružatelji usluga spajaju javno dostupne podatke, licencirane izvore i tekst koji generira trener [2].

Slojevito na vrhu: odabrani ljudski primjeri - dobri odgovori, loši odgovori, poticaji u pravom smjeru - prije nego što potkrepljenje uopće počne [1].

Upozorenje o transparentnosti: tvrtke ne otkrivaju svaki detalj. Neke zaštitne mjere su tajnost (intelektualno vlasništvo, sigurnosni problemi), tako da dobivate samo djelomičan uvid u stvarni proces [2].

Pretraživanje u stvarnom vremenu: Dodatni preljev 🍒

Neki modeli sada mogu zaviriti izvan svog mjehura za učenje. To je generiranje prošireno pronalaženjem (RAG)- u osnovi izvlačenje dijelova iz živog indeksa ili pohrane dokumenata, a zatim njihovo upletanje u odgovor [5]. Savršeno za brzo promjenjive stvari poput naslova vijesti ili cijena dionica.

U čemu je problem? Internet je u jednakoj mjeri genijalan i vreo. Ako su filteri ili provjere porijekla slabi, riskirate da se neželjeni podaci provuku natrag - upravo na što upozoravaju okviri za upravljanje rizikom [3].

Uobičajeno rješenje: tvrtke povezuju modele s vlastitim internim bazama podataka, pa odgovori navode trenutnu HR politiku ili ažuriranu dokumentaciju o proizvodu umjesto da se previše uzbuđuju. Zamislite: manje trenutaka "oh-oh", više pouzdanih odgovora.

Fino podešavanje: Korak poliranja umjetne inteligencije 🧪

Sirovi, prethodno obučeni modeli su nezgrapni. Stoga se fino podešavaju:

Učenje da budu korisni, bezopasni, iskreni (putem učenja s potkrepljenjem iz ljudskih povratnih informacija, RLHF) [1].
Brušenje nesigurnih ili toksičnih rubova (poravnavanje) [1].
Prilagođavanje tona - bilo da je on prijateljski, formalan ili razigrano sarkastičan.

Nije toliko poliranje dijamanta koliko nagovaranje statističke lavine da se ponaša više kao sugovornik.

Neuspjesi i neuspjesi 🚧

Nemojmo se pretvarati da je besprijekorno:

Halucinacije - jasni odgovori koji su potpuno pogrešni [2][3].
Pristranost - odražava obrasce ugrađene u podatke; može ih čak i pojačati ako se ne kontrolira [3][4].
Nema iskustva iz prve ruke - može pričati o receptima za juhu, ali nikad nijednu nije probao [4].
Prevelika samouvjerenost - tekst teče kao da zna, čak i kada ne zna. Okviri rizika naglašavaju pretpostavke označavanja [3].

Zašto se osjeća kao da znam 🧠

Nema uvjerenja, nema pamćenja u ljudskom smislu, a zasigurno nema ni sebe. Pa ipak, budući da glatko niza rečenice, vaš mozak to čita kao da razumije. Ono što se događa je samo predviđanje sljedećeg žetona velikih razmjera: obrada bilijuna vjerojatnosti u djeliću sekunde [2].

Vibra „inteligencije“ je emergentno ponašanje - istraživači ga, pomalo ironično, nazivaju „stohastičkog papige“ [4].

Analogija za djecu 🎨

Zamislite papigu koja je pročitala svaku knjigu u knjižnici. Ne razumije priče , ali može preoblikovati riječi u nešto što se čini mudrim. Ponekad je savršeno točno; ponekad je besmisleno - ali s dovoljno talenta, ne možete uvijek uočiti razliku.

Zaključno: Odakle dolaze informacije umjetne inteligencije 📌

Jednostavno rečeno:

Masovni podaci o obuci (javni + licencirani + generirani od strane trenera) [2].
Fino podešavanje s ljudskim povratnim informacijama za oblikovanje tona/ponašanja [1].
Sustavi za pronalaženje podataka kada su spojeni na tokove podataka uživo [5].

Umjetna inteligencija ne "zna" stvari - ona predviđa tekst. To je i njezina supermoć i Ahilova peta. Zaključak? Uvijek provjerite važne stvari s pouzdanim izvorom [3].

Reference

Ouyang, L. i dr. (2022). Treniranje jezičnih modela za praćenje uputa s ljudskom povratnom informacijom (InstructGPT). arXiv.
OpenAI (2023). Tehničko izvješće GPT-4 - mješavina licenciranih, javnih i podataka koje je stvorio čovjek; cilj i ograničenja predviđanja sljedećeg tokena. arXiv.
NIST (2023). Okvir za upravljanje rizicima umjetne inteligencije (AI RMF 1.0) - podrijetlo, pouzdanost i kontrole rizika. PDF.
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). O opasnostima stohastičkih papiga: Mogu li jezični modeli biti preveliki? PDF.
Lewis, P. i dr. (2020). Generiranje prošireno pretraživanjem za NLP koji se temelji na znanju. arXiv.

Pronađite najnoviju umjetnu inteligenciju u službenoj trgovini AI Assistant

O nama

Natrag na blog