odakle umjetna inteligencija dobiva informacije

Odakle umjetna inteligencija dobiva svoje informacije?

Jeste li ikada sjedili tamo i češkali se po glavi, kao... odakle ovo zapravo dolazi ? Mislim, umjetna inteligencija ne pretražuje prašnjave hrpe knjižnica niti gleda kratke videozapise s YouTubea usput. Pa ipak, nekako izvlači odgovore na sve - od trikova za lazanje do fizike crnih rupa - kao da unutra ima neki beskrajni ormar za spise. Stvarnost je čudnija i možda intrigantnija nego što biste pretpostavili. Idemo malo razotkriti (i da, možda usput razbijemo nekoliko mitova).


Je li to čarobnjaštvo? 🌐

Nije to čarolija, iako se ponekad tako čini. Ono što se događa "ispod haube" u osnovi je predviđanje uzoraka . Veliki jezični modeli (LLM) ne pohranjuju činjenice na način na koji se vaš mozak drži bakinog recepta za kolačiće; umjesto toga, obučeni su pogoditi sljedeću riječ (token) na temelju onoga što je bilo prije [2]. U praksi, to znači da se vežu za odnose: koje se riječi slažu, kako rečenice obično poprimaju oblik, kako se cijele ideje grade poput skele. Zato izlaz zvuči ispravno, iako - potpuno iskreno - to je statistička mimikrija, a ne razumijevanje [4].

Što zapravo čini informacije generirane umjetnom inteligencijom korisnima ? Nekoliko stvari:

  • Raznolikost podataka - prikupljanje podataka iz bezbrojnih izvora, a ne iz jednog uskog toka.

  • Ažuriranja - bez ciklusa osvježavanja, brzo zastarijeva.

  • Filtriranje - idealno hvatanje smeća prije nego što prodre (iako, budimo realni, ta mreža ima rupe).

  • Unakrsna provjera - oslanjanje na autoritativne izvore (npr. NASA, WHO, velika sveučilišta), što je neophodno u većini priručnika za upravljanje umjetnom inteligencijom [3].

Ipak, ponekad izmišlja - s puno samopouzdanja. Te takozvane halucinacije ? U osnovi, uglađene gluposti izrečene ozbiljnog lica [2][3].

Članci koje biste možda željeli pročitati nakon ovog:

🔗 Može li umjetna inteligencija predvidjeti brojeve lutrije
Istraživanje mitova i činjenica o predviđanjima lutrije pomoću umjetne inteligencije.

🔗 Što znači holistički pristup umjetnoj inteligenciji
Razumijevanje umjetne inteligencije s uravnoteženim perspektivama o etici i utjecaju.

🔗 Što Biblija kaže o umjetnoj inteligenciji
Ispitivanje biblijskih perspektiva o tehnologiji i stvaranju čovjeka.


Brza usporedba: Odakle umjetna inteligencija crpi 📊

Nisu svi izvori jednaki, ali svaki igra svoju ulogu. Evo kratkog pregleda.

Vrsta izvora Tko ga koristi (AI) Cijena/vrijednost Zašto funkcionira (ili ne funkcionira...)
Knjige i članci Veliki jezični modeli Neprocjenjivo (otprilike) Gusto, strukturirano znanje - jednostavno brzo stari.
Web stranice i blogovi Gotovo sve umjetne inteligencije Besplatno (s bukom) Divlja sorta; mješavina briljantnosti i apsolutnog smeća.
Akademski radovi Umjetne inteligencije s puno istraživanja Ponekad uz naplatu Rigoroznost + kredibilitet, ali umotano u teški žargon.
Korisnički podaci Personalizirane umjetne inteligencije Vrlo osjetljivo ⚠️ Oštro krojenje, ali glavobolje s privatnošću u izobilju.
Web u stvarnom vremenu Umjetne inteligencije povezane s pretraživanjem Besplatno (ako je online) Održava informacije svježima; nedostatak je rizik od širenja glasina.

Svemir podataka za trening 🌌

Ovo je faza „učenja u djetinjstvu“. Zamislite da djetetu dajete milijune slikovnica, isječaka iz vijesti i Wikipedijinih zečjih rupa odjednom. Tako izgleda predtrening. U stvarnom svijetu, pružatelji usluga spajaju javno dostupne podatke, licencirane izvore i tekst koji generira trener [2].

Slojevito na vrhu: odabrani ljudski primjeri - dobri odgovori, loši odgovori, poticaji u pravom smjeru - prije nego što potkrepljenje uopće počne [1].

Upozorenje o transparentnosti: tvrtke ne otkrivaju svaki detalj. Neke zaštitne mjere su tajnost (intelektualno vlasništvo, sigurnosni problemi), tako da dobivate samo djelomičan uvid u stvarni proces [2].


Pretraživanje u stvarnom vremenu: Dodatni preljev 🍒

Neki modeli sada mogu zaviriti izvan svog mjehura za učenje. To je generiranje prošireno pronalaženjem (RAG) - u osnovi izvlačenje dijelova iz živog indeksa ili pohrane dokumenata, a zatim njihovo upletanje u odgovor [5]. Savršeno za brzo promjenjive stvari poput naslova vijesti ili cijena dionica.

U čemu je problem? Internet je u jednakoj mjeri genijalan i vreo. Ako su filteri ili provjere porijekla slabi, riskirate da se neželjeni podaci provuku natrag - upravo na što upozoravaju okviri za upravljanje rizikom [3].

Uobičajeno rješenje: tvrtke povezuju modele s vlastitim internim bazama podataka, pa odgovori navode trenutnu HR politiku ili ažuriranu dokumentaciju o proizvodu umjesto da se previše uzbuđuju. Zamislite: manje trenutaka "oh-oh", više pouzdanih odgovora.


Fino podešavanje: Korak poliranja umjetne inteligencije 🧪

Sirovi, prethodno obučeni modeli su nezgrapni. Stoga se fino podešavaju :

  • Učenje da budu korisni, bezopasni, iskreni (putem učenja s potkrepljenjem iz ljudskih povratnih informacija, RLHF) [1].

  • Brušenje nesigurnih ili toksičnih rubova (poravnavanje) [1].

  • Prilagođavanje tona - bilo da je on prijateljski, formalan ili razigrano sarkastičan.

Nije toliko poliranje dijamanta koliko nagovaranje statističke lavine da se ponaša više kao sugovornik.


Neuspjesi i neuspjesi 🚧

Nemojmo se pretvarati da je besprijekorno:

  • Halucinacije - jasni odgovori koji su potpuno pogrešni [2][3].

  • Pristranost - odražava obrasce ugrađene u podatke; može ih čak i pojačati ako se ne kontrolira [3][4].

  • Nema iskustva iz prve ruke - može pričati o receptima za juhu, ali nikad nijednu nije probao [4].

  • Prevelika samouvjerenost - tekst teče kao da zna, čak i kada ne zna. Okviri rizika naglašavaju pretpostavke označavanja [3].


Zašto se osjeća kao da znam 🧠

Nema uvjerenja, nema pamćenja u ljudskom smislu, a zasigurno nema ni sebe. Pa ipak, budući da glatko niza rečenice, vaš mozak to čita kao da razumije . Ono što se događa je samo predviđanje sljedećeg žetona velikih razmjera : obrada bilijuna vjerojatnosti u djeliću sekunde [2].

Vibra „inteligencije“ je emergentno ponašanje - istraživači ga, pomalo ironično, nazivaju „stohastičkog papige“ [4].


Analogija za djecu 🎨

Zamislite papigu koja je pročitala svaku knjigu u knjižnici. Ne razumije priče , ali može preoblikovati riječi u nešto što se čini mudrim. Ponekad je savršeno točno; ponekad je besmisleno - ali s dovoljno talenta, ne možete uvijek uočiti razliku.


Zaključno: Odakle dolaze informacije umjetne inteligencije 📌

Jednostavno rečeno:

  • Masovni podaci o obuci (javni + licencirani + generirani od strane trenera) [2].

  • Fino podešavanje s ljudskim povratnim informacijama za oblikovanje tona/ponašanja [1].

  • Sustavi za pronalaženje podataka kada su spojeni na tokove podataka uživo [5].

Umjetna inteligencija ne "zna" stvari - ona predviđa tekst . To je i njezina supermoć i Ahilova peta. Zaključak? Uvijek provjerite važne stvari s pouzdanim izvorom [3].


Reference

  1. Ouyang, L. i dr. (2022). Treniranje jezičnih modela za praćenje uputa s ljudskom povratnom informacijom (InstructGPT) . arXiv .

  2. OpenAI (2023). Tehničko izvješće GPT-4 - mješavina licenciranih, javnih i podataka koje je stvorio čovjek; cilj i ograničenja predviđanja sljedećeg tokena. arXiv .

  3. NIST (2023). Okvir za upravljanje rizicima umjetne inteligencije (AI RMF 1.0) - podrijetlo, pouzdanost i kontrole rizika. PDF .

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). O opasnostima stohastičkih papiga: Mogu li jezični modeli biti preveliki? PDF .

  5. Lewis, P. i dr. (2020). Generiranje prošireno pretraživanjem za NLP koji se temelji na znanju . arXiv .


Pronađite najnoviju umjetnu inteligenciju u službenoj trgovini AI Assistant

O nama

Natrag na blog