Što je AI predprocesiranje?

Kratak odgovor: AI predobrada je skup ponovljivih koraka koji pretvaraju sirove podatke s visokom varijancom u konzistentne ulazne podatke modela, uključujući čišćenje, kodiranje, skaliranje, tokenizaciju i transformacije slika. Važno je jer ako se ulazi za obuku i ulazi za produkciju razlikuju, modeli mogu tiho zakazati. Ako korak "uči" parametre, prilagodite ga samo podacima za obuku kako biste izbjegli curenje.

Predobrada umjetne inteligencije je sve što radite s neobrađenim podacima prije (a ponekad i tijekom) treniranja ili zaključivanja kako bi model zapravo mogao učiti iz njih. Ne samo "čišćenje". To je čišćenje, oblikovanje, skaliranje, kodiranje, proširivanje i pakiranje podataka u konzistentan prikaz koji kasnije neće tiho ometati vaš model. [1]

Ključne zaključke:

Definicija : Predobrada pretvara sirove tablice, tekst, slike i zapisnike u značajke spremne za model.

Konzistentnost : Primijenite iste transformacije tijekom učenja i zaključivanja kako biste spriječili pogreške zbog neusklađenosti.

Curenje : Prilagodite skalere, enkodere i tokenizatore samo podacima za obuku.

Ponovljivost : Izgradite cjevovode s provjerljivim statistikama, a ne ad-hoc nizovima ćelija bilježnica.

Praćenje proizvodnje : Pratite nagib i pomak kako unosi ne bi postupno smanjivali performanse.

Članci koje biste možda željeli pročitati nakon ovog:

🔗 Kako testirati AI modele za performanse u stvarnom svijetu
Praktične metode za brzu procjenu točnosti, robusnosti i pristranosti.

🔗 Je li pretvaranje teksta u govor umjetna inteligencija i kako funkcionira
Objašnjava osnove pretvaranja teksta u govor, ključne upotrebe i uobičajena ograničenja danas.

🔗 Može li umjetna inteligencija danas točno čitati kurzivni rukopis?
Obuhvaća izazove prepoznavanja, najbolje alate i savjete za točnost.

🔗 Koliko je umjetna inteligencija točna u uobičajenim zadacima
Analizira faktore točnosti, mjerila i pouzdanost u stvarnom svijetu.

AI predprocesiranje jednostavnim jezikom (i što to nije) 🤝

AI predobrada je transformacija sirovih ulaznih podataka (tablica, teksta, slika, zapisnika) u značajke spremne za model. Ako su sirovi podaci neuredna garaža, predobrada je označavanje kutija, bacanje razbijenog smeća i slaganje stvari kako biste zapravo mogli proći kroz njih bez ozljeda.

Nije stvar u samom modelu. To je ono što model omogućuje:

pretvaranje kategorija u brojeve (jednobrojne, ordinalne itd.) [1]
skaliranje velikih numeričkih raspona u razumne raspone (standardizacija, min-max, itd.) [1]
tokenizacija teksta u ulazne ID-ove (i obično masku pažnje) [3]
promjena veličine/obrezivanje slika i odgovarajuća primjena determinističkih naspram slučajnih transformacija [4]
izgradnja ponovljivih cjevovoda kako se unosi u obuku i „stvarni život“ ne bi suptilno razlikovali [2]

Jedna mala praktična napomena: „predobrada“ uključuje sve što se događa dosljedno prije nego što model vidi ulaz . Neki timovi to dijele na „inženjering značajki“ i „čišćenje podataka“, ali u stvarnom životu te se granice zamagljuju.

Zašto je AI predprocesiranje važnije nego što ljudi priznaju 😬

Model je alat za usklađivanje uzoraka, a ne čitač misli. Ako su vaši unosi nedosljedni, model uči nedosljedna pravila. To nije filozofsko, to je bolno doslovno.

Predobrada vam pomaže:

Poboljšajte stabilnost učenja stavljanjem značajki u reprezentacije koje estimatori mogu pouzdano koristiti (posebno kada je u pitanju skaliranje/kodiranje). [1]
Smanjite šum tako što ćete neurednu stvarnost učiniti nečim iz čega se model može generalizirati (umjesto pamćenja čudnih artefakata).
Spriječite tihe načine kvara poput curenja i neusklađenosti treniranja/posluživanja (onih koji izgledaju „nevjerojatno“ u validaciji, a zatim se postavljaju u produkciji). [2]
Ubrzajte iteraciju jer ponovljive transformacije pobjeđuju špagete od bilježnica svaki dan u tjednu.

Također, odatle zapravo dolazi velik dio „performansi modela“. Kao… iznenađujuće puno. Ponekad se čini nepravedno, ali to je stvarnost 🙃

Što čini dobar AI cjevovod za predprocesiranje ✅

„Dobra verzija“ predprocesiranja obično ima ove kvalitete:

Reproducibilno : isti ulaz → isti izlaz (nema misteriozne slučajnosti osim ako se ne radi o namjernom proširenju).
Konzistentnost posluživanja treninga : sve što radite tijekom treninga primjenjuje se na isti način tijekom zaključivanja (isti prilagođeni parametri, iste mape kategorija, ista konfiguracija tokenizatora itd.). [2]
Sigurnost od curenja : ništa u evaluaciji/testiranju ne utječe na bilo koji prilagodbe . (Više o ovoj zamci uskoro.) [2]
Vidljivo : možete pregledati što se promijenilo (statistike značajki, nedostajuće, broj kategorija) tako da otklanjanje pogrešaka nije inženjering temeljen na vibracijama.

Ako je vaša predprocesna obrada hrpa ćelija bilježnice pod nazivom final_v7_really_final_ok ... znate kako je. Radi dok ne prestane 😬

Temeljni gradivni blokovi umjetne inteligencije predprocesiranja 🧱

Zamislite predobradu kao skup gradivnih blokova koje kombinirate u cjevovod.

1) Čišćenje i validacija 🧼

Tipični zadaci:

ukloni duplikate
rukovanje nedostajućim vrijednostima (isključivanje, imputiranje ili eksplicitno predstavljanje nedostajućih vrijednosti)
nametnuti tipove, jedinice i raspone
otkriti neispravne ulaze
standardizirati tekstualne formate (prazni prostori, pravila o velikim i malim slovima, Unicode osobitosti)

Ovaj dio nije glamurozan, ali sprječava iznimno glupe pogreške. To kažem s ljubavlju.

2) Kodiranje kategoričkih podataka 🔤

Većina modela ne može izravno koristiti sirove nizove znakova poput "red" ili "premium_user" .

Uobičajeni pristupi:

Jednokratno kodiranje (kategorija → binarni stupci) [1]
Ordinalno kodiranje (kategorija → cijeli broj ID) [1]

Ključna stvar nije koji koder odaberete - ključna je da mapiranje ostane konzistentno i da ne "mijenja oblik" između treninga i zaključivanja. Tako ćete dobiti model koji izgleda dobro izvan mreže, a ponaša se kao da je uklet online. [2]

3) Skaliranje i normalizacija značajki 📏

Skaliranje je važno kada se značajke nalaze na vrlo različitim rasponima.

Dva klasika:

Standardizacija : uklanjanje srednje vrijednosti i skaliranje na jediničnu varijancu [1]
Min-max skaliranje : skaliranje svake značajke u određeni raspon [1]

Čak i kada koristite modele koji se „uglavnom nose s problemima“, skaliranje često olakšava rasuđivanje o cjevovodima - i otežava ih slučajno prekidanje.

4) Inženjering značajki (tj. korisno varanje) 🧪

Ovdje olakšavate posao modelu stvaranjem boljih signala:

omjeri (klikovi / prikazi)
pokretni prozori (zadnjih N dana)
broj događaja (događaji po korisniku)
logaritamske transformacije za distribucije s teškim repom

Ovdje postoji umjetnost. Ponekad stvoriš neki članak, osjećaš se ponosno... a to ne radi ništa. Ili još gore, boli. To je normalno. Nemoj se emocionalno vezati za članke - oni te ne vole 😅

5) Pravilna podjela podataka ✂️

Ovo zvuči očito dok nije:

slučajne podjele za IID podatke
vremenski zasnovane podjele za vremenske serije
grupirane podjele kada se entiteti ponavljaju (korisnici, uređaji, pacijenti)

I ključno: razdvojite prije prilagođavanja predobrade koja uči iz podataka . Ako vaš korak predobrade „uči“ parametre (poput srednjih vrijednosti, vokabulara, mapa kategorija), mora ih naučiti samo iz treninga. [2]

AI predobrada prema vrsti podataka: tablični, tekstualni, slikovni 🎛️

Predobrada mijenja oblik ovisno o tome što modelu dajete.

Tablični podaci (proračunske tablice, zapisnici, baze podataka) 📊

Uobičajeni koraci:

strategija nedostajuće vrijednosti
kategoričko kodiranje [1]
skaliranje numeričkih stupaca [1]
rukovanje outlierima (pravila domene većinu vremena pobjeđuju "slučajno izrezivanje")
izvedene značajke (agregacije, kašnjenja, tekuće statistike)

Praktični savjet: eksplicitno definirajte grupe stupaca (numeričke vs. kategoričke vs. identifikatore). Vaše buduće ja će vam biti zahvalno.

Tekstualni podaci (NLP) 📝

Predobrada teksta često uključuje:

tokenizacija u tokene/podriječi
pretvorba u ulazne ID-ove
popunjavanje/skraćivanje
izrada maski pažnje za grupiranje [3]

Malo pravilo koje štedi muke: za postavke temeljene na transformatorima, slijedite očekivane postavke tokenizatora modela i nemojte se igrati freestyleom osim ako nemate razlog. Freestyle je način na koji završite s "trenira, ali je čudno"

Slike (računalni vid) 🖼️

Tipična predobrada:

promjena veličine / izrezivanje na konzistentne oblike
determinističke transformacije za evaluaciju
slučajne transformacije za proširenje treniranja (npr. slučajno izrezivanje) [4]

Jedan detalj koji ljudi propuštaju: „slučajne transformacije“ nisu samo vibracija - one doslovno uzorkuju parametre svaki put kada se pozovu. Izvrsno za raznolikost učenja, užasno za evaluaciju ako zaboravite isključiti slučajnost. [4]

Zamka u koju svi upadaju: curenje podataka 🕳️🐍

Curenje je kada se informacije iz podataka evaluacije provuku u proces obuke - često kroz prethodnu obradu. To može učiniti da vaš model izgleda magično tijekom validacije, a zatim vas razočarati u stvarnom svijetu.

Uobičajeni obrasci curenja:

skaliranje korištenjem statistike cijelog skupa podataka (umjesto samo treniranja) [2]
izgradnja mapa kategorija korištenjem sustava Train+Test zajedno [2]
bilo koji fit() ili fit_transform() koji "vidi" testni skup [2]

Pravilo (jednostavno, brutalno, učinkovito):

Sve što ima fit korak trebalo bi biti fit samo na treningu.
Zatim transformirate validaciju/testiranje koristeći taj prilagođeni transformator. [2]

A ako želite provjeriti „koliko loše može biti?“: scikit-learn-ova vlastita dokumentacija pokazuje primjer curenja gdje netočan redoslijed predobrade daje točnost od oko 0,76 na slučajnim ciljevima, a zatim pada na ~ 0,5 nakon što se curenje popravi. Tako uvjerljivo pogrešno curenje može izgledati. [2]

Uvođenje predprocesiranja u proizvodnju bez kaosa 🏗️

Mnogi modeli ne uspiju u produkciji ne zato što je model „loš“, već zato što se ulazna stvarnost mijenja - ili se vaš cjevovod mijenja.

Predobrada usmjerena na proizvodnju obično uključuje:

Spremljeni artefakti (mapiranje enkodera, parametri skalera, konfiguracija tokenizatora) tako da inferencija koristi potpuno iste naučene transformacije [2]
Strogi ulazni ugovori (očekivani stupci/vrste/rasponi)
Praćenje nagiba i pomaka , jer će lutati [5]

Ako želite konkretne definicije: Googleov Vertex AI Model Monitoring razlikuje nagib u posluživanju obuke (distribucija proizvodnje odstupa od obuke) i pomak zaključivanja (distribucija proizvodnje se mijenja tijekom vremena) te podržava praćenje i kategoričkih i numeričkih značajki. [5]

Jer iznenađenja su skupa. I nisu ona zabavna.

Tablica usporedbe: uobičajeni alati za predobradu + nadzor (i za koga su namijenjeni) 🧰

Alat / biblioteka	Najbolje za	Cijena	Zašto funkcionira (i malo iskrenosti)
scikit-learn predobrada	Tablični ML cjevovodi	Besplatno	Čvrsti enkoderi + skaleri (OneHotEncoder, StandardScaler, itd.) i predvidljivo ponašanje [1]
Tokenizatori zagrljaja lica	Priprema za NLP ulaz	Besplatno	Dosljedno proizvodi ID-ove unosa + maske pažnje u svim izvedbama/modelima [3]
transformacije bakljovida	Transformacije + povećanje vida	Besplatno	Čist način kombiniranja determinističkih i slučajnih transformacija u jednom cjevovodu [4]
Praćenje Vertex AI modela	Detekcija pomicanja/nagiba u proizvodu	Plaćeno (oblak)	Monitori imaju funkciju nagiba/pomaka i upozorenja kada su prekoračeni pragovi [5]

(Da, za stolom još uvijek ima mišljenja. Ali barem su to iskrena mišljenja 😅)

Praktična kontrolna lista za predobradu koju zapravo možete koristiti 📌

Prije treninga

Definirajte ulaznu shemu (vrste, jedinice, dopušteni rasponi)
Revizija nedostajućih vrijednosti i duplikata
Pravilna podjele podataka (nasumično / vremenski / grupirano)
Predobrada prilagodbe samo na treningu ( fit / fit_transform ostaje na treningu) [2]
Spremi artefakte predobrade kako bi ih se moglo ponovno koristiti pri zaključivanju [2]

Tijekom treninga

Primijenite nasumično povećanje samo gdje je to prikladno (obično samo u podjeli za obuku) [4]
Održavajte determinističku predobradu evaluacije [4]
Pratite promjene predobrade poput promjena modela (jer one to i jesu)

Prije implementacije

Osigurajte da inferencija koristi identičan put predobrade i artefakte [2]
Postavite praćenje pomaka/nakrivljenosti (čak i osnovne provjere distribucije značajki puno pomažu) [5]

Detaljna analiza: uobičajene pogreške u predprocesiranju (i kako ih izbjeći) 🧯

Greška 1: „Samo ću brzo sve normalizirati“ 😵

Ako izračunate parametre skaliranja na cijelom skupu podataka, propuštate informacije o evaluaciji. Prilagodite vlaku, ostatak transformirajte. [2]

Greška 2: kategorije tonu u kaos 🧩

Ako se vaše mapiranje kategorija mijenja između učenja i zaključivanja, vaš model može tiho krivo protumačiti svijet. Održavajte mapiranja fiksnima putem spremljenih artefakata. [2]

Pogreška 3: nasumično proširenje koje se ušulja u evaluaciju 🎲

Slučajne transformacije su izvrsne u obuci, ali ne bi trebale biti "tajno uključene" kada pokušavate mjeriti performanse. (Slučajno znači nasumično.) [4]

Završne napomene 🧠✨

Predobrada umjetne inteligencije je disciplinirana umjetnost pretvaranja neuredne stvarnosti u konzistentne ulazne podatke modela. Obuhvaća čišćenje, kodiranje, skaliranje, tokenizaciju, transformacije slika i - što je najvažnije - ponovljive cjevovode i artefakte.

Namjerno, a ne usputno, vršite predprocesiranje. [2]
Prvo razdvojite, kroj se mijenja samo tijekom treninga, izbjegavajte curenje. [2]
Koristite predprocesiranje prikladno za modalitet (tokenizatore za tekst, transformacije za slike). [3][4]
Pratite odstupanja/pomak u proizvodnji kako vaš model ne bi polako skrenuo u besmislicu. [5]

A ako se ikada zaglavite, zapitajte se:
„Bi li ovaj korak predobrade i dalje imao smisla da ga sutra pokrenem na potpuno novim podacima?“
Ako je odgovor „hm… možda?“, to je vaš trag 😬

Često postavljana pitanja

Što je AI predprocesiranje, jednostavno rečeno?

Predobrada umjetne inteligencije je ponovljivi skup koraka koji pretvaraju šumne sirove podatke s visokom varijancom u konzistentne ulaze iz kojih model može učiti. Može uključivati čišćenje, validaciju, kodiranje kategorija, skaliranje numeričkih vrijednosti, tokenizaciju teksta i primjenu transformacija slika. Cilj je osigurati da trening i zaključivanje o produkciji vide „istu vrstu“ ulaza, kako model kasnije ne bi skrenuo u nepredvidivo ponašanje.

Zašto je AI predprocesiranje toliko važno u produkciji?

Predobrada je važna jer su modeli osjetljivi na reprezentaciju ulaza. Ako se podaci za obuku skaliraju, kodiraju, tokeniziraju ili transformiraju drugačije od produkcijskih podataka, možete dobiti neuspjehe neusklađenosti treniranja/posluživanja koji izgledaju dobro izvan mreže, ali tiho ne uspijevaju online. Snažni cjevovodi predobrade također smanjuju šum, poboljšavaju stabilnost učenja i ubrzavaju iteraciju jer ne raspetljavate špagete bilježnice.

Kako mogu izbjeći curenje podataka tijekom predobrade?

Jednostavno pravilo funkcionira: sve što ima prilagodbe mora se prilagoditi samo podacima za obuku. To uključuje skalere, enkodere i tokenizatore koji uče parametre poput srednjih vrijednosti, mapa kategorija ili vokabulara. Prvo se izvrši razdvajanje, prilagođavanje na podjeli za obuku, a zatim se transformira validacija/test pomoću prilagođenog transformatora. Curenje može učiniti da validacija izgleda „magično“ dobro, a zatim se uruši u produkcijskoj upotrebi.

Koji su najčešći koraci predobrade za tablične podatke?

Za tablične podatke, uobičajeni cjevovod uključuje čišćenje i validaciju (vrste, rasponi, nedostajuće vrijednosti), kategoričko kodiranje (jednokratno ili ordinalno) i numeričko skaliranje (standardizacija ili min-max). Mnogi cjevovodi dodaju inženjering značajki vođen domenom poput omjera, pomicanja prozora ili brojanja. Praktična navika je eksplicitno definiranje grupa stupaca (numeričke vs. kategoričke vs. identifikatore) kako bi vaše transformacije ostale dosljedne.

Kako funkcionira predobrada tekstualnih modela?

Predobrada teksta obično znači tokenizaciju u tokene/podriječi, njihovo pretvaranje u ulazne ID-ove i rukovanje popunjavanjem/skraćivanjem za grupiranje. Mnogi tijekovi rada transformatora također stvaraju masku pažnje uz ID-ove. Uobičajeni pristup je korištenje očekivane konfiguracije tokenizatora modela umjesto improvizacije, jer male razlike u postavkama tokenizatora mogu dovesti do ishoda „trenira, ali se ponaša nepredvidivo“.

Koja je razlika u predobradi slika za strojno učenje?

Predobrada slike obično osigurava konzistentne oblike i rukovanje pikselima: promjenu veličine/izrezivanje, normalizaciju i jasnu podjelu između determinističkih i slučajnih transformacija. Za evaluaciju, transformacije bi trebale biti determinističke kako bi metrike bile usporedive. Za obuku, slučajno proširenje (poput slučajnih izrezivanja) može poboljšati robusnost, ali slučajnost mora biti namjerno ograničena na podjelu za obuku, a ne slučajno ostavljena tijekom evaluacije.

Što čini cjevovod predprocesiranja „dobrim“ umjesto krhkim?

Dobar cjevovod za predprocesiranje umjetne inteligencije je reproducibilan, siguran od curenja i vidljiv. Reproducibilan znači da isti ulaz proizvodi isti izlaz, osim ako slučajnost nije namjerno povećanje. Sigurno od curenja znači da koraci prilagodbe nikada ne dodiruju validaciju/testiranje. Vidljiv znači da možete pregledati statistike poput nedostataka, broja kategorija i distribucije značajki, tako da se ispravljanje pogrešaka temelji na dokazima, a ne na intuiciji. Cjevovodi svaki put pobjeđuju ad-hoc sekvence bilježnica.

Kako mogu održati dosljednost u obuci i predobradi zaključivanja?

Ključno je ponovno upotrijebiti potpuno iste naučene artefakte u vrijeme zaključivanja: parametre skalera, mapiranja enkodera i konfiguracije tokenizatora. Također želite ulazni ugovor (očekivani stupci, tipovi i rasponi) kako se produkcijski podaci ne bi mogli tiho prebaciti u nevažeće oblike. Dosljednost nije samo "izvršiti iste korake" - to je "izvršiti iste korake s istim prilagođenim parametrima i mapiranjima"

Kako mogu pratiti probleme predobrade poput pomaka i nagiba tijekom vremena?

Čak i uz solidan cjevovod, podaci o produkciji se mijenjaju. Uobičajeni pristup je praćenje promjena u distribuciji značajki i upozoravanje na odstupanje u posluživanju obuke (produkcija odstupa od obuke) i pomak zaključivanja (produkcija se mijenja tijekom vremena). Praćenje može biti lagano (osnovne provjere distribucije) ili upravljano (poput Vertex AI Model Monitoringa). Cilj je rano uočiti promjene ulaznih podataka - prije nego što polako naruše performanse modela.

Reference

[1] scikit-learn API:
sklearn.preprocessing (enkoderi, skaleri, normalizacija) [2] scikit-learn: Uobičajene zamke - Curenje podataka i kako ih izbjeći
[3] Dokumentacija Hugging Face Transformers: Tokenizatori (ulazni ID-ovi, maske pažnje)
[4] Dokumentacija PyTorch Torchvision: Transformacije (Promjena veličine/Normalizacija + nasumične transformacije)
[5] Dokumentacija Google Cloud Vertex AI: Pregled praćenja modela (nagib i pomak značajki)

Pronađite najnoviju umjetnu inteligenciju u službenoj trgovini AI Assistant

O nama

Natrag na blog

Zemlja/regija