Kako procijeniti AI modele

Kako procijeniti AI modele

Kratak odgovor: Definirajte što znači „dobro“ za vaš slučaj upotrebe, a zatim testirajte s reprezentativnim, verzijskim upitima i rubnim slučajevima. Uparite automatizirane metrike s bodovanjem ljudskih rubrika, uz provjere sigurnosti suparnika i ubrizgavanja upita. Ako ograničenja troškova ili latencije postanu obvezujuća, usporedite modele prema uspjehu zadatka po potrošenoj funti i vremenima odgovora p95/p99.

Ključne zaključke:

Odgovornost : Dodijelite jasne vlasnike, vodite zapisnike verzija i ponovno pokrenite evaluacije nakon bilo kakvog upita ili promjene modela.

Transparentnost : Zapišite kriterije uspjeha, ograničenja i troškove neuspjeha prije nego što počnete prikupljati rezultate.

Provjerljivost : Održavajte ponovljive testne pakete, označene skupove podataka i praćene metrike latencije p95/p99.

Osporivost : Koristite rubrike za ljudski pregled i definirani put žalbe za sporne rezultate.

Otpor na zlouporabu : Ubrizgavanje od strane crvenog tima, osjetljive teme i pretjerano odbijanje zaštite korisnika.

Ako birate model za proizvod, istraživački projekt ili čak interni alat, ne možete jednostavno reći "zvuči pametno" i poslati ga (pogledajte OpenAI evals vodič i NIST AI RMF 1.0 ). Tako ćete dobiti chatbota koji samouvjereno objašnjava kako podgrijati vilicu u mikrovalnoj pećnici. 😬

Infografika o tome kako procijeniti AI modele

Članci koje biste možda željeli pročitati nakon ovog:

🔗 Budućnost umjetne inteligencije: trendovi koji oblikuju sljedeće desetljeće
Ključne inovacije, utjecaj na radna mjesta i etika koje treba pratiti.

🔗 Objašnjenje temeljnih modela u generativnoj umjetnoj inteligenciji za početnike.
Saznajte što su, kako se obučavaju i zašto su važni.

🔗 Kako umjetna inteligencija utječe na okoliš i potrošnju energije
Istražite emisije, potražnju za električnom energijom i načine smanjenja ekološkog otiska.

🔗 Kako danas funkcionira povećanje skale pomoću umjetne inteligencije za oštrije slike
Pogledajte kako modeli dodaju detalje, uklanjaju šum i čisto povećavaju.


1) Definiranje "dobrog" (ovisi, i to je u redu) 🎯

Prije nego što provedete bilo kakvu evaluaciju, odlučite kako izgleda uspjeh. Inače ćete sve izmjeriti, a ništa nećete naučiti. To je kao da donesete metar za ocjenjivanje natjecanja u tortama. Naravno, dobit ćete brojke, ali one vam neće puno reći 😅

Pojasni:

  • Cilj korisnika : sažimanje, pretraživanje, pisanje, zaključivanje, izdvajanje činjenica

  • Cijena neuspjeha : pogrešna preporuka filma je smiješna; pogrešna medicinska uputa je... nije smiješna (uokviravanje rizika: NIST AI RMF 1.0 ).

  • Izvršno okruženje : na uređaju, u oblaku, iza vatrozida, u reguliranom okruženju

  • Primarna ograničenja : latencija, cijena po zahtjevu, privatnost, objašnjivost, višejezična podrška, kontrola tona

Model koji je "najbolji" u jednom poslu može biti katastrofa u drugom. To nije kontradikcija, to je stvarnost. 🙂


2) Kako izgleda čvrst okvir za evaluaciju AI modela 🧰

Da, ovo je dio koji ljudi preskaču. Uzmu benchmark, pokrenu ga jednom i završe s tim. Robustan okvir za evaluaciju ima nekoliko konzistentnih osobina (praktični primjeri alata: OpenAI Evals / OpenAI evals guide ):

  • Ponovljivo - možete ponovno pokrenuti sljedeći tjedan i vjerovati usporedbama

  • Reprezentativno - odražava vaše stvarne korisnike i zadatke (ne samo trivijalnosti)

  • Višeslojno - kombinira automatizirane metrike + ljudski pregled + kontradiktorne testove

  • Djelotvorno - rezultati vam govore što popraviti, ne samo da je „rezultat pao“

  • Otporno na neovlašteno otvaranje - sprječava "učenje na test" ili slučajno curenje

  • Osviještenost o troškovima - sama evaluacija ne bi vas trebala dovesti do bankrota (osim ako ne volite bol)

Ako vaša evaluacija ne može preživjeti skeptičnog suigrača koji kaže „U redu, ali mapiraj ovo na produkciju“, onda još nije završena. To je provjera vibracija.


3) Kako procijeniti AI modele počevši od analiza slučajeva upotrebe 🍰

Evo trika koji štedi puno vremena: razbijte slučaj upotrebe na dijelove .

Umjesto "procijenite model", učinite sljedeće:

  • Razumijevanje namjere (dobiva li se ono što korisnik želi)

  • Dohvaćanje ili korištenje konteksta (koristi li ispravno pružene informacije)

  • Rasuđivanje / zadaci u više koraka (ostaje li koherentno kroz korake)

  • Formatiranje i struktura (prati li upute)

  • Usklađenost sigurnosti i politika (izbjegava li nesiguran sadržaj; vidi NIST AI RMF 1.0 )

  • Ton i glas brenda (zvuči li onako kako želite da zvuči)

Zbog toga se „Kako procijeniti AI modele“ manje osjeća kao jedan ogroman ispit, a više kao skup ciljanih kvizova. Kvizovi su dosadni, ali se s njima može postupiti. 😄


4) Osnove offline evaluacije - skupovi testova, oznake i neprivlačni detalji koji su važni 📦

Offline eval je mjesto gdje se provode kontrolirani testovi prije nego što korisnici išta dotaknu (obrasci tijeka rada: OpenAI Evals ).

Izradite ili prikupite testni set koji je zaista vaš

Dobar set testova obično uključuje:

  • Zlatni primjeri : idealni rezultati koje biste s ponosom isporučili

  • Rubni slučajevi : dvosmisleni upiti, neuredni unosi, neočekivano formatiranje

  • Sonde za neuspjeh : upute koje izazivaju halucinacije ili nesigurne odgovore (uokvirivanje testiranja rizika: NIST AI RMF 1.0 )

  • Raznolikost pokrivenosti : različite razine vještina korisnika, dijalekti, jezici, domene

Ako testirate samo na „čistim“ upitima, model će izgledati nevjerojatno. Tada će se vaši korisnici pojaviti s tipografskim greškama, polurečenicama i energijom bijesnog klikanja. Dobrodošli u stvarnost.

Izbori označavanja (tj. razine strogosti)

Izlazne podatke možete označiti kao:

  • Binarno : prolaz/pad (brzo, oštro)

  • Ordinalni : ocjena kvalitete 1-5 (nijansirano, subjektivno)

  • Višestruki atributi : točnost, potpunost, ton, korištenje citata itd. (najbolji, sporiji)

Višestruki atributi su idealna kombinacija za mnoge timove. To je kao da kušate hranu i procjenjujete slanost odvojeno od teksture. Inače samo kažete „dobro“ i slegnete ramenima.


5) Metrike koje ne lažu - i metrike koje donekle lažu 📊😅

Metrike su vrijedne... ali mogu biti i prava bomba s blještavim efektom. Sjajne su, posvuda i teško ih je očistiti.

Uobičajene metričke obitelji

  • Točnost / točno podudaranje : izvrsno za ekstrakciju, klasifikaciju, strukturirane zadatke

  • F1 / preciznost / prisjećanje : korisno kada je propuštanje nečega gore od dodatne buke (definicije: scikit-learn preciznost/prisjećanje/F-rezultat )

  • Preklapanje stila BLEU / ROUGE : u redu za zadatke sažimanja, često zavaravajuće (izvorne metrike: BLEU i ROUGE )

  • Ugrađivanje sličnosti : korisno za semantičko podudaranje, može nagraditi netočne, ali slične odgovore

  • Stopa uspješnosti zadatka : „je li korisnik dobio što mu je trebalo“ zlatni standard kada je dobro definirano

  • Usklađenost s ograničenjima : slijedi format, duljinu, valjanost JSON-a, pridržavanje sheme

Ključna točka

Ako je vaš zadatak otvorenog tipa (pisanje, zaključivanje, razgovor s podrškom), metrike s jednim brojem mogu biti... klimave. Ne besmislene, samo klimave. Mjerenje kreativnosti ravnalom je moguće, ali osjećat ćete se glupo dok to radite. (Također, vjerojatno ćete si iskopati oko.)

Dakle: koristite metrike, ali ih povežite s ljudskim pregledom i stvarnim ishodima zadatka (jedan primjer rasprave o evaluaciji temeljenoj na LLM-u + upozorenja: G-Eval ).


6) Tablica usporedbe - najbolje mogućnosti ocjenjivanja (s posebnostima, jer život ima svoje posebnosti) 🧾✨

Evo praktičnog izbornika pristupa evaluaciji. Kombinirajte i uskladite. Većina timova to radi.

Alat / Metoda Publika Cijena Zašto to funkcionira
Ručno izrađen paket promptova za testiranje Proizvod + inženjer $ Vrlo ciljano, brzo hvata regresije - ali morate to održavati zauvijek 🙃 (početni alati: OpenAI Evals )
Ploča za bodovanje prema ljudskim rubrikama Timovi koji mogu uštedjeti recenzente $$ Najbolje za ton, nijansu, „bi li čovjek ovo prihvatio“, blagi kaos ovisno o recenzentima
LLM-kao-sudac (s rubrikama) Brze iteracijske petlje $-$$ Brzo i skalabilno, ali može naslijediti pristranost i ponekad ocjenjuje vibracije, a ne činjenice (istraživanje + poznati problemi s pristranošću: G-Eval )
Sprint s protivničkim crvenim timom Sigurnost + usklađenost $$ Pronalazi pikantne načine kvara, posebno brzo ubrizgavanje - osjeća se kao test opterećenja u teretani (pregled prijetnji: OWASP LLM01 Brzo ubrizgavanje / OWASP Top 10 za LLM aplikacije )
Generiranje sintetičkih testova Timovi za osvježenje podataka $ Izvrsna pokrivenost, ali sintetički upiti mogu biti previše uredni, previše pristojni... korisnici nisu pristojni
A/B testiranje sa stvarnim korisnicima Zreli proizvodi $$$ Najjasniji signal - ujedno i emocionalno najstresniji kada se metrike mijenjaju (klasični praktični vodič: Kohavi i sur., „Kontrolirani eksperimenti na webu“ )
Eval utemeljen na pronalaženju (RAG provjere) Pretraživanje + aplikacije za osiguranje kvalitete $$ Mjere „ispravno koriste kontekst“, smanjuju inflaciju rezultata halucinacija (pregled RAG evaluacije: Evaluacija RAG-a: Anketa )
Praćenje + otkrivanje pomaka Proizvodni sustavi $$-$$$ S vremenom hvata degradaciju - nebljepljivo do dana kada vas spasi 😬 (pregled drifta: Concept drift survey (PMC) )

Imajte na umu da su cijene namjerno niske. Ovise o veličini, alatima i broju sastanaka koje slučajno pokrenete.


7) Ljudska evaluacija - tajno oružje koje ljudi nedovoljno financiraju 👀🧑⚖️

Ako radite samo automatsku evaluaciju, propustit ćete:

  • Neusklađenost tonova („zašto je tako sarkastično“)

  • Suptilne činjenične pogreške koje izgledaju tečno

  • Štetne implikacije, stereotipi ili nespretno fraziranje (rizik + pristranost: NIST AI RMF 1.0 )

  • Neuspjesi u slijeđenju uputa koji i dalje zvuče "pametno"

Učinite rubrike konkretnima (ili će recenzenti slobodno raditi)

Loša rubrika: „Korisnost“
Bolja rubrika:

  • Točnost : činjenično točno s obzirom na upit + kontekst

  • Potpunost : pokriva potrebne točke bez preklapanja

  • Jasnoća : čitljivo, strukturirano, minimalna zbrka

  • Pravila / sigurnost : izbjegava ograničeni sadržaj, dobro rješava odbijanje (sigurnosno uokviravanje: NIST AI RMF 1.0 )

  • Stil : odgovara glasu, tonu, razini čitanja

  • Vjernost : ne izmišlja izvore ili tvrdnje koje nisu potkrijepljene

Također, ponekad provedite međusobne provjere ocjenjivača. Ako se dva recenzenta stalno ne slažu, to nije „problem ljudi“, već problem rubrike. Obično (osnove pouzdanosti među ocjenjivačima: McHugh o Cohenovom kappa ).


8) Kako procijeniti AI modele za sigurnost, robusnost i "ugh, korisnici" 🧯🧪

Ovo je dio koji radite prije lansiranja - i nastavljate raditi, jer internet nikad ne spava.

Uključivanje testova robusnosti

  • Tipografske pogreške, sleng, loša gramatika

  • Vrlo dugi upiti i vrlo kratki upiti

  • Kontradiktorne upute („budite kratki, ali uključite svaki detalj“)

  • Višestruki razgovori u kojima korisnici mijenjaju ciljeve

  • Pokušaji brzog ubrizgavanja („ignoriraj prethodna pravila…“) (detalji prijetnje: OWASP LLM01 Brzo ubrizgavanje )

  • Osjetljive teme koje zahtijevaju pažljivo odbijanje (uokvirivanje rizika/sigurnosti: NIST AI RMF 1.0 )

Evaluacija sigurnosti nije samo "odbija li"

Dobar model bi trebao:

  • Jasno i smireno odbijte nesigurne zahtjeve (smjernice: NIST AI RMF 1.0 )

  • Omogućite sigurnije alternative kada je to prikladno

  • Izbjegavajte pretjerano odbijanje bezopasnih upita (lažno pozitivnih rezultata)

  • Obradite dvosmislene zahtjeve pojašnjavajućim pitanjima (kada je dopušteno)

Prekomjerno odbijanje je pravi problem s proizvodom. Korisnici ne vole da se prema njima postupa kao prema sumnjivim goblinima. 🧌 (Čak i ako su sumnjivi goblini.)


9) Trošak, latencija i operativna stvarnost - evaluacija koju svi zaboravljaju 💸⏱️

Model može biti „nevjerojatan“, a ipak biti pogrešan za vas ako je spor, skup ili operativno krhak.

Procijenite:

  • Raspodjela latencije (ne samo prosjek - p95 i p99 su važni) (zašto su percentili važni: Google SRE radna knjiga o praćenju )

  • Cijena po uspješnom zadatku (ne cijena po tokenu zasebno)

  • Stabilnost pod opterećenjem (vremenska ograničenja, ograničenja brzine, anomalni skokovi)

  • Pouzdanost pozivanja alata (ako koristi funkcije, ponaša li se)

  • Tendencije duljine izlaza (neki modeli su lutajući, a lutanje košta novca)

Nešto lošiji model koji je dvostruko brži može pobijediti u praksi. To zvuči očito, ali ljudi to ignoriraju. Kao da kupite sportski automobil za odlazak u trgovinu, a zatim se žalite na prostor u prtljažniku.


10) Jednostavan cjeloviti tijek rada koji možete kopirati (i prilagoditi) 🔁✅

Evo praktičnog tijeka za procjenu AI modela bez zaplinjavanja u beskrajne eksperimente:

  1. Definirajte uspjeh : zadatak, ograničenja, troškovi neuspjeha

  2. Napravite mali "osnovni" skup testova : 50-200 primjera koji odražavaju stvarnu upotrebu

  3. Dodajte rubne i suparničke skupove : pokušaje ubrizgavanja, dvosmislene upite, sigurnosne probe (klasa ubrizgavanja upita: OWASP LLM01 )

  4. Pokreni automatske provjere : formatiranje, valjanost JSON-a, osnovna ispravnost gdje je to moguće

  5. Pokrenite ljudski pregled : uzorci rezultata u svim kategorijama, ocjena pomoću rubrike

  6. Usporedite kompromise : kvaliteta vs. cijena vs. latencija vs. sigurnost

  7. Pilot u ograničenom izdanju : A/B testovi ili postupno uvođenje (vodič za A/B testiranje: Kohavi i dr. )

  8. Monitor u produkciji : pomak, regresije, petlje povratnih informacija korisnika (pregled pomaka: Anketa o pomaku koncepta (PMC) )

  9. Iteracija : ažuriranje upita, dohvaćanje, fino podešavanje, zaštitne ograde, a zatim ponovno pokretanje eval-a (obrasci iteracije eval-a: vodič za OpenAI eval-e )

Vodite zapise verzija. Ne zato što je zabavno, već zato što ćete u budućnosti biti zahvalni dok držite kavu i mrmljate "što se promijenilo..." ☕🙂


11) Uobičajene zamke (tj. načini na koje ljudi slučajno zavaravaju sami sebe) 🪤

  • Trening za testiranje : optimizirate upute dok benchmark ne izgleda sjajno, ali korisnici pate.

  • Propuštajući podaci evaluacije : upiti za testiranje pojavljuju se u podacima za obuku ili fino podešavanje (ups)

  • Obožavanje jedne metrike : jurnjava za jednim rezultatom koji ne odražava vrijednost za korisnika

  • Ignoriranje promjene distribucije : ponašanje korisnika se mijenja i vaš model se tiho degradira (uokviravanje rizika proizvodnje: Anketa o pomaku koncepta (PMC) )

  • Prekomjerno indeksiranje na "pametnosti" : pametno razmišljanje nije važno ako krši formatiranje ili izmišlja činjenice

  • Ne testira se kvaliteta odbijanja : "Ne" može biti točno, ali i dalje užasno korisničko iskustvo

Također, pripazite na demo snimke. Demo snimke su poput filmskih najava. Prikazuju najzanimljivije dijelove, skrivaju spore dijelove i povremeno lažu uz dramatičnu glazbu. 🎬


12) Završni sažetak o tome kako procijeniti AI modele 🧠✨

Evaluacija AI modela nije pojedinačni rezultat, to je uravnotežen obrok. Trebaju vam proteini (ispravnost), povrće (sigurnost), ugljikohidrati (brzina i cijena) i da, ponekad desert (ton i užitak) 🍲🍰 (uokvirivanje rizika: NIST AI RMF 1.0 )

Ako se ne sjećate ničega drugog:

  • Definirajte što znači "dobro" za vaš slučaj upotrebe

  • Koristite reprezentativne skupove testova, ne samo poznate referentne vrijednosti

  • Kombinirajte automatizirane metrike s pregledom ljudskih rubrika

  • Testirajte robusnost i sigurnost kao da su korisnici suparnički nastrojeni (jer ponekad... jesu) (klasa brzog ubrizgavanja: OWASP LLM01 )

  • Uključite troškove i latenciju u evaluaciju, a ne kao naknadnu misao (zašto su percentili važni: Google SRE Workbook )

  • Praćenje nakon lansiranja - modeli se mijenjaju, aplikacije se razvijaju, ljudi postaju kreativni (pregled promjene: Anketa o konceptualnoj promjeni (PMC) )

Tako se procjenjuju AI modeli na način koji će izdržati kada je vaš proizvod aktivan i ljudi počnu raditi nepredvidive stvari. Što je uvijek slučaj. 🙂

Često postavljana pitanja

Koji je prvi korak u procjeni AI modela za stvarni proizvod?

Započnite definiranjem što znači „dobro“ za vaš specifični slučaj upotrebe. Definirajte cilj korisnika, koliko vas koštaju neuspjesi (niski ulozi naspram visokih) i gdje će se model pokretati (oblak, na uređaju, regulirano okruženje). Zatim navedite stroga ograničenja poput latencije, troškova, privatnosti i kontrole tona. Bez ove osnove, puno ćete mjeriti i ipak donijeti lošu odluku.

Kako mogu izraditi skup testova koji istinski odražava moje korisnike?

Izradite skup testova koji je istinski vaš, a ne samo javni benchmark. Uključite zlatne primjere koje biste s ponosom objavili, plus bučne, nestandardne upute s tipografskim greškama, polurečenicama i dvosmislenim zahtjevima. Dodajte rubne slučajeve i sonde za neuspjeh koje izazivaju halucinacije ili nesigurne odgovore. Pokrijte raznolikost u razinama vještina, dijalektima, jezicima i domenama kako rezultati ne bi upali u produkciji.

Koje metrike trebam koristiti, a koje mogu biti obmanjujuće?

Uskladite metrike s vrstom zadatka. Točno podudaranje i točnost dobro funkcioniraju za ekstrakciju i strukturirane izlaze, dok preciznost/podsjećanje i F1 pomažu kada je propuštanje nečega gore od dodatnog šuma. Metrike preklapanja poput BLEU/ROUGE mogu zavarati za zadatke otvorenog tipa, a ugrađivanje sličnosti može nagraditi „pogrešne, ali slične“ odgovore. Za pisanje, podršku ili zaključivanje kombinirajte metrike s ljudskim pregledom i stopama uspjeha zadataka.

Kako bih trebao strukturirati evaluacije da budu ponovljive i produkcijske kvalitete?

Čvrst okvir za evaluaciju je ponovljiv, reprezentativan, višeslojan i praktičan. Kombinirajte automatizirane provjere (format, valjanost JSON-a, osnovna ispravnost) s bodovanjem prema ljudskim rubrikama i kontradiktornim testovima. Učinite ga otpornim na neovlaštene izmjene izbjegavanjem curenja i "učenjem na test". Vodite računa o troškovima evaluacije kako biste je mogli često ponavljati, ne samo jednom prije lansiranja.

Koji je najbolji način za ljudsku evaluaciju bez da se to pretvori u kaos?

Koristite konkretnu rubriku kako recenzenti ne bi previše improvizirali. Ocijenite atribute poput točnosti, potpunosti, jasnoće, sigurnosti/vođenja pravila, stila/podudaranja stila i vjernosti (ne izmišljanja tvrdnji ili izvora). Povremeno provjeravajte slaganje među ocjenjivačima; ako se recenzenti stalno ne slažu, rubriku vjerojatno treba poboljšati. Ljudski pregled posebno je vrijedan za neusklađenost tona, suptilne činjenične pogreške i propuste u slijeđenju uputa.

Kako procijeniti sigurnost, robusnost i rizike brzog injektiranja?

Testirajte s unosima tipa "ugh, korisnici": tipografske pogreške, sleng, konfliktne upute, vrlo dugi ili vrlo kratki upiti i višestruke promjene ciljeva. Uključite pokušaje ubrizgavanja upita poput "ignoriraj prethodna pravila" i osjetljive teme koje zahtijevaju pažljivo odbijanje. Dobra sigurnosna izvedba nije samo odbijanje - to je jasno odbijanje, nuđenje sigurnijih alternativa kada je to prikladno i izbjegavanje pretjeranog odbijanja bezopasnih upita koji štete korisničkom iskustvu.

Kako mogu procijeniti trošak i latenciju na način koji odgovara stvarnosti?

Nemojte mjeriti samo prosjeke - pratite distribuciju latencije, posebno p95 i p99. Procijenite trošak po uspješnom zadatku, a ne trošak po tokenu zasebno, jer ponovni pokušaji i nepredvidivi rezultati mogu izbrisati uštede. Testirajte stabilnost pod opterećenjem (vremenska ograničenja, ograničenja brzine, skokovi) i pouzdanost poziva alata/funkcija. Nešto lošiji model koji je dvostruko brži ili stabilniji može biti bolji izbor proizvoda.

Koji je jednostavan cjeloviti tijek rada za procjenu AI modela?

Definirajte kriterije uspjeha i ograničenja, a zatim stvorite mali osnovni skup testova (otprilike 50–200 primjera) koji odražava stvarnu upotrebu. Dodajte rubne i suparničke skupove za sigurnost i pokušaje ubrizgavanja. Pokrenite automatizirane provjere, a zatim uzorkujte izlaze za bodovanje prema ljudskim rubrikama. Usporedite kvalitetu s troškovima s latencijom i sigurnošću, provedite pilot-projekt s ograničenim uvođenjem ili A/B testiranjem te pratite u produkciji pomicanje i regresije.

Koji su najčešći načini na koje se timovi slučajno zavaravaju prilikom evaluacije modela?

Uobičajene zamke uključuju optimiziranje uputa za postizanje visokih standarda dok korisnici pate, prenošenje uputa za evaluaciju u podatke za obuku ili fino podešavanje te obožavanje jedne metrike koja ne odražava vrijednost za korisnika. Timovi također ignoriraju promjenu distribucije, previše indeksiraju na "pametnost" umjesto na usklađenost s formatom i vjernost te preskaču testiranje kvalitete odbijanja. Demo verzije mogu sakriti ove probleme, stoga se oslanjajte na strukturirane evaluacije, a ne na istaknute video zapise.

Reference

  1. OpenAI - Vodič za procjenu OpenAI -a - platform.openai.com

  2. Nacionalni institut za standarde i tehnologiju (NIST) - Okvir za upravljanje rizicima umjetne inteligencije (AI RMF 1.0) - nist.gov

  3. OpenAI - openai/evals (GitHub repozitorij) - github.com

  4. scikit-learn - za precizno_otkazivanje_fscore - scikit-learn.org

  5. Udruženje za računalnu lingvistiku (ACL Antologija) - BLEU - aclanthology.org

  6. Udruženje za računalnu lingvistiku (ACL antologija) - ROUGE - aclanthology.org

  7. arXiv - G-Eval - arxiv.org

  8. OWASP - LLM01: Brzo ubrizgavanje - owasp.org

  9. OWASP - OWASP Top 10 za aplikacije velikih jezičnih modela - owasp.org

  10. Sveučilište Stanford - Kohavi i dr., „Kontrolirani eksperimenti na webu“ - stanford.edu

  11. arXiv - Evaluacija RAG-a: Anketa - arxiv.org

  12. PubMed Central (PMC) - Istraživanje konceptualnog drifta (PMC) - nih.gov

  13. PubMed Central (PMC) - McHugh o Cohenovoj kappi - nih.gov

  14. Google - SRE Radna knjiga o praćenju - google.workbook

Pronađite najnoviju umjetnu inteligenciju u službenoj trgovini AI Assistant

O nama

Natrag na blog