Co je overfitting/underfitting a jak funguje?

14.12.2022 / Daniel Pojhan / Umělá Inteligence

O jakém jevu tady vůbec plánuji mluvit? A k čemu je nám dobré tyto jevy znát? I přesto, že se statistice nebo umělé inteligenci nevěnujete, a ani neplánujete věnovat, tento jev se vyskytuje ve spoustě příkladů z reálného světa.

Kde se vyskytují?

Tyto jevy se objevují když se snažíme natrénovat nějaký „chytrý“ algoritmus (neuronovou síť, algoritmus strojového učení, atd.). Stejně jako lidi, i tyto algoritmy se mohou jaksi špatně naučit na trénovacích datech. Pak můžou vzniknout právě tyto dva jevy.

Zdroj: https://www.kaggle.com/code/ryanholbrook/overfitting-and-underfitting

Zde na grafu je zachycen trénovací proces „typického chytrého“ algoritmu strojového učení. A taky zde dovysvětlím pár pojmů:

Epochs – počet epoch které algoritmus provede (1 Epocha – situace, za které algoritmus projde celý trénovací dataset).
Early Stopping – Optimalizační technika která sníží možnost overfitování na datasetu, bez toho aby snížila přesnost modelu.
Loss – ztráta, resp. metrika ve které se měří přesnost modelu (čím nižší ztráta, tím líp!).
Validation & Training – dva různé datasety, každý slouží k něčemu jinému, např. Training dataset slouží k natrénování samotného modelu, zatímco Validation dataset slouží k validaci (vyhodnocení) tohoto modelu

Nutno podotknouti (k validation a training dataset), že u trénovacího datasetu se ztráta snižuje, zatímco u validace může narůstat, to je první známka Overfittování!

Underfitting

Underfitting (v češtině podtrénování), je situace, ve které se model nedokáže naučit tak dobře souvislost mezi daty, a tak je začne predikovat špatně (model plně nepochopí data) a tím má zbytečně velkou ztrátu a malou přesnost.

Tohle se například dá vidět při použití lineární regrese na nelineární data (obrázek pod tímto odstavcem). Model se nedokázal plně naučit vztahy mezy jednotlivými daty a díky tomu se vlastně naučil špatně. Zde ale bohužel u lineární regrese nic nezmůžeme, protože rovnice má předpis y = ax + b, a jediný měnitelný parametr je parametr a – který pouze ovlivňuje náklon, b – pouze ovlivňuje posunutí na y souřadnici. K tomu abychom dosáhli větší přesnosti, musíme použít napříkad Polynomiální regresi.

Overfitting

Overfitting (v češtině přeučení), jak už název sám napovídá, tento jev bude způsoben tím že se náš chytrý algoritmus přeučí na něčem, tím pádem bude hledat až moc souvislostí mezi datem, a místo aby zanedbával odchylky (a generalizoval), tak má tendenci započítat všechny veličiny tak aby zmenšil ztrátu a tím dostaneme naprosto nekvalitní algoritmus.

Berme třeba náš příklad s lineární regresí, dejme tomu že jsme zvolili polynomiální regresi, ale máme ji na datech s velkým šumem. Obrázek dole nám to dost dobře ukazuje.

Jak proti tomuhle bojovat?

Tak u underfittování je to lehké, stačí buď změnit algoritmus (použít složitější), změnit omezení které mu dáváme, a nebo upravit trénovací parametry (počet epoch, ztrátovou funkci, optimizátor)

U overfittování je to složitější, a zde jsou možnosti, jak tomu předejít:

Více dat: čím více dat budeme mít, tím více bude muset model generalizovat, a díky tomu upustí od overfittování (samozřejmě se to nesmí přehánět), u problému klasifikace pak musíme dávat pozor abychom brali data která jsou doopravdy reprezentativní pro svoji třídu

Augmentace dat: tento pojem vysvětlím velmi jednoduše, prakticky v této části se snažíme, aby se model podíval na data jiným způsobem (u detekce objektů v obrázku například přidáváme obrázky které jsou jen přetočené nebo přeškálované, aby se algoritmus naučil jiný typ dat)

Přidání více hluku k datům: Tento způsob nebude tak dobře fungovat u polynomiální regrese, kde je pak stále velká možnost přeučení. Zároveň zde snižujeme přesnost modelu.

Cross-validace: Dataset bude rozdělen do částí, na kterých se bude model iterativně trénovat a z toho se následně upraví parametry (velmi efektivní a robustní metoda)

Regularizace: Znemožníme modelu zvolit jisté extrémní parametry tak, že mu nastavíme limity parametrů (limit, do kterého jde hodnota parametru nastavit)

Early stopping: Modelu nastavíme brzké stopnutí, tak aby se dál netrénoval. A díky tomu nepřetrénoval (toto jde vidět na 1. obrázku, kde je přímka označující mez early stoppingu)

Mladý energický a nadějný mladý muž se zářivým úsměvem

Daniel Pojhan

Víc o autorovi...

StuPa

Beseda o Dezinformacích
Zdroj: https://www.instagram.com/parlament.pk/?hl=cs
Dezinformací mezi námi přibývá. Jak se v nich vyznat a jak se jim vyhnout?
Bohumil nebo Bob Kartous pracoval ve Sciu nebo EDUin a teď učí na vysoké škole. Mimo to je mluvčím anonymní skupiny Čeští elfové, která má za cíl „boj s internetovými trolly, kteří šíří dezinformace a proruskou propagandu“
Petr Nutil je žurnalista. Spoluzaložil web Manipulátoři.cz, který se zabývá především vyvracením hoaxů a mezitím stíhá malovat, psát knihy a podílet se na politických kampaních.
Tihle dva se dali dohromady a ve čtvrtek 25. května přijedou do Plzně, aby se s námi studenty bavili o dezinformacích. Beseda začíná v 9:00 a každý zúčastněný bude mít omluvenou absenci u školy

Kdy? čtvrtek 25. 5. 2023 od 9:00
Kde? ve vekém sále radovánku na adrese Pallova 52/19, Plzeň
Jak? Pro více informací kontaktujte Ondru Zábrana (7. E)

Další StuPa

Mohlo by vás zajímat

Vítězové ankety čtvrtečního maškarní
Čtvrtečního maškarní se účastnilo okolo pěti kostýmů! I přesto, že to může znít jako malé číslo, se nám povedlo získat 71 hlasů. Děkujeme moc všem respondentům a soutěžícím za zpětnou vazbu!
Finální výsledky ankety
Gratulujeme vítězovi soutěže, Lukášovi Hromovi, který získal okolo 41 hlasů. Zde ho pak velmi těsně následoval tým Piloti. Na 3. místě pak končí tým Teletubbies.
Mám problém se svým zadkem
Celý svůj život utíkám před svým zadkem. Ale opravdu, nedělám si legraci. Můj zadek mě pronásleduje už od narození. Sotva jsem spatřil světlo světa, přisál se na mě jako klíště. A než jsem tomu stihl zabránit, nacucal se, zvětšil se a teď mi překáží a představuje pro mě řadu problémů. Někdy je to ale můj pomocník.
Rád bych se těm problémům postavil čelem, kdyby to šlo, jenže můj zadek je prostě tak velký, že se těm problémům musím postavit jím napřed. Proráží mi cestu. A nejen to, moje naducané půlky odráží problémy, jako kdyby skákaly na trampolíně. Je to takový můj anděl strážný, jen s tím rozdílem, že za mnou chodí, protože je tak těžký, že by se nevznesl. A proto mu ani křídla nenarostla.
Můj zadek přitahuje pohledy hned, jakmile vejdu do místnosti. Je totiž tak objemný, že má vlastní gravitační pole a jeho přitažlivosti se nedá utéct. Říkám si, kdo se může chlubit tak dokonalým zadkem?
V potravinách si jakživ musím dávat velký pozor, a to nejen, abych svým zadkosvalem nepřevrátil celý regál, ale také abych někoho ve frontě u pásu nezranil. Často na mě důchodci páchají atentáty pomocí vozíků a bezhlavě do mě najíždí, když se snaží prodrat až ke kase. Chraň mě ruka Páně, abych sebeobraným chvatem nenarazil do nějakého z těch staříků svým zadkem, jelikož by pak nejspíše hrozilo mé zatčení. Nevlastním na svou zadnici zbrojní průkaz.
Ať se snažím jak chci, mám svůj zadek v patách (obrazně řečeno, ještě nikdy jsem totiž nikoho se zadkem na patách neviděl a upřímně jsem rád, že nejsem první exemplář). Ale neměl bych si na něj příliš stěžovat, byl jediný, kdo mě nikdy neopustil, ani v těžkých chvílích. Byl se mnou, když jsem před několika lety šplhal na Gerlachovský štít v bouřce, když jsem v listopadu zjistil že jsem neplodný, když jsem prohrál celý tiket ve sportce, nebo když mi přítelkyně minulý týden oznámila, že je těhotná. Zkrátka tu pro mě byl i v situacích, které člověka takzvaně „posadí na prdel“. Tedy neřekl bych, že to byla posazení, ale spíše rovnou pády. Naštěstí mě to nikdy nebolelo, když je můj zadek tak dobře odpružený. Je to hrozná výhoda, je to můj měkoučký polštářek.
Zadek je nejlepší přítel člověka, nikdy nás totiž neopouští, jak už jsem za ta léta neustálého prchání před ním zjistil. A jsem za něj rád.
Kdo se skrývá pod hroší kůží nebojácného Berana?
Živel: Oheň
Planeta: Mars
Barva: Červená
Povaha: Mužská
Opačné znamení: Váhy
Charakteristika Berana
Znáte člověka, který je energický, veselý a má pevný stisk ruky? Pak víte, s kým máte tu čest. Jde o člověka, který se o vás bude zajímat, ať je vám to příjemné nebo ne a pravděpodobně budete mít problém prosadit se při konverzaci. Kdykoliv budete chtít slyšet jeho názor, můžete si být jisti, že k vám bude vždy upřímný a nebude vám ho říkat se zvláštní opatrností. Toto znamení jde dopředu a nenchá se ovlivnit emocemi. Zvášť když jde o jakýkoliv druh konfliktu. Pak víte, že s Beranem není radno vyjednávat, nenechá vás, půjde rovnou k věci. Nebude brát v potaz, že by vás vyjádřením svého názoru mohl zranit, vlastně to nejspíš ani nepochopí. Postavení Berana ve zvěrokruhu má své opodstatnění, stojí hned na začátku a představuje zrození. Lze v jeho chování pozorovat dětské rysy, je zaujatý sám sebou a svými potřebami. Obdivuje sám sebe a jakoukoliv nespokojenost dá hlasitě najevo.
Zdroj: https://trimakasi.cz/beran/
Je Beran vážně tak tvrdohlavý?
Neděste se však Beranovým přímočarým chováním. Uvnitř tuhé skořápky se skrývá malé vystrašené dítě, kterému záleží na nemohoucích a utlačovaných lidech. On vám svůj příliš upřímný názor na vás poví, ale jakmile se pokusíte mu to oplatit stejným způsobem, pravděpodobně se před vámi složí jako domeček z karet. Uvnitř je naopak velmi zranitelný. Bezmocný však ne. Kdykoliv se mu něco nelíbí, křičí z plných plic, aby zastrašil lidi kolem sebe. Ovšem když zklamete jeho důvěru, bude slzy dusit uvnitř. Jestliže jste někdy viděli Berana plakat, pak víte, že ho něco zranilo do hloubi duše.
Zdroj: https://www.womenshealthmag.com/life/a31480904/aries-zodiac-sign-traits/
Vzhled
Co se týče vzhledu, není nijak obtížné rozpoznat Berana. Jejich rysy jsou ostré, málokdy jemné. Jejich pokložka bává tmavší a prokrvenější. Pohybují se s rozhodností a rychlostí, ostatně jako malé děti. Lze si u nich povšimnout širších ramen, která mají nachýlená směrem dopředu a skoro vždy spěchají. To aby byli připraveni prorazit zeď a nepolámali si rohy. Z postavení jejich těla jasně vyzařuje vysoké ego a nadřazenost. Ovšem najdou se taktéž Berani se shrbenými rameny, bývají to lidé, kteří v mládí dostali obrovskou ránu, která je stále sužuje, ale nebojte, jednou se napřímí.
Zdroj: https://cz.pinterest.com/pin/465489311468280378/
Se kterými znameními si Beran obzvláště rozumí?
Lev – jelikož je Lev taktéž ohnivé znamení, s Beranem, si bude obzvlášť rozumět. Společně tvoří silný pár, který v harmonickém vztahu dokáže dosáhnout všeho.
Střelec – protože Střelec je další ohnivé znamení, ve spojení s Beranem budou tvořit energický pár a seznam jejich společných plánů se bude rozšiřovat. Tiuhle dva se spolu rozhodně nudit nebudou.
Vodnář – tihle dva se hledali, až se našli. Jsou pro sebe jako spřízněné duše, oba dva jsou extroverti, takže jejich vztah bude velmi dynamický.
Blíženec – tento pár si bude užívat života naplno, jsou si velmi podobní, takže se spolu nikdy nebudou nudit. Beran pracuje fyzicky, Blíženec je naopak velmi výřečný. Společně tvoří skvělý pár.
Známé osobnosti ve znamení Berana
- Keira Knightly
- Lady Gaga
- Robert Downey Jr.
- Sarah Jessica Parker
- Quentin Tarantino
- Kristen Stewart
- Nikita Chruščov
- Charles Chaplin
- Lucie Borhyová
- Zdeněk Svěrák
- Michal Viewegh
- Karel Kryl
- Lucie Bílá
- Iveta Bartošová
- Eva Urbanová
- Dagmar Havlová