P:
Jaki jest prosty sposób opisania błędu i wariancji w uczeniu maszynowym?
ZA:Istnieje wiele skomplikowanych sposobów opisania stronniczości i wariancji w uczeniu maszynowym. Wiele z nich wykorzystuje znacznie złożone równania matematyczne i pokazuje poprzez wykres, w jaki sposób konkretne przykłady reprezentują różne wielkości zarówno stronniczości, jak i wariancji.
Oto prosty sposób opisania błędu systematycznego, wariancji i kompromisu / wariancji w uczeniu maszynowym.
U podstaw tendencyjność jest nadmiernym uproszczeniem. Ważne może być dodanie do definicji błędu wstępnego pewnych założeń lub założonego błędu.
Jeśli wysoce stronniczy wynik nie byłby błędny - jeśli dotyczyłby pieniędzy - byłby bardzo dokładny. Problem polega na tym, że model uproszczony zawiera pewien błąd, więc nie trafia w dziesiątkę - znaczny błąd ciągle się powtarza, a nawet wzmacnia, gdy działa program uczenia maszynowego.
Prosta definicja wariancji polega na tym, że wyniki są zbyt rozproszone. Prowadzi to często do nadmiernej złożoności programu i problemów między zestawami testowymi i szkoleniowymi.
Duża wariancja oznacza, że niewielkie zmiany powodują wielkie zmiany w wynikach lub wynikach.
Innym sposobem na proste opisanie wariancji jest to, że w modelu występuje zbyt dużo hałasu, dlatego program uczenia maszynowego staje się trudniejszy do wyodrębnienia i zidentyfikowania rzeczywistego sygnału.
Jednym z najprostszych sposobów porównania uprzedzeń i wariancji jest zasugerowanie, że inżynierowie uczenia maszynowego muszą rozróżnić cienkie granice między zbyt dużym odchyleniem lub nadmiernym uproszczeniem a zbyt dużą wariancją lub nadmierną złożonością.
Innym sposobem na przedstawienie tej studni jest czterokwadrantowa tabela pokazująca wszystkie kombinacje wariancji wysokiej i niskiej. W kwadrancie o niskim odchyleniu / niskiej wariancji wszystkie wyniki są zebrane w dokładną grupę. W wyniku wysokiego odchylenia / niskiej wariancji wszystkie wyniki są zebrane razem w niedokładnym klastrze. W wyniku niskiego odchylenia / wysokiej wariancji wyniki są rozproszone wokół centralnego punktu, który reprezentowałby dokładną grupę, natomiast w wyniku wysokiego odchylenia / wysokiej wariancji punkty danych są zarówno rozproszone, jak i zbiorowo niedokładne.