Dom Audio W jaki sposób Max Pooling sprawia, że ​​AlexNet jest świetną technologią do przetwarzania obrazów?

W jaki sposób Max Pooling sprawia, że ​​AlexNet jest świetną technologią do przetwarzania obrazów?

Anonim

P:

W jaki sposób maksymalne buforowanie pomaga uczynić AlexNet doskonałą technologią przetwarzania obrazu?

ZA:

W AlexNet, innowacyjnej splotowej sieci neuronowej, koncepcja maksymalizacji puli jest wprowadzana do złożonego modelu z wieloma warstwami splotowymi, częściowo w celu ułatwienia dopasowania i usprawnienia pracy sieci neuronowej podczas pracy z obrazami, które nazywają eksperci „nieliniowa strategia próbkowania w dół”.

AlexNet jest powszechnie uważany za całkiem świetny CNN, wygrywając 2012 ILSVRC (ImageNet Large-Scale Visual Recognition Challenge), które jest postrzegane jako przełomowe wydarzenie dla uczenia maszynowego i postępu sieci neuronowej (niektórzy nazywają to „olimpiadą” komputerowego widzenia ).

W ramach sieci, w której szkolenie jest podzielone na dwa procesory graficzne, istnieje pięć warstw splotowych, trzy warstwy w pełni połączone i niektóre implementacje maksymalizacji puli.

Zasadniczo maksymalne łączenie pobiera „pulę” wyników z kolekcji neuronów i stosuje je do wartości kolejnej warstwy. Innym sposobem na zrozumienie tego jest to, że podejście maksymalnego łączenia może skonsolidować i uprościć wartości w celu lepszego dopasowania modelu.

Maksymalne buforowanie może pomóc w obliczeniu gradientów. Można powiedzieć, że „zmniejsza obciążenie obliczeniowe” lub „zmniejsza nadmierne dopasowanie” - poprzez próbkowanie w dół maksymalne łączenie angażuje tak zwaną „redukcję wymiarowości”.

Redukcja wymiarów dotyczy problemu posiadania skomplikowanego modelu, który jest trudny do uruchomienia przez sieć neuronową. Wyobraź sobie złożony kształt z wieloma małymi postrzępionymi konturami, a każdy kawałek tej linii jest reprezentowany przez punkt danych. Dzięki redukcji wymiarów inżynierowie pomagają programowi uczenia maszynowego „oddalać” lub próbkować mniej punktów danych, aby model był prostszy. Dlatego jeśli spojrzysz na maksymalną warstwę puli i jej wynik, czasem możesz zobaczyć prostsze pikselowanie odpowiadające strategii redukcji wymiarów.

AlexNet wykorzystuje również funkcję zwaną rektyfikowanymi jednostkami liniowymi (ReLU), a maksymalne tworzenie pul może uzupełniać tę technikę w przetwarzaniu obrazów za pośrednictwem CNN.

Eksperci i osoby zaangażowane w projekt dostarczyły bogate modele wizualne, równania i inne szczegóły, aby pokazać konkretną budowę AlexNet, ale w ogólnym sensie można myśleć o maksymalnym łączeniu jako koalescencji lub konsolidacji wyników wielu sztucznych neuronów. Strategia ta jest częścią ogólnej wersji CNN, która stała się synonimem najnowocześniejszego obrazu maszynowego i klasyfikacji obrazów.

W jaki sposób Max Pooling sprawia, że ​​AlexNet jest świetną technologią do przetwarzania obrazów?