Dom Audio W jaki sposób zgarnianie danych w uczeniu maszynowym stało się najbardziej pracochłonnym wąskim gardłem od czasu ręcznego wprowadzania danych w starszej migracji?

W jaki sposób zgarnianie danych w uczeniu maszynowym stało się najbardziej pracochłonnym wąskim gardłem od czasu ręcznego wprowadzania danych w starszej migracji?

Anonim

P:

W jaki sposób zgarnianie danych w uczeniu maszynowym stało się najbardziej pracochłonnym wąskim gardłem od czasu ręcznego wprowadzania danych w starszej migracji?

ZA:

Jednym z praktycznych problemów, jakie mogą napotkać firmy podczas próby uruchomienia projektu uczenia maszynowego (ML), jest wyzwanie związane z uzyskaniem wstępnych zestawów danych szkoleniowych. Może to obejmować pracochłonne procesy, takie jak usuwanie danych z sieci lub inne dane.

Pojęcia skrobanie sieci i skrobanie danych w dużej mierze odnoszą się do zautomatyzowanej aktywności oprogramowania komputerowego, ale w przypadku wielu projektów ML będą przypadki, w których komputery nie będą miały wyrafinowanego sposobu gromadzenia odpowiednich ukierunkowanych danych, więc trzeba będzie to zrobić "ręcznie." Można to nazwać „skrobaniem sieci / danych przez ludzi” i jest to niewdzięczna praca. Zazwyczaj obejmuje wyjście i poszukiwanie danych lub obrazów w celu „karmienia” programu ML poprzez zestawy szkoleniowe. Często jest dość iteracyjny, co sprawia, że ​​jest to żmudna, powolna, wymagająca praca.

Bezpłatne pobieranie: Uczenie maszynowe i dlaczego to ma znaczenie

Skrobanie danych dla zestawów szkoleniowych ML stanowi wyjątkowo problematyczne wąskie gardło w uczeniu maszynowym, częściowo dlatego, że tak duża część pozostałej pracy jest wysoce konceptualna i nie jest powtarzalna. Wiele osób może wymyślić świetny pomysł na nową aplikację, która wykonuje zadania uczenia maszynowego, ale nakrętki i śruby oraz praktyczna praca mogą być znacznie trudniejsze. W szczególności delegowanie pracy nad zestawami szkoleniowymi może być jedną z najtrudniejszych części projektu ML, co zostało w pełni zbadane w programie telewizyjnym Mike'a Judge'a „Dolina Krzemowa”. W odcinku czwartym sezon początkujący przedsiębiorca najpierw nęka partnera, który wykonuje pracochłonną pracę, a następnie próbuje przekazać to studentom, ukrywając to jako zadanie domowe.

Ten przykład jest pouczający, ponieważ pokazuje, jak nielubiane i pozornie nieważne jest ręczne usuwanie danych. Jednak pokazuje również, że proces ten jest niezbędny w przypadku szerokiej gamy produktów uczenia maszynowego. Chociaż większość ludzi nie lubi wprowadzania danych, zestawy szkoleniowe muszą być w jakiś sposób zestawiane. Eksperci zajmujący się tym procesem często zalecają korzystanie z usługi skrobania stron internetowych - w zasadzie po prostu zlecają tę bardzo pracochłonną pracę podmiotom zewnętrznym, ale może to mieć konsekwencje dla bezpieczeństwa i powodować inne problemy. Przy utrzymywaniu ręcznego gromadzenia danych we własnym zakresie należy wprowadzić przepis, który jest często bardzo ręcznym i czasochłonnym procesem.

Pod pewnymi względami „skrobanie danych ludzkich” w uczeniu maszynowym przypomina ręczne wprowadzanie danych, które czasami trzeba było wykonać w przypadku migracji starszej wersji. Ponieważ chmura staje się coraz bardziej popularna, a firmy umieszczają swoje procesy i przepływy pracy w chmurze, niektórzy stwierdzili, że nie przepracowali praktycznych aspektów, jak przenieść swoje dane firmowe z izolowanego starszego systemu do aplikacji natywnych dla chmury. W rezultacie niektóre osoby, które w innym przypadku były badaczami danych lub osobami kreatywnymi o niezbędnych umiejętnościach informatycznych, wykonały nieprzyjemne zadania wprowadzania danych.

To samo może się wydarzyć w przypadku uczenia maszynowego. Możesz usłyszeć, jak naukowiec narzeka, że ​​„jestem osobą kreatywną” lub „jestem po stronie programistycznej” - ale ktoś musi wykonać brudną robotę.

Ponownie, jeśli przepływowi kreacji nie odpowiada praktyczna ocena delegowania przepływu pracy, niedopasowane będzie kierowanie obsługą zadań. Kiedy firma nie ma ludzi, którzy zajmowaliby się skrobaniem danych przy zbieraniu zestawów danych, brakuje kluczowej części łańcucha procedur dla udanego projektu. Warto o tym pamiętać za każdym razem, gdy firma próbuje zrealizować pomysł oparty na opracowywaniu nowych aplikacji do uczenia maszynowego.

W jaki sposób zgarnianie danych w uczeniu maszynowym stało się najbardziej pracochłonnym wąskim gardłem od czasu ręcznego wprowadzania danych w starszej migracji?