Siła sugestii: w jaki sposób katalog danych umożliwia analitykom

2026

Przez Techopedia Staff, 22 czerwca 2016 r

Na wynos: Host Rebecca Jozwiak omawia zalety katalogów danych z Dezem Blanchfieldem, Robin Bloor i Davidem Crawfordem.

Musisz zarejestrować się na to wydarzenie, aby obejrzeć wideo. Zarejestruj się, aby zobaczyć wideo.

Rebecca Jóźwiak: Panie i panowie, witam i witamy w Hot Technologies 2016. Dziś mamy: „The Power of Sugestie: How a Data Data Empowers Analysts”. Jestem twoją gospodarzem Rebecca Jozwiak, zastępując naszego zwykłego gospodarza Erica Dzisiaj Kavanagh, kiedy podróżuje po świecie, dziękuję za przyłączenie się do nas. Ten rok jest gorący, nie tylko w Teksasie, gdzie jestem, ale wszędzie jest gorąco. Pojawia się eksplozja wszelkiego rodzaju nowych technologii. Mamy Internet Rzeczy, przesyłanie strumieniowe danych, adopcję w chmurze, Hadoop nadal dojrzewa i jest adoptowany. Mamy automatyzację, uczenie maszynowe, a wszystkie te rzeczy są oczywiście podkreślone przez dane. A przedsiębiorstwa stają się coraz bardziej napędzane danymi z dnia na dzień. I oczywiście chodzi o to, aby prowadzić do wiedzy i odkryć oraz, wiesz, podejmować lepsze decyzje. Ale aby naprawdę jak najlepiej wykorzystać dane, dostęp do nich musi być łatwy. Jeśli trzymasz je zamknięte, zakopane lub w mózgu kilku osób w przedsiębiorstwie, nie przyniesie to wiele dobrego całemu przedsiębiorstwu.

Zastanawiałem się nad katalogowaniem danych i oczywiście bibliotekami, gdzie już dawno temu poszedłeś, jeśli chciałeś coś znaleźć, jeśli chciałeś zbadać temat lub poszukać informacji, poszedłeś do biblioteki, i oczywiście poszedłeś do katalogu kart lub krabowskiej pani, która tam pracowała. Ale fajnie było też wędrować po okolicy, jeśli po prostu chciałeś się rozejrzeć i na pewno odkryłeś coś fajnego, możesz dowiedzieć się kilku interesujących faktów, których nie znasz, ale jeśli naprawdę musisz coś znaleźć i wiedziałeś, czego szukasz, potrzebowałeś katalogu kart, i oczywiście odpowiednikiem przedsiębiorstwa jest katalog danych, który może pomóc rzucić światło na wszystkie dane, aby nasi użytkownicy mogli wzbogacać, odkrywać, udostępniać, konsumować i naprawdę pomagać ludzie uzyskują dostęp do danych szybciej i łatwiej.

Więc dzisiaj mamy Deza Blanchfielda, naszego własnego naukowca danych, i mamy doktora Robina Bloora, naszego głównego analityka, mamy Davida Crawforda z Alation, który będzie mówił o historii katalogowania danych swojej firmy, ale najpierw będziemy prowadzić z Dez. Dez, podaję ci piłkę, a podłoga jest twoja.

Dez Blanchfield: Dziękuję, dziękuję za dzisiejsze przyjęcie. Bardzo mnie to interesuje, ponieważ prawie w każdej organizacji, z którą spotykam się w mojej codziennej pracy, znajduję dokładnie ten sam problem, o którym mówiliśmy bardzo krótko w żartach przed wystawą, i to jest to, że większość organizacji, które działają od kilku lat, ma mnóstwo danych ukrytych w organizacji, różne formaty, a tak naprawdę mam klientów, którzy mają zestawy danych, które sięgają do Lotus Notes, baz danych, które nadal działają w niektórych przypadki jako ich pseudo-internety, a oni wszyscy napotykają na to wyzwanie polegające na tym, aby faktycznie dowiedzieć się, gdzie są ich dane, i jak uzyskać do nich dostęp, kto je udostępnić, kiedy je udostępnić i jak to zrobić katalog i jak dostać się do miejsca, w którym każdy może: A) wiedzieć, co tam jest i co w nim jest, oraz B), jak uzyskać do niego dostęp i z niego korzystać. Jednym z największych wyzwań jest oczywiście znalezienie go, drugim dużym wyzwaniem jest wiedza o tym, co tam jest i jak uzyskać do niego dostęp.

Mogę wiedzieć, że mam dziesiątki baz danych, ale tak naprawdę nie wiem, co tam jest i jak dowiedzieć się, co tam jest, i tak niezmiennie, jak odkrywamy teraz w danych przed pokazem, masz tendencję do chodzić po biurze i zadawać pytania, krzyczeć na sześcienne ściany i próbować to rozgryźć, często z mojego doświadczenia wynika, że może się okazać, że wędrujesz do recepcji, recepcji i pytasz, czy ktoś wie, kto idziesz porozmawiać. Dość często nie zawsze jest to informatyk, ponieważ nie jest on świadomy zestawu danych, ponieważ ktoś go właśnie utworzył, i może to być coś prostego - dość często znajdziemy jakiś projekt, który stoi w środowisku IT i kierownik projektu użył arkusza kalkulacyjnego wszystkich rzeczy i uzyskał ogromną ilość cennych informacji na temat zasobów, kontekstu i nazw, a jeśli nie znasz tego projektu i nie znasz tej osoby, po prostu nie możesz znaleźć tych informacji. Po prostu nie jest dostępny i musisz zdobyć ten oryginalny plik.

Jest takie zdanie, które zostało wyrzucone na bok w odniesieniu do danych i niekoniecznie się z tym zgadzam, ale myślę, że to urocze, małe wydarzenie i to dlatego, że pewna liczba ludzi uważa, że dane to nowy olej, a ja na pewno omówimy to również w pewnym aspekcie, później dzisiaj. Zauważyłem jednak, z pewnością będąc częścią tej transformacji, że organizacje przedsiębiorców, które nauczyły się cenić swoje dane, zyskały znaczną przewagę nad konkurencją.

IBM napisał interesujący artykuł około pięć lub sześć lat temu, który przeprowadził ankietę wśród około 4000 firm tutaj w Australii, i wziął wszystkie informacje, wszystkie dane dotyczące wydajności, wszystkie dane finansowe i umieścił je w garnku, a następnie wysłał ją do Australian School of Economics i faktycznie zaczęli tutaj wspólny trend, i to dlatego, że firmy, które wykorzystały technologię niezmiennie zyskały taką przewagę konkurencyjną w stosunku do swoich konkurentów i konkurentów per se, że ich konkurenci prawie nigdy nie nadążają, i myślę, że tak jest obecnie w przypadku danych, które widzieliśmy, jak ludzie nazywają cyfrową transformacją, w których organizacje, które wyraźnie wymyśliły, jak znaleźć dane, które mają, aby udostępnić te dane i udostępnić je w bardzo łatwy sposób moda dla organizacji, niekoniecznie zawsze wiedząc, dlaczego organizacja może jej potrzebować, i uzyskać znaczącą przewagę nad konkurencją.

Na tym slajdzie mam kilka przykładów, które możesz zobaczyć. Moje jedno zdanie jest takie, że zakłócenie na dużą skalę w prawie każdym sektorze przemysłu, moim zdaniem, jest napędzane przez dane, a jeśli obecne trendy są czymś, co sądzę, to tak naprawdę dopiero dostaliśmy zaczęło się, ponieważ gdy dawno już znane marki w końcu obudzą się, co to oznacza, i wejdą do gry, zamierzają wejść do gry hurtowo. Kiedy niektórzy z głównych sprzedawców detalicznych, którzy mają góry danych, zaczynają stosować analizę historyczną danych, jeśli nawet wiedzą, że istnieje, to niektórzy gracze online otrzymają trochę przebudzenia.

Ale z wieloma większością tych marek mam na myśli Ubera, który jest największą firmą taksówkową na świecie. Nie posiadają taksówek, więc co sprawia, że są magiczne, jakie są ich dane? Airbnb, największy dostawca zakwaterowania, mamy WeChat, największą firmę telefoniczną na świecie, ale nie mają faktycznej infrastruktury, telefonów, linii telefonicznych. Alibaba, największy detalista na świecie, ale nie posiada żadnego ekwipunku. Facebook, największa firma medialna na świecie. Myślę, że według ostatniego oblicza mieli teraz 1, 4 miliarda aktywnych użytkowników danych, co jest zadziwiającą liczbą. Nigdzie nie jest blisko - myślę, że ktoś twierdził, że ćwiartka planety jest tam codziennie, a jednak tutaj jest dostawca treści, który tak naprawdę nie tworzy treści, wszystkie dane, które obsługują, nie są przez nich tworzone, są tworzone przez ich subskrybentów i wszyscy znamy ten model.

SocietyOne, o którym być może słyszałeś lub nie, to lokalna marka, myślę, że w kilku krajach jest to bank, który faktycznie udziela pożyczek peer-to-peer, czyli innymi słowy, nie ma pieniędzy. Wszystko, co robi, to zarządza transakcjami, a dane znajdują się pod nim. Netflix, wszyscy jesteśmy bardzo dobrze z tym zaznajomieni. Jest tu ciekawa jedna linijka. Kiedy Netflix mógł legalnie być używany w Australii, kiedy został oficjalnie ogłoszony, nie musiałeś używać VPN, aby się do niego dostać, wiele osób na całym świecie ma taką tendencję - jeśli nie możesz dostać się do niego w Twojej okolicy - kiedy Netfix został uruchomiony w Australii, zwiększył międzynarodową przepustowość naszych łączy internetowych o 40 procent, więc prawie podwoił wykorzystanie Internetu w Australii z dnia na dzień, tylko przez jedną aplikację, jedną aplikację hostowaną w chmurze, która nie bawi się tylko danymi. To po prostu zadziwiająca statystyka.

I oczywiście wszyscy znamy Apple i Google, ale są to największe firmy programistyczne na świecie, ale tak naprawdę nie piszą aplikacji. Co jest spójne z tymi wszystkimi organizacjami? Cóż, to dane i nie dotarli tam, ponieważ nie wiedzieli, gdzie są ich dane i nie wiedzieli, jak je skatalogować.

Teraz dowiadujemy się, że istnieje zupełnie nowa klasa aktywów zwana danymi, a firmy się budzą. Ale nie zawsze dysponują narzędziami i know-how, a zatem do mapowania wszystkich tych danych, do katalogowania wszystkich tych danych i udostępniania ich, ale odkryliśmy, że firmy bez prawie żadnych aktywów fizycznych osiągnęły wysoką wartość rynkową w rejestruj czas dzięki tej nowej klasie zasobów danych. Jak już powiedziałem, niektórzy ze starych graczy teraz się budzą i na pewno to wydobywają.

Jestem wielkim fanem zabrania ludzi w małą podróż, więc w osiemnastu setkach, późnych osiemnastu setkach, a będziesz bardziej niż zaznajomiony z tym na rynku amerykańskim, okazało się, że aby przeprowadzić spis ludności mniej więcej co roku, myślę, że prowadzili je co dziesięć lat w tym momencie, ale jeśli zamierzasz przeprowadzać spis ludności co roku, analiza danych może zająć nawet osiem lub dziewięć lat. Okazało się, że ten zestaw danych został pozostawiony w skrzynkach w miejscach na papierze i prawie nikt go nie znalazł. Po prostu wypompowywali te raporty, ale rzeczywiste dane były bardzo trudne do zdobycia, mamy podobną sytuację z innym znaczącym momentem na świecie, około lat 40. XX wieku, z II wojną światową, a to jest BOMBE z Bletchley Park Bombe, i było to potężne narzędzie analityczne do łamania liczb, które przechodziłoby przez małe zestawy danych i znajdowało w nim sygnały, i służyło do łamania kodów przez Enigmę.

To znowu było w zasadzie urządzeniem zaprojektowanym, nie tyle do katalogowania, ale do oznaczania i mapowania danych oraz umożliwiającego pobieranie wzorców i znajdowanie ich w zestawach danych, w tym przypadku łamanie kodów, znajdowanie kluczy i fraz oraz znajdowanie je regularnie w zestawach danych, więc przeszliśmy przez tę podróż znajdowania rzeczy w danych i prowadząc do katalogowania danych.

A potem pojawiły się te masowe, niedrogie regały z maszynami, gotowe maszyny. Zrobiliśmy kilka bardzo interesujących rzeczy, a jedną z rzeczy, które z nimi zrobiliśmy, jest zbudowanie bardzo tanich klastrów, które mogłyby rozpocząć indeksowanie planety, a także bardzo znane te duże marki, które pojawiły się i zniknęły, ale prawdopodobnie jest to najczęstszy dom Google marka, o której wszyscy słyszeliśmy - stała się prawdziwym czasownikiem i wiesz, że osiągasz sukces, gdy Twoja marka staje się czasownikiem. Ale Google nauczył nas, nie zdając sobie z tego sprawy, być może w świecie biznesu, że mogli indeksować całą planetę do pewnego poziomu, katalogować dane z całego świata i udostępniać je w bardzo łatwy, wygodna forma w niewielkiej, jednoliniowej formule, strona internetowa prawie na niczym, a ty wpisujesz zapytanie, idzie i znajduje, ponieważ już zaindeksowali planetę, zindeksowali ją i udostępnili.

Zauważyliśmy: „Trzymaj się, nie robimy tego w organizacjach - dlaczego? Dlaczego mamy organizację, która może mapować całą planetę i indeksować ją, indeksować i indeksować, a także udostępniać, możemy ją wyszukać, a następnie kliknąć rzecz, aby przejść i znaleźć, jak to możliwe nie zrobiłeś tego wewnętrznie? ”Na całym świecie jest teraz mnóstwo tych małych szafek z maszynami, które robią to dla intranetów i znajdują rzeczy, ale wciąż naprawdę wpadają na pomysł wyjścia poza tradycyjną sieć. strona lub serwer plików.

Zamiast teraz wchodzić w ten katalog danych nowej generacji na wiele sposobów, odkrywanie dostępu do danych za pomocą notatek post-it i chłodnic wodnych nie jest tak naprawdę odpowiednią metodą wykrywania i katalogowania danych, i tak naprawdę nie sądzę, że to nigdy naprawdę było. Nie możemy już prowadzić tego całego wyzwania przed ludźmi, którzy tylko przekazują notatki, publikują notatki i rozmawiają o tym. Jesteśmy teraz naprawdę poza obszarem, w którym to podejście nowej generacji do katalogowania danych już minęło. Musimy go objąć. Gdyby to był łatwy problem, rozwiązalibyśmy go już na wiele sposobów wcześniej, ale myślę, że to nie jest łatwy problem, po prostu indeksowanie i wywoływanie danych to tylko jedna część tego, wiedząc, co jest w danych i budowanie metadanych wokół tego, co odkrywamy, a następnie udostępnianie ich w łatwej do wykorzystania formie, szczególnie dla samoobsługi i analiz. Problem jest wciąż do rozwiązania, ale wiele części układanki w ciągu pięciu lat jest dobrze i naprawdę rozwiązanych i dostępnych.

Jak wiemy, ludzie katalogujący dane to przepis na niepowodzenie, ponieważ błąd ludzki jest jednym z największych koszmarów, z którymi mamy do czynienia w przetwarzaniu danych, i regularnie mówię o tym temacie, w którym moim zdaniem ludzie wypełniający formularze papierowe są prawdopodobnie największym koszmarem mamy do czynienia z dużymi zbiorami danych i analizami, do ciągłej konieczności naprawiania rzeczy, które robią, nawet prostych rzeczy, takich jak daty i pola, ludzie umieszczający to w niewłaściwym formacie.

Ale jak już powiedziałem, widzieliśmy, jak wyszukiwarki internetowe indeksują świat każdego dnia, więc teraz wpadamy na pomysł, że można to zrobić na zestawach danych biznesowych w procesie wykrywania, a narzędzia i systemy są teraz dostępne od zaraz, gdy będziesz się uczyć dzisiaj. Tak więc, moim zdaniem, sztuczka polega na wybraniu odpowiednich narzędzi, najlepszych narzędzi do pracy. A co więcej, znajdując odpowiednią część, która pomoże ci rozpocząć tę ścieżkę. I wierzę, że dzisiaj o tym usłyszymy, ale zanim to zrobimy, przekażę moją szkołę, Robin Bloor i usłyszę jego zdanie na ten temat. Robin, mogę ci przekazać?

Robin Bloor: Tak, z pewnością możesz. Zobaczmy, czy to działa, och tak, działa. Okej, naprawdę idę z innego kierunku niż Dez, ale skończę w tym samym miejscu. Chodzi o łączenie się z danymi, więc pomyślałem, że przejdę przez rzeczywistość łączenia się z danymi, naprawdę punkt po punkcie.

Faktem jest, że dane są bardziej fragmentaryczne niż kiedykolwiek. Ilość danych rośnie fenomenalnie, ale w rzeczywistości różne źródła danych rosną również w niewiarygodnym tempie, dlatego dane są coraz bardziej rozdrobnione. Ale w szczególności z powodu aplikacji analitycznych - ale to nie jedyne aplikacje - mamy naprawdę dobry powód, aby połączyć się z wszystkimi tymi danymi, więc utknęliśmy w trudnym miejscu, utknęliśmy w świecie rozdrobnionych danych, i w danych jest możliwość, jak to nazywał Dez, nowa ropa.

O danych, no cóż, kiedyś żył na wirującym dysku, w systemach plików lub bazach danych. Teraz żyje w znacznie bardziej zróżnicowanym środowisku, żyje w systemach plików, ale obecnie także w instancjach Hadoop, a nawet instancjach Spark. Żyje w wielu gatunkach baz danych. Nie tak dawno temu znormalizowaliśmy relacyjną bazę danych, dobrze wiesz, że wyszła z okna w ciągu ostatnich pięciu lat, ponieważ istnieje potrzeba baz danych dokumentów i baz danych grafów, więc wiesz, że gra ma zmienione. Więc żył na obracającym się dysku, ale teraz żyje na SSD. Najnowsza ilość dysków SSD - zdecydowanie najnowsza jednostka SSD wychodzi z Samsunga - dwadzieścia gigabajtów, co jest ogromne. Teraz żyje w pamięci w tym sensie, że główna kopia danych może znajdować się w pamięci, a nie na dysku, nie budowaliśmy takich systemów; robimy teraz. I żyje w chmurze. Co oznacza, że może żyć w dowolnej z tych rzeczy, w chmurze, niekoniecznie będziesz wiedział, gdzie jest w chmurze, będziesz miał tylko jej adres.

Hadoop do tej pory zawodził jako rozbudowany magazyn danych. Mieliśmy nadzieję, że stanie się rozszerzalnym, skalowalnym magazynem danych, i stanie się po prostu jednym systemem plików dla wszystkiego i tak się stanie - po prostu tęcze pojawią się na niebie, a jednorożce będą tańczyć dookoła i nic takiego się nie wydarzyło. Co oznacza, że mamy problem z transferem danych i czasami nie jest to konieczne, ale jest to również trudność. Dane naprawdę mają teraz grawitację, kiedy już dostaniesz się do wielu terabajtów danych, odebranie ich i wyrzucenie, spowoduje to, że opóźnienia pojawią się w twojej sieci lub pojawią się w różnych miejscach. Jeśli chcesz przenosić dane, ważna jest synchronizacja. W dzisiejszych czasach prawie zawsze istnieją ograniczenia dotyczące tego, ile czasu trzeba na uzyskanie jednej rzeczy, jednej danych z jednego miejsca do drugiego. Kiedyś myślałem o oknach wsadowych, gdy maszyna była trochę bezczynna i bez względu na to, ile posiadałeś danych, możesz ją po prostu wyrzucić i wszystko się ułoży. Cóż, już go nie ma, żyjemy w świecie czasu rzeczywistego. Dlatego czas ma znaczenie. Gdy tylko chcesz przenieść dane, więc jeśli dane mają grawitację, prawdopodobnie nie możesz ich przenieść.

Zarządzanie danymi jest czynnikiem w tym sensie, że faktycznie musisz zarządzać wszystkimi tymi danymi, nie dostajesz ich za darmo, a replikacja może być konieczna, aby faktycznie uzyskać dane do wykonania zadania, które musi wykonać, ponieważ może nie być gdziekolwiek go umieścisz. Może nie mieć wystarczających zasobów do normalnego przetwarzania danych. Dane są replikowane, a dane są replikowane bardziej, niż można sobie wyobrazić. Myślę, że ktoś mi powiedział dawno temu, że średnia część danych jest replikowana co najmniej dwa i pół razy. ESB lub Kafka oferują opcję przepływu danych, ale obecnie wymagają architektury. W dzisiejszych czasach naprawdę musisz pomyśleć w ten czy inny sposób o tym, co tak naprawdę oznacza przekazywanie danych. Dlatego dostęp do danych tam, gdzie są, jest zwykle preferowany, o ile oczywiście można uzyskać wydajność, której potrzebujesz, kiedy faktycznie poszukujesz danych, i to zależy od kontekstu. W każdym razie jest to trudna sytuacja. Jeśli chodzi o zapytania o dane, kiedyś potrafiliśmy myśleć w kategoriach SQL, wymyśliliśmy naprawdę teraz, wiesz, różne formy zapytań, SQL tak, ale obok, również zapytania graficzne, Spark to tylko jeden przykład robienie wykresu, ponieważ także musimy wyszukiwać tekst, bardziej niż kiedykolwiek wcześniej, również wyszukiwania typu wyrażenia regularnego, co jest naprawdę skomplikowanym wyszukiwaniem wzorców i prawdziwym dopasowywaniem wzorców, wszystkie te rzeczy są bulgotane. I wszystkie są przydatne, ponieważ dają ci to, czego szukasz, lub mogą dostać to, czego szukasz.

Kwerendy obejmują teraz wiele danych, więc nie zawsze to robią, a często wydajność jest przerażająca. Zależy to od okoliczności, ale ludzie oczekują, że będą mogli wyszukiwać dane z wielu źródeł danych, więc federacja danych tego rodzaju staje się coraz bardziej aktualna. Bardzo popularna jest również wirtualizacja danych, która jest innym sposobem jej wykonania, w zależności od wydajności. Zapytania o dane są w rzeczywistości częścią procesu, a nie całego procesu. Warto tylko zaznaczyć, że jeśli rzeczywiście patrzysz na wyniki analizy, rzeczywiste analizy mogą trwać o wiele dłużej niż gromadzenie danych, ponieważ zależy to od okoliczności, ale zapytania o dane są absolutną koniecznością, jeśli chcesz zrobić rodzaj analizy wielu źródeł danych, i po prostu naprawdę musisz mieć rozległe możliwości.

A więc o katalogach. Katalogi istnieją z jakiegoś powodu, przynajmniej mówimy, że wiemy, że mamy katalogi i schematy w bazach danych, i mamy każdy katalog i mamy gdziekolwiek pójdziesz, znajdziesz jedno miejsce, a wtedy faktycznie okaże się, że istnieje jakiś katalog, a ujednolicony katalog globalny jest tak oczywiście dobrym pomysłem. Ale bardzo niewiele firm ma coś takiego. Pamiętam, w tamtym roku dwa tysiące - rok dwa tysiące paniki - pamiętam, że komuniści nie mogli nawet określić, ile mieli plików wykonywalnych, nie wspominając o tym, ile mieli różnych magazynów danych, i prawdopodobnie tak jest teraz, wiesz, że większość firm nie wie aktywnie w sensie globalnym, jakie dane posiada. Ale oczywiście coraz bardziej konieczne jest posiadanie globalnego katalogu, a przynajmniej globalny obraz tego, co się dzieje z powodu wzrostu źródeł danych i ciągłego wzrostu liczby aplikacji, a jest to szczególnie konieczne w przypadku analiz, ponieważ ty również w jeden sposób, i są tutaj inne problemy, takie jak pochodzenie i problemy z danymi, i jest to konieczne dla bezpieczeństwa, wielu aspektów zarządzania danymi, jeśli naprawdę nie wiesz, jakie dane masz, pomysł to, że zamierzasz rządzić, jest po prostu absurdalne. W związku z tym wszystkie dane są w jakiś sposób skatalogowane, to po prostu fakt. Pytanie brzmi, czy katalog jest spójny i co właściwie można z nim zrobić. Więc wrócę do Rebeki.

Rebecca Jóźwiak: Dobra, dzięki Robin. Następnie mamy Davida Crawforda z Alation, David. Idę dalej i podaję ci piłkę, którą możesz zabrać.

David Crawford: Dziękuję bardzo. Naprawdę doceniam was w tym programie. Myślę, że mam zamiar zacząć, więc myślę, że moją rolą tutaj jest wzięcie części tej teorii i zobaczenie, w jaki sposób jest ona faktycznie stosowana, oraz wyniki, które jesteśmy w stanie zrealizować u prawdziwych klientów, abyście mogli zobaczyć kilka na slajdzie, chcę porozmawiać o tym, jakie wyniki będziemy mogli zobaczyć w analitycznych ulepszeniach. Aby motywować dyskusję, porozmawiamy o tym, jak się tam dostali. Mam więc szczęście, że mogę dość blisko współpracować z wieloma naprawdę inteligentnymi ludźmi, tymi klientami, i chcę tylko wskazać kilku, którzy byli w stanie dokonać pomiaru, i porozmawiać o tym, jak posiadanie katalogu danych wpłynęło na ich analityka przepływ pracy. I krótko mówiąc, myślę, że jedną z rzeczy, które widzimy, jest zmiana, z katalogami danych wersety poprzednich rozwiązań mediowanych i jednym ze sposobów, w jaki relacje naprawdę myślą o rozwiązaniach, które razem stworzyliśmy, to zacząć od analityków i pracować wstecz. Można powiedzieć, że zróbmy to dzięki włączeniu wydajności analityków. W przeciwieństwie do samej zgodności lub po prostu posiadania zapasów, tworzymy narzędzie, które zwiększa produktywność analityków.

Tak więc, kiedy rozmawiam z naukowcem danych w firmie świadczącej usługi finansowe Square, jest facet, Nick, który opowiadał nam o tym, jak jego, poświęcił kilka godzin na znalezienie odpowiedniego zestawu danych, aby rozpocząć raport, teraz może zrób to w ciągu kilku sekund za pomocą wyszukiwania przy udziale w rynku, rozmawialiśmy z ich CTO, który wyciągnął swoich analityków, którzy używali Square, przepraszam, używał Alation, aby dowiedzieć się, jakie są ich, jakie korzyści widzieli, i zgłosili 50 procent wzrostu wydajności oraz fakt, że jeden z najlepszych sprzedawców detalicznych na świecie, eBay, ma ponad tysiąc osób, które regularnie analizują SQL, a ja ściśle współpracuję z Deb Says, która jest projektem menadżer w zespole ds. narzędzi danych, a ona odkryła, że kiedy kwerendy adoptują Alation, adoptują katalog, widzą podwójną szybkość pisania nowych zapytań w bazie danych.

To są prawdziwe wyniki, są to osoby, które faktycznie stosują katalog w swojej organizacji, i chcę przeprowadzić cię przez to, co trzeba, aby skonfigurować. Jak powstaje katalog w firmie, a być może najważniejsze jest to, że wiele z nich dzieje się automatycznie, więc Dez mówił o systemach, uczył się o systemach i dokładnie to robi współczesny katalog danych. Dlatego instalują Alation w swoim centrum danych, a następnie łączą je z różnymi źródłami metadanych w swoim środowisku danych. Skoncentruję się trochę na bazach danych i narzędziach BI - z obu z nich wydobędziemy metadane techniczne, w zasadzie o tym, co istnieje. Racja, więc jakie stoły? Jakie raporty? Jakie są definicje raportu? Wyodrębniają więc te metadane techniczne, a strona katalogu jest automatycznie tworzona dla każdego obiektu w tych systemach, a następnie wyodrębniają i warstwują te metadane techniczne, nakładając na nie dane użytkowania. Odbywa się to przede wszystkim poprzez odczytywanie dzienników zapytań z bazy danych i jest to naprawdę interesujące źródło informacji. Tak więc, za każdym razem, gdy analityk pisze zapytanie, za każdym razem, gdy narzędzie raportujące, czy jest to domowe, czy też gotowe, czy narzędzie raportujące uruchamia zapytanie w celu zaktualizowania pulpitu nawigacyjnego, gdy aplikacja uruchamia zapytanie w celu wstawienia danych do działania zestaw danych - wszystkie te rzeczy są rejestrowane w dziennikach zapytań do bazy danych. Niezależnie od tego, czy masz katalog, czy nie, są one przechwytywane w dzienniku zapytań z bazą danych. To, co może zrobić katalog danych, a zwłaszcza to, co może zrobić katalog Alation, to czytać te dzienniki, zadawać w nich zapytania i tworzyć naprawdę interesujący wykres wykorzystania na podstawie tych dzienników, a my wprowadzamy to w grę, aby informować przyszłych użytkowników danych o tym, w jaki sposób użytkownicy z przeszłości korzystali z nich.

Łączymy więc całą tę wiedzę w jednym katalogu, a żeby ją urzeczywistnić, są to integracje już wdrożone u klientów, więc widzieliśmy Oracle, Teradata, Redshift, Vertica i kilka innych relacyjne bazy danych. W świecie Hadoop istnieje szereg SQL na Hadoop, rodzaj relacyjnych, meta sklepów na szczycie systemu plików Hadoop, Impala, Tez, Presto i Hive, widzieliśmy również sukces z prywatnymi dostawcami Hadoop w chmurze, takimi jak Altiscale, i my mogliśmy również łączyć się z serwerami Tableau, MicroStrategy i indeksować tam pulpity nawigacyjne, a także integracje z narzędziami do tworzenia wykresów danych, takimi jak Plotly.

Łączymy się więc ze wszystkimi tymi systemami, podłączyliśmy te systemy do klientów, pobraliśmy techniczne metadane, pobraliśmy dane dotyczące użytkowania i w pewnym sensie automatycznie przygotowaliśmy katalog danych, ale w ten sposób scentralizowanie wiedzy, ale samo scentralizowanie rzeczy w katalogu danych, samo w sobie nie zapewnia tak naprawdę cudownych wzrostów wydajności, o których rozmawialiśmy z eBayem, Square i udziałem w rynku. W tym celu musimy zmienić sposób myślenia o przekazywaniu wiedzy analitykom. Jedno z pytań, które zadają, aby się do tego przygotować, brzmiało: „Jak katalog faktycznie wpływa na przebieg pracy analityka?”

Właśnie o tym spędzamy cały dzień, zastanawiając się, a żeby porozmawiać o tej zmianie sposobu myślenia o modelu push i pull, chciałem zrobić szybką analogię do tego, jak wyglądał świat przed i po przeczytaniu Kindle. Więc to tylko doświadczenie, które niektórzy z was mogą mieć, czytając książkę fizyczną, natraficie na słowo, nie jesteście pewni, czy znacie definicję tego słowa bardzo dobrze, być może możecie odgadnąć to z kontekstu, nie tak prawdopodobne, że wstaniesz z kanapy, podejdziesz do półki z książkami, odszukasz słownik, odkurzysz go i przewrócisz w odpowiednie miejsce na alfabetycznej liście słów, aby upewnić się, że tak, masz odpowiednią definicję i wiesz niuanse tego. Tak naprawdę tak się nie dzieje. Kupujesz więc aplikację Kindle i zaczynasz czytać książki, i widzisz słowo, którego nie jesteś całkowicie pewien, i dotykasz tego słowa. Nagle, właśnie na tym samym ekranie, znajduje się słownikowa definicja tego słowa, ze wszystkimi jego niuansami, różnymi przykładowymi zastosowaniami, i przesuwasz trochę, a dostajesz artykuł z Wikipedii na ten temat, ponownie przesuwasz, dostajesz narzędzie do tłumaczenia, które może przetłumaczyć go na inne języki lub z innych języków, i nagle twoja znajomość języka jest o wiele bogatsza, i zdarza się to zdumiewająco wiele razy, w porównaniu do tego, kiedy musiałeś iść i wyciągnij ten zasób dla siebie.

I tak zamierzam argumentować, że przepływ pracy dla analityka i sposób, w jaki analityk zajmie się dokumentacją danych, jest w rzeczywistości bardzo podobny do interakcji czytelnika ze słownikiem, zarówno fizycznym, jak i Kindle, a więc my, sposób, w jaki naprawdę widzieliśmy ten wzrost produktywności, nie rozlewa katalogu, ale łączy go z przepływem pracy analityka, więc poprosili mnie o zrobienie tutaj wersji demo, a ja chcę aby skupić się na tej prezentacji. Chcę tylko skonfigurować kontekst dla wersji demonstracyjnej. Kiedy myślimy o przekazywaniu wiedzy o danych użytkownikom, gdy jej potrzebują, uważamy, że właściwym miejscem do tego, miejscem, w którym spędzają czas i gdzie analizują, jest narzędzie do zapytań SQL. Miejsce, w którym piszesz i uruchamiasz zapytania SQL. Tak więc zbudowaliśmy jeden i zbudowaliśmy go, a rzeczą, która tak naprawdę różni się od innych narzędzi do zapytań, jest jego głęboka integracja z katalogiem danych.

Nasze narzędzie do zapytań nosi nazwę Alation Compose. To internetowe narzędzie do wysyłania zapytań, które za chwilę pokażę. Internetowe narzędzie do zapytań, które działa na wszystkich logo bazy danych, które widziałeś na poprzednim slajdzie. W szczególności próbuję zaprezentować sposób, w jaki informacje katalogowe docierają do użytkowników. I robi to na trzy różne sposoby. Robi to poprzez interwencje i wtedy ktoś, kto jest administratorem danych, zarządcą danych, albo jakimś administratorem, albo menedżerem, może powiedzieć: „Chcę wtrącić się z notatką lub ostrzeżeniem w przepływ pracy i upewnij się, że został dostarczony do użytkowników we właściwym czasie. ”To interwencja i pokażemy to.

Inteligentne sugestie to sposób, w jaki narzędzie wykorzystuje całą swoją zagregowaną wiedzę o katalogu do sugerowania obiektów i części zapytania podczas pisania. Najważniejszą rzeczą, którą należy wiedzieć, jest to, że naprawdę korzysta z dziennika zapytań, aby to zrobić, aby zasugerować rzeczy na podstawie użycia, a także znaleźć nawet części wcześniej napisanych zapytań. I pokażemy to.

A potem podgląd. Podglądy są, gdy wpisujesz nazwę obiektu, pokazujemy ci wszystko, co katalog wie, lub co najmniej najistotniejsze rzeczy, które katalog wie o tym obiekcie. Próbki danych, które wcześniej go używały, logiczna nazwa i opis tego obiektu, przychodzą do ciebie w trakcie pisania, bez konieczności proszenia o nie.

Więc bez dalszych rozmów, przejdę do wersji demo i po prostu poczekam, aż się pojawi. Pokażę ci tutaj narzędzie do zapytań. Jest to dedykowany interfejs do pisania SQL. W pewnym sensie jest to oddzielny interfejs od katalogu. Dez i Robin rozmawiali o katalogu, a ja przeskakuję nieco nad interfejsem katalogu, aby dowiedzieć się, jak bezpośrednio wprowadzono go do obsługi przepływu pracy.

Właśnie pokazuję tutaj miejsce, w którym mogę wpisać SQL, a na dole zobaczysz, że mamy trochę informacji o obiektach, do których się odwołujemy. Więc zacznę pisać zapytanie i przestanę, gdy dojdę do jednej z tych interwencji. Więc wpiszę „wybierz” i chcę rok. Chcę to imię. I zamierzam wyszukać dane o wynagrodzeniach. To jest zestaw danych edukacyjnych. Zawiera informacje o instytucjach szkolnictwa wyższego, a ja patrzę na średnie wynagrodzenie wydziałów, które jest w jednej z tych tabel.

Więc właściwie wpisałem słowo „pensja”. Nie jest to dokładnie nazwa kolumny. Używamy zarówno logicznych metadanych, jak i fizycznych metadanych, aby formułować sugestie. Chciałbym tutaj zwrócić uwagę na to żółte pole, które się tutaj pojawia. Mówi, że w tej kolumnie jest ostrzeżenie. Nie szukałem tego, nie wziąłem udziału w zajęciach, jak prawidłowo korzystać z tych danych. Przyszło do mnie i okazuje się, że jest to ostrzeżenie o umowie o poufności, która ma związek z tymi danymi. Istnieją więc zasady ujawniania informacji. Jeśli mam zamiar zapytać o te dane, zamierzam usunąć dane z tej tabeli, powinienem uważać na to, jak je ujawnię. Masz tutaj politykę zarządzania. Istnieją pewne wyzwania związane ze zgodnością, które znacznie ułatwiają przestrzeganie tych zasad, gdy wiem o nich w czasie, gdy patrzę na dane.

Więc to do mnie przychodzi, a potem zamierzam też przyjrzeć się czesnemu. I tutaj widzimy, że w grę wchodzą zapowiedzi. Widzę, że w tej kolumnie czesnego znajduje się kolumna czesnego w tabeli instytucji i widzę jej profil. Alation idzie i pobiera przykładowe dane z tabel, aw tym przypadku pokazuje mi coś całkiem interesującego. Pokazuje mi rozkład wartości i pokazuje, że wartość zerowa pojawiła się w próbce 45 razy i więcej niż jakakolwiek inna wartość. Mam więc poczucie, że brakuje nam danych.

Jeśli jestem zaawansowanym analitykiem, może to już być częścią mojego przepływu pracy. Zwłaszcza jeśli jestem szczególnie skrupulatny, gdybym wcześniej wykonał kilka zapytań dotyczących profilowania. Ilekroć zbliżam się do nowej części danych, zawsze myślę o tym, jaki jest nasz zakres danych. Ale jeśli jestem nowy w analizie danych, jeśli jestem nowy w tym zestawie danych, mogę założyć, że jeśli jest kolumna, jest ona cały czas wypełniana. Albo mogę założyć, że jeśli nie jest wypełniony, nie jest zero, jest zerowy lub coś w tym rodzaju. Ale w tym przypadku mamy wiele zer, a gdybym zrobił średnią, prawdopodobnie byłyby błędne, gdybym tylko założył, że te zera były faktycznie zerami zamiast brakujących danych.

Ale Alation, wprowadzając ten podgląd do swojego przepływu pracy, prosi o przyjrzenie się tym informacjom i daje nawet początkującym analitykom szansę zobaczenia, że jest coś, co można zauważyć w tych danych. Mamy więc ten podgląd.

Następną rzeczą, którą zamierzam zrobić, będzie spróbować dowiedzieć się, z jakich tabel można uzyskać te informacje. Widzimy więc inteligentne sugestie. Cały czas to trwa, ale w szczególności tutaj, nawet niczego nie wpisałem, ale zasugeruje mi, których tabel mogę użyć do tego zapytania. Najważniejszą rzeczą, o której należy wiedzieć, jest to, że korzysta ze statystyk użytkowania. Tak więc w środowisku takim jak na przykład eBay, w którym masz setki tysięcy tabel w jednej bazie danych, posiadanie narzędzia, które może w pewnym sensie uderzyć w pszenicę z plew, i używanie tych statystyk użytkowania, jest naprawdę ważne dla ich tworzenia sugestie warte czegoś.

To zasugeruje ten stół. Kiedy patrzę na podgląd, w rzeczywistości podświetlamy trzy kolumny, o których wspomniałem już w moim zapytaniu. Wiem, że ma trzy, ale nie ma nazwy. Muszę zdobyć imię, więc zamierzam zrobić połączenie. Kiedy wykonuję łączenie, teraz znów mam te podglądy, które pomagają mi znaleźć, gdzie jest tabela z nazwą. Widzę więc, że ten ma ładnie sformatowaną, właściwie poprawnie pisaną wielką literą nazwę. Wygląda na to, że ma jeden wiersz z nazwą dla każdej instytucji, więc zamierzam to wykorzystać, a teraz potrzebuję warunku przyłączenia.

I tak oto, co robi Alation, znów patrzy na dzienniki zapytań, widzi poprzednie czasy, kiedy te dwie tabele zostały połączone, i sugeruje różne sposoby dołączania do nich. Po raz kolejny jest jakaś interwencja. Jeśli spojrzę na jeden z nich, pojawi się ostrzeżenie, które pokazuje, że należy go używać tylko do analizy agregacyjnej. Prawdopodobnie przyniesie to niewłaściwe skutki, jeśli spróbujesz coś zrobić za pośrednictwem instytucji po instytucji. Podczas gdy ten z OPE ID jest zatwierdzony jako właściwy sposób łączenia tych dwóch tabel, jeśli potrzebujesz danych na poziomie uniwersyteckim. Robię to i jest to krótkie zapytanie, ale napisałem je, niekoniecznie mając wgląd w dane. Nigdy tak naprawdę nie patrzyłem na schemat ER tego zestawu danych, ale już wiem dużo o tych danych, ponieważ trafiają do mnie odpowiednie informacje.

Są to więc trzy sposoby, w jakie katalog może, poprzez zintegrowane narzędzie zapytań, bezpośrednio wpływać na przepływ pracy podczas pisania zapytań. Ale jedną z innych korzyści zintegrowania narzędzia do zapytań z katalogiem jest to, że po zakończeniu zapytania i zapisaniu go mogę umieścić tytuł „Nauczanie instytucji i wynagrodzenie wydziału”, a następnie mam tutaj przycisk pozwala mi po prostu opublikować go w katalogu. Bardzo łatwo jest mi to przekazać. Nawet jeśli go nie opublikuję, zostanie on przechwycony jako część dziennika zapytań, ale kiedy go opublikuję, stanie się częścią scentralizowanego miejsca, w którym cała wiedza o danych żyje.

Więc jeśli kliknę Wyszukaj wszystkie zapytania w Alation, zabiorę cię - a tutaj zobaczysz trochę interfejsu katalogu - przejdę do dedykowanego wyszukiwania zapytań, które pokazuje mi sposób wyszukiwania zapytań cała organizacja. I widzisz, że moje nowo opublikowane zapytanie jest na górze. I niektórzy mogą zauważyć tutaj, gdy przechwytujemy zapytania, również przechwytujemy autorów i nawiązujemy relację między mną jako autorem a tymi obiektami danych, o których teraz coś wiem. Zostałem ustalony jako ekspert w tej kwerendzie i tych obiektach danych. Jest to bardzo pomocne, gdy ludzie muszą dowiedzieć się o danych, a następnie mogą znaleźć odpowiednią osobę, o której można dowiedzieć się więcej. A jeśli naprawdę jestem nowy w danych, niezależnie od tego, czy jestem zaawansowanym analitykiem - jako zaawansowany analityk, mógłbym na to spojrzeć i zobaczyć kilka przykładów, które pomogłyby mi zacząć od nowego zestawu danych. Jako osoba, która może nie czuć się super zorientowana w SQL, mogę znaleźć gotowe zapytania, które są raportami, z których mogę skorzystać.

Oto artykuł Phila Mazanetta o medianie wyników SAT. Kliknij na to, a dostanę stronę katalogu dla samego zapytania. Mówi o artykule, który został napisany, który odwołuje się do tego zapytania, więc mam trochę dokumentacji do przeczytania, jeśli chcę nauczyć się go używać. I mogę go otworzyć w narzędziu do zapytań, klikając przycisk Utwórz, i mogę po prostu uruchomić go tutaj, nawet go nie edytując. I rzeczywiście, zobaczysz trochę naszych lekkich możliwości raportowania, gdzie, gdy piszesz zapytanie, możesz wpuścić taką zmienną szablonu, a to tworzy prosty sposób na utworzenie formularza do wykonania zapytania opartego na zapytaniu na kilka parametrów.

To właśnie mam na demo. Wrócę do slajdów. Podsumowując, pokazaliśmy, jak administrator, administrator danych, może interweniować, umieszczając ostrzeżenia na obiektach wyświetlanych w narzędziu do wysyłania zapytań, jak Alation wykorzystuje swoją wiedzę na temat używania obiektów danych do robienia inteligentnych sugestii, jak to przynosi w profilowaniu i innych poradach dotyczących usprawnienia pracy analityków, którzy dotykają określonych obiektów, oraz w jaki sposób wszystkie tego rodzaju informacje są przesyłane z powrotem do katalogu, gdy pisane są nowe zapytania.

Oczywiście jestem rzecznikiem w imieniu firmy. Powiem coś miłego o katalogach danych. Jeśli chcesz usłyszeć bezpośrednio od jednego z naszych klientów, Kristie Allen w Safeway prowadzi zespół analityków i ma naprawdę fajną historię o czasach, w których naprawdę musiała pokonać czas, aby przeprowadzić eksperyment marketingowy, oraz o tym, jak cała zespół wykorzystał Alation do współpracy i szybkiego powrotu do tego projektu. Możesz więc kliknąć ten link bit.ly, aby sprawdzić tę historię, lub jeśli chcesz dowiedzieć się, jak Alation może wprowadzić katalog danych do Twojej organizacji, z przyjemnością przygotujemy spersonalizowane demo. Wielkie dzięki.

Rebecca Jóźwiak: Wielkie dzięki, David. Jestem pewien, że Dez i Robin mają kilka pytań, zanim przejdę do pytań i odpowiedzi publiczności. Dez, chcesz iść pierwszy?

Dez Blanchfield: Oczywiście. Podoba mi się pomysł tej koncepcji opublikowanych zapytań i powiązanie jej ze źródłem autorstwa. Od dawna jestem zwolennikiem tego pomysłu na własny sklep z aplikacjami i myślę, że jest to naprawdę świetny fundament, na którym można to wykorzystać.

Przyszedłem po to, aby uzyskać wgląd w niektóre organizacje, które robisz to, i niektóre historie sukcesu, które mogli mieć podczas całej tej podróży, nie tylko wykorzystując twoje narzędzie i platformę do odkrywania danych, ale także następnie przekształcają swoje wewnętrzne cechy kulturowe i behawioralne. Teraz masz taki wewnętrzny sklep z aplikacjami, w którym po prostu pobierasz, koncepcję, w której nie tylko mogą go znaleźć, ale mogą faktycznie zacząć tworzyć małe społeczności z opiekunami tej wiedzy.

David Crawford: Tak, myślę, że byliśmy zaskoczeni. Wierzymy w wartość dzielenia się zapytaniami, zarówno z mojej przeszłości jako menedżera produktu w Adtech, jak i ze wszystkich klientów, z którymi rozmawialiśmy, ale nadal jestem zaskoczony, jak często jest to jedna z pierwszych rzeczy, które klienci mówią o wartości, jaką otrzymują z Alation.

Testowałem narzędzie do tworzenia zapytań u jednego z naszych klientów o nazwie Invoice2go, a oni mieli stosunkowo nowego menedżera produktu i powiedzieli - powiedział mi, bez monitu podczas testu użytkownika, „ w ogóle piszę SQL, z wyjątkiem tego, że jest to łatwe dzięki Alation. ”I oczywiście, jako premier, odpowiadam:„ Co masz na myśli, jak to zrobiliśmy? ”A on powiedział:„ Cóż, naprawdę to po prostu ponieważ mogę się zalogować i zobaczyć wszystkie istniejące zapytania. ”Rozpoczynanie od pustej tablicy z SQL jest niezwykle trudną rzeczą, ale modyfikowanie istniejącego zapytania, w którym można zobaczyć opublikowany wynik i powiedzieć: „Och, potrzebuję tylko tej dodatkowej kolumny” lub „Muszę ją przefiltrować według określonego zakresu dat”, co jest o wiele łatwiejsze do zrobienia.

Widzieliśmy tego rodzaju role pomocnicze, takie jak menedżerowie produktu, może ludzie w działach sprzedaży, którzy zaczynają podnosić i którzy zawsze chcą nauczyć się języka SQL i zaczynają go podnosić za pomocą tego katalogu. Widzieliśmy również, że wiele firm próbowało stworzyć rodzaj oprogramowania typu open source. Próbowałem zbudować tego rodzaju rzeczy wewnętrznie, gdzie śledzą zapytania i udostępniają je, a jest kilka naprawdę trudnych wyzwań projektowych, które czynią je użytecznymi. Facebook ma wewnętrzne narzędzie, które nazwali HiPal, które przechwytuje wszystkie zapytania napisane w Hive, ale dowiadujesz się, że jeśli nie trącisz użytkowników we właściwy sposób, po prostu otrzymujesz bardzo długa lista wybranych instrukcji. A jako użytkownik, który próbuje dowiedzieć się, czy zapytanie jest dla mnie przydatne, czy też coś dobrego, jeśli przejrzę długą listę wybranych instrukcji, zajmie mi dużo więcej czasu, aby uzyskać coś wartościowego niż zaczynając od zera. Zastanawialiśmy się bardzo dokładnie, jak stworzyć katalog zapytań, który przedstawia odpowiednie rzeczy na pierwszy plan i udostępnia je w użyteczny sposób.

Dez Blanchfield: Myślę, że wszyscy podążamy tą podróżą od bardzo młodego wieku, aż do dorosłości, na wiele sposobów. Kilka technologii. Ja osobiście przeszedłem przez tę samą prawdziwą rzecz, jak uczenie się cięcia kodu. Przeglądałam czasopisma, a potem książki, studiowałam do pewnego poziomu, a potem musiałam iść i właściwie zdobyć więcej szkoleń i edukacji na ten temat.

Ale mimowolnie odkryłem, że nawet kiedy zacząłem uczyć się i czytać czasopisma, czytać książki i siekać programy innych ludzi i chodzić na kursy na ich temat, nadal skończyłem na uczeniu się na kursach tak samo, jak rozmawiałem z innymi ludzie, którzy mieli pewne doświadczenia. I myślę, że jest to interesujące odkrycie, że teraz, kiedy wprowadzasz to do analizy danych, zasadniczo widzimy tę samą analogię, że ludzie są niezmiennie całkiem sprytni.

Inną rzeczą, którą naprawdę chciałbym zrozumieć, jest, na bardzo wysokim poziomie, wiele organizacji zapyta: „Ile czasu zajmuje dotarcie do tego punktu?” Jaki jest punkt krytyczny, kiedy ludzie osiągają Twoja platforma została zainstalowana i zaczęli odkrywać rodzaje narzędzi? Jak szybko ludzie po prostu widzą, jak ta rzecz zmienia się w naprawdę natychmiastowy moment „a-ha”, w którym zdają sobie sprawę, że nie martwią się już nawet o ROI, ponieważ już istnieje, ale teraz zmieniają sposób prowadzenia działalności ? I odkryli zagubioną sztukę i oczekują, że mogą zrobić coś naprawdę, naprawdę zabawnego.

David Crawford: Tak, mogę trochę dotknąć. Myślę, że kiedy się instalujemy, jedną z miłych rzeczy, jedną z rzeczy, które ludzie lubią w katalogu bezpośrednio połączonym z systemami danych, jest to, że nie zaczynasz pustego miejsca, w którym musisz je wypełnić strona po stronie. Dotyczy to w pewnym sensie poprzednich rozwiązań w zakresie danych, w których zaczynasz od pustego narzędzia i musisz zacząć tworzyć stronę wszystkiego, co chcesz udokumentować.

Ponieważ dokumentujemy tak wiele rzeczy automatycznie, wyodrębniając metadane, zasadniczo w ciągu kilku dni od zainstalowania oprogramowania, możesz mieć obraz swojego środowiska danych, które ma co najmniej 80 procent w narzędziu. A potem myślę, że jak tylko ludzie zaczną pisać zapytania za pomocą tego narzędzia, są automatycznie zapisywane z powrotem w katalogu, więc też zaczną się pojawiać.

Nie chcę być zbyt chętny, by to powiedzieć. Myślę, że dwa tygodnie to dość konserwatywny szacunek do jednego miesiąca. Dwa tygodnie do miesiąca ostrożne oszacowanie, że naprawdę się odwrócisz i poczujesz, że czerpiesz z tego wartość, jakbyś zaczynał dzielić się wiedzą i móc tam iść i dowiedzieć się czegoś o swoich danych.

Dez Blanchfield: To naprawdę zadziwiające, kiedy się nad tym zastanowić. Fakt, że niektóre z dużych platform danych, które skutecznie indeksujesz i katalogujesz, może czasami zająć nawet rok, aby poprawnie wdrożyć, wdrożyć i wstać.

Ostatnie pytanie, które mam dla ciebie, zanim przekażę Robin Bloor, to złącza. Jedną z rzeczy, które natychmiast na mnie wyskakują, jest to, że najwyraźniej rozwiązałeś całe to wyzwanie. Bardzo szybko pojawia się kilka pytań. Po pierwsze, jak szybko wdrażane są złącza? Oczywiście zaczynasz od największej platformy, takiej jak Oracles i Teradatas itp. Oraz DB2. Ale jak często widzisz nowe łączniki i jaki czas realizacji? Wyobrażam sobie, że masz dla nich standardowe ramy. A jak głęboko w to wchodzisz? Na przykład wyrocznie i IBM na świecie, a nawet Tereadata, a następnie niektóre z bardziej popularnych późnych platform open source. Czy pracują bezpośrednio z tobą? Czy sami to odkrywacie? Czy musisz mieć wiedzę wewnętrzną na tych platformach?

Jak wygląda tworzenie łącznika i jak głęboko angażujesz się w te partnerstwa, aby upewnić się, że łączniki odkrywają wszystko, co możliwe?

David Crawford: Tak, jasne, to świetne pytanie. Myślę, że w większości przypadków możemy opracować złącza. Zrobiliśmy to, gdy byliśmy młodszym startupem i nie mieliśmy klientów. Możemy z pewnością rozwijać połączenia bez potrzeby dostępu wewnętrznego. Nigdy nie uzyskujemy żadnego specjalnego dostępu do systemów danych, które nie są publicznie dostępne, i często bez potrzeby uzyskiwania jakichkolwiek informacji wewnętrznych. Korzystamy z usług metadanych dostępnych w samych systemach danych. Często mogą być dość skomplikowane i trudne do pracy. Znam w szczególności SQL Servera, sposób zarządzania dziennikiem zapytań, kilka różnych konfiguracji i jest to coś, nad czym naprawdę musisz pracować. Musisz zrozumieć niuanse, pokrętła i pokrętła, aby poprawnie go skonfigurować, i nad tym pracujemy z klientami, ponieważ robiliśmy to już kilka razy.

Ale do pewnego stopnia są to dostępne publiczne interfejsy API lub dostępne publiczne interfejsy, które wykorzystujemy. Współpracujemy z kilkoma z tych firm, co jest głównie podstawą do certyfikacji, więc czują się swobodnie mówiąc, że pracujemy, a także mogą zapewnić nam zasoby do testowania, czasem wczesny dostęp, być może, do platformy, która wychodzi, aby upewnić się, że pracujemy nad nowymi wersjami.

Aby odwrócić nowe połączenie, powiedziałbym jeszcze raz, starając się być konserwatywny, powiedzmy sześć tygodni do dwóch miesięcy. To zależy od tego, jak jest podobne. Niektóre prace Postgre wyglądają bardzo podobnie do Redshift. Redshift i Vertica dzielą się wieloma szczegółami. Możemy więc skorzystać z tych rzeczy. Ale tak, sześć tygodni do dwóch miesięcy byłoby sprawiedliwych.

Mamy również interfejsy API, więc - myślimy o Alation również jako platformie metadanych, więc jeśli coś nie jest dostępne, abyśmy mogli się z nią skontaktować i automatycznie pobrać, istnieją sposoby na samodzielne napisanie konektora i wepchnięcie go do naszego systemu, aby że wszystko jest nadal scentralizowane w jednej wyszukiwarce.

Dez Blanchfield: Fantastycznie. Doceniam to. Więc przekażemy to Robinowi, ponieważ jestem pewien, że ma też mnóstwo pytań. Rudzik?

Rebecca Jóźwiak: Robin może być niemy.

Dez Blanchfield: Masz wyciszenie.

Robin Bloor: Tak, racja. Przepraszam, wyciszyłem się. Po wdrożeniu tego, jaki jest proces? Jestem trochę ciekawy, ponieważ w wielu miejscach może być dużo danych. Jak to działa?

David Crawford: Tak, jasne. Wchodzimy, najpierw jest to proces informatyczny polegający na upewnieniu się, że nasz serwer jest zabezpieczony, upewnieniu się, że połączenia sieciowe są dostępne, że porty są otwarte, abyśmy mogli faktycznie uzyskać dostęp do systemów. Wszyscy często wiedzą, od których systemów chcą zacząć. Znajomość systemu danych, który - a czasem faktycznie mu pomożemy. Pomożemy im przejść do wstępnego przeglądu dziennika zapytań, aby dowiedzieć się, kto korzysta z tego i ilu użytkowników ma w systemie. Pomożemy więc dowiedzieć się, gdzie - często, jeśli mają setki lub tysiące osób, które logują się do baz danych, tak naprawdę nie wiedzą, gdzie się logują, abyśmy mogli dowiedzieć się z zapytanie rejestruje, ile unikalnych kont użytkowników faktycznie logujesz się i wykonujesz zapytania tutaj w ciągu około miesiąca.

Możemy więc z tego skorzystać, ale często tylko na najważniejszych. Przygotowujemy je, a potem pojawia się proces powiedzenia: „Ustalmy priorytety”. Istnieje szereg działań, które mogą się odbywać równolegle. Skoncentrowałbym się na szkoleniu w zakresie korzystania z narzędzia do zapytań. Kiedy ludzie zaczną używać narzędzia do zapytań, przede wszystkim wiele osób uwielbia fakt, że jest to tylko jeden interfejs do wszystkich różnych systemów. Uwielbiają również fakt, że jest oparty na sieci, nie wymaga żadnych instalacji, jeśli nie chce. Z punktu widzenia bezpieczeństwa lubią mieć punkt kontaktowy, z punktu widzenia sieci, pomiędzy rodzajem sieci IT firmy a centrum danych, w którym znajdują się źródła danych produkcyjnych. I tak skonfigurują Alation jako narzędzie do wysyłania zapytań i zaczną używać Compose jako punktu dostępu dla wszystkich tych systemów.

Kiedy to się stanie, skupiamy się na szkoleniu, rozumiemy, jakie są różnice między narzędziem do tworzenia zapytań opartym na sieci Web lub na serwerze, a tym, jakie masz na pulpicie, oraz niektóre niuanse związane z używaniem że. Jednocześnie spróbujemy zidentyfikować najcenniejsze dane, ponownie wykorzystując informacje z dziennika zapytań i mówiąc: „Hej, możesz chcieć wejść i pomóc ludziom je zrozumieć. Zacznijmy publikować reprezentatywne zapytania dotyczące tych tabel. ”Czasami jest to najskuteczniejszy sposób na bardzo szybkie rozbudzenie ludzi. Spójrzmy na twoją własną historię zapytań, opublikuj te rzeczy, aby pojawiły się jako pierwsze zapytania. Gdy ludzie patrzą na stronę tabeli, mogą zobaczyć wszystkie zapytania, które dotknęły tej tabeli, i mogą zacząć od tego momentu. A następnie zacznijmy dodawać tytuły i opisy do tych obiektów, aby łatwiej było je znaleźć i wyszukiwać, aby poznać niektóre niuanse jego używania.

Dbamy o to, aby dokładnie przyjrzeć się dziennikowi zapytań, abyśmy mogli wygenerować rodowód. Jedną z rzeczy, które robimy, jest przeglądanie dziennika zapytań w czasie, gdy dane przenoszą się z jednej tabeli do drugiej, a to pozwala nam postawić jedno z najczęściej zadawanych pytań na temat tabeli danych, skąd to się wzięło? Jak mam temu ufać? A zatem możemy pokazać nie tylko, z jakich innych tabel pochodzi, ale także w jaki sposób zostało przekształcone po drodze. Ponownie, jest to rodzaj zasilany przez dziennik zapytań.

Dlatego upewniamy się, że te rzeczy są skonfigurowane i że otrzymujemy rodowód w systemie, i celujemy w najbardziej cenne i najlepiej wykorzystywane fragmenty metadanych, które możemy ustalić na stronach tabeli, tak aby podczas wyszukiwania znajdziesz coś pożytecznego.

Robin Bloor: Dobra. Drugie pytanie - jest wiele pytań od publiczności, więc nie chcę zajmować tutaj zbyt wiele czasu - innym pytaniem, jakie przychodzi mi na myśl, są tylko bóle. Dużo oprogramowania kupiono, ponieważ ludzie w taki czy inny sposób mają z czymś trudności. Więc jaki jest wspólny ból, który prowadzi ludzi do Alation?

David Crawford: Tak. Myślę, że jest ich kilka, ale myślę, że jednym z tych, które często słyszymy, jest wdrożenie analityka. „W najbliższym czasie będę musiał zatrudnić 10, 20, 30 osób, które będą musiały opracować nowe spostrzeżenia na podstawie tych danych, w jaki sposób zamierzają przyspieszyć?” Tak więc z pewnością wprowadzenie analityka sprzęt. Zwalnia również starszych analityków od spędzania całego czasu na odpowiadaniu na pytania innych osób dotyczące danych. To również bardzo częste. Oba są zasadniczo problemami edukacyjnymi.

A potem powiedziałbym, że innym miejscem, w którym widzimy ludzi adoptujących Alation, jest to, że chcą skonfigurować zupełnie nowe środowisko danych dla kogoś do pracy. Chcą je reklamować i sprzedawać wewnętrznie, aby ludzie mogli z nich skorzystać. Zatem uczynienie Alation frontonem dla tego nowego środowiska analitycznego jest bardzo atrakcyjne. Ma dokumentację, ma jeden punkt wprowadzenia do - jeden punkt dostępu do systemów, a więc jest to inne miejsce, do którego ludzie do nas przyjdą.

Robin Bloor: Dobra, przekażę cię Rebecce, ponieważ publiczność próbuje się z tobą skontaktować.

Rebecca Jóźwiak: Tak, mamy tutaj bardzo dobre pytania od publiczności. I David, ten został specjalnie dla ciebie postawiony. Pochodzi od kogoś, kto najwyraźniej ma pewne doświadczenie z ludźmi, niewłaściwie wykorzystując zapytania, a on mówi, że im bardziej wzmacniamy uprawnienia użytkowników, tym trudniej jest zarządzać odpowiedzialnym wykorzystaniem zasobów obliczeniowych. Czy możesz więc bronić się przed rozpowszechnianiem błędnych, ale często używanych zwrotów?

David Crawford: Tak, widzę to pytanie. To świetne pytanie, które dostajemy dość często. Sam widziałem ból w poprzednich firmach, w których musisz szkolić użytkowników. Na przykład: „To jest tabela logów, logi się cofają od lat. Jeśli masz zamiar napisać zapytanie do tej tabeli, naprawdę musisz ograniczyć datę. ”Więc na przykład jest to szkolenie, które przeszedłem w poprzedniej firmie, zanim dostałem dostęp do bazy danych.

Istnieje kilka sposobów rozwiązania tego problemu. Powiedziałbym, że myślę, że dane dziennika zapytań są naprawdę wyjątkowo cenne, aby je rozwiązać. Daje to inny wgląd w porównaniu z tym, co baza danych robi wewnętrznie za pomocą swojego narzędzia do planowania zapytań. I to, co robimy, to jedna z tych interwencji - mamy ręczne interwencje, które pokazałem, a to jest przydatne, prawda? Na przykład przy konkretnym sprzężeniu możesz powiedzieć: „Przestańmy to”. Będzie miał dużą czerwoną flagę, gdy pojawi się w inteligentnej sugestii. Jest to jeden ze sposobów dotarcia do ludzi.

Inną rzeczą, którą robimy, jest automatyzacja podczas interwencji w czasie wykonywania. To faktycznie użyje drzewa analizy zapytania, zanim go uruchomimy, aby zobaczyć, czy zawiera pewien filtr lub kilka innych rzeczy, które tam robimy. Ale jednym z najcenniejszych i najprostszym do wyjaśnienia jest to, czy zawiera filtr? Tak jak w tym przykładzie, który właśnie podałem, ta tabela dziennika, jeśli masz zamiar ją zapytać, musi mieć zakres dat, możesz określić na stronie tabeli, że upoważniasz ten filtr zakresu dat do zastosowania. Jeśli ktoś spróbuje uruchomić zapytanie, które nie zawiera tego filtru, faktycznie zatrzyma je z dużym ostrzeżeniem i powie: „Prawdopodobnie powinieneś dodać do zapytania trochę SQL, który wygląda tak.” Może kontynuować, jeśli chcą. Nie zamierzamy ich tak naprawdę całkowicie blokować - jest to również zapytanie, musi na koniec uruchamiać zapytania. Ale stawiamy przed nimi dość dużą barierę i dajemy im sugestię, konkretną sugestię dotyczącą modyfikacji zapytania w celu poprawy ich wydajności.

W niektórych przypadkach robimy to również automatycznie, ponownie, obserwując dziennik zapytań. Jeśli zobaczymy, że jakiś naprawdę duży procent zapytań w tej tabeli korzysta z określonego filtru lub określonej klauzuli łączenia, wtedy to wyskakujemy. Promujemy to do interwencji. W rzeczywistości przydarzyło mi się to na wewnętrznym zbiorze danych. Mamy dane klientów i identyfikatory użytkowników, ale zestaw identyfikatorów użytkowników, ponieważ jest to rodzaj - mamy identyfikatory użytkowników dla każdego klienta. Nie jest unikalny, więc musisz połączyć go z identyfikatorem klienta, aby uzyskać unikalny klucz łączenia. Pisałem zapytanie, próbowałem coś przeanalizować, a ono wyskoczyło i powiedział: „Hej, wszyscy inni dołączają do tych tabel zarówno z identyfikatorem klienta, jak i identyfikatorem użytkownika. Jesteś pewien, że nie chcesz tego robić? ”I to właściwie powstrzymało mnie od przeprowadzenia niewłaściwej analizy. Działa to zarówno pod względem dokładności analizy, jak i wydajności. W ten sposób podejmujemy ten problem.

Rebecca Jóźwiak: To wydaje mi się skuteczne. Powiedziałeś, że niekoniecznie będziesz blokować gromadzenie zasobów, ale nauczysz ich, że to, co robią, może nie być najlepsze, prawda?

David Crawford: Zawsze zakładamy, że użytkownicy nie są złośliwi - daj im najlepsze intencje - i staramy się być w ten sposób otwarci.

Rebecca Jóźwiak: OK. Oto kolejne pytanie: „Jaka jest różnica między menedżerem katalogu, takim jak Twoje rozwiązanie, a narzędziem MDM? A może faktycznie polega na innej zasadzie, rozszerzając wybór tabel zapytań, podczas gdy MDM zrobiłby to automatycznie, ale z tą samą zasadą zbierania metadanych. ”

David Crawford: Tak, myślę, że kiedy patrzę na tradycyjne rozwiązania MDM, podstawowa różnica jest filozoficzna. Chodzi o to, kim jest użytkownik. Tak jak powiedziałem na początku mojej prezentacji, Alation, myślę, że kiedy zostaliśmy założeni, zostaliśmy założeni w celu umożliwienia analitykom tworzenia większej ilości spostrzeżeń, szybszego ich tworzenia, dokładniejszego spostrzeżenia produkować. Nie sądzę, żeby taki był cel tradycyjnego rozwiązania MDM. Rozwiązania te są zwykle skierowane do osób, które muszą sporządzać raporty o tym, jakie dane zostały przechwycone do SCC lub wewnętrznie w innym celu kontroli. Czasami może włączyć analityków, ale częściej, jeśli ma to umożliwić praktykowi w ich pracy, bardziej prawdopodobne jest włączenie architekta danych, takiego jak DBA.

Kiedy myślisz o rzeczach z punktu widzenia analityka, wtedy zaczynasz budować narzędzie do zapytań, którego narzędzie MDM nigdy by nie zrobiło. Wtedy zaczynasz myśleć o wydajności, o dokładności, a także o tym, jakie dane odnoszą się do moich potrzeb biznesowych. Wszystkie te rzeczy pojawiają się w naszych umysłach podczas projektowania narzędzia. Zajmuje się naszymi algorytmami wyszukiwania, układem stron katalogu i możliwością przekazywania wiedzy z całej organizacji. Chodzi o to, że zbudowaliśmy narzędzie do wysyłania zapytań i że bezpośrednio w nim zbudowaliśmy katalog, więc myślę, że naprawdę z tego wynika. Którego użytkownika masz na myśli?

Rebecca Jóźwiak: Dobra, dobrze. To naprawdę pomogło to wyjaśnić. który bardzo chciał zdobyć archiwa, ponieważ musiał odejść, ale naprawdę chciał uzyskać odpowiedź na swoje pytanie. Powiedział, że na początku wspomniano, że istnieje wiele języków, ale czy SQL jest jedynym językiem używanym w komponencie Compose?

David Crawford: Tak, to prawda. Jedną z rzeczy, które zauważyłem, gdy byłem świadkiem eksplozji różnych rodzajów baz danych, baz danych dokumentów, baz danych grafów, magazynów kluczowych wartości, jest to, że są one naprawdę potężne dla rozwoju aplikacji. Mogą naprawdę dobrze zaspokajać określone potrzeby, w lepszy sposób niż relacyjne bazy danych.

Ale kiedy przywrócisz je do analizy danych, kiedy przywrócisz je - gdy chcesz przekazać te informacje osobom, które będą raportować ad hoc lub kopać dane ad hoc, zawsze wracają do relacji przynajmniej interfejs dla ludzi. Częściowo dzieje się tak dlatego, że SQL jest lingua franca analizy danych, co oznacza, że dla ludzi są to również narzędzia integrujące się. Myślę, że to jest powód, dla którego SQL na Hadoop jest tak popularny i istnieje wiele prób jego rozwiązania, ponieważ pod koniec dnia ludzie o tym wiedzą. Prawdopodobnie są miliony ludzi, którzy wiedzą, jak pisać SQL, a ja nie zaryzykuję milionów, którzy wiedzą, jak napisać zapytanie dotyczące struktury potoku agregacji Mongo. I że jest to standardowy język używany do integracji na naprawdę szerokiej gamie platform. Tak więc to wszystko mówi, że rzadko jesteśmy proszeni o wyjście poza to, ponieważ jest to interfejs, z którego korzysta większość analityków, i jest to miejsce, na którym skupiliśmy się, szczególnie w Compose, na pisaniu SQL.

Powiedziałbym, że nauka danych jest miejscem, w którym zapuszczają się najczęściej poza, więc od czasu do czasu otrzymujemy pytania dotyczące korzystania ze Pig lub SAS. Są to rzeczy, których zdecydowanie nie zajmujemy się w komponowaniu i które chcielibyśmy uchwycić w katalogu. Widzę także R i Python. Mamy kilka sposobów, w jakie stworzyliśmy interfejsy, dzięki którym możesz używać zapytań napisanych w Alation w skryptach R i Python, więc ponieważ często jesteś informatykiem i pracujesz w języku skryptowym, Twój dane źródłowe znajdują się w relacyjnej bazie danych. Zaczynasz od zapytania SQL, a następnie przetwarzasz je dalej i tworzysz wykresy wewnątrz R i Pythona. Stworzyliśmy pakiety, które możesz zaimportować do skryptów, które pobierają zapytania lub wyniki zapytania z Alation, abyś mógł mieć tam mieszany przepływ pracy.

Rebecca Jóźwiak: Dobra, świetnie. Wiem, że trochę minęła godzina, zamierzam zadać jeszcze jedno lub dwa pytania. Wiem, że mówiłeś o wszystkich różnych systemach, z którymi możesz się połączyć, ale jeśli chodzi o dane hostowane zewnętrznie i dane hostowane wewnętrznie, czy można je przeszukiwać w jednym widoku, w jednej platformie?

David Crawford: Jasne. Można to zrobić na kilka sposobów. Wyobrażam sobie, hostowany zewnętrznie, staram się dokładnie wymyślić, co to może znaczyć. Może to oznaczać bazę danych, którą ktoś udostępnia dla Ciebie w AWS. Może to oznaczać publiczne źródło danych z data.gov. Łączymy się bezpośrednio z bazami danych, logując się tak, jak inna aplikacja przy użyciu konta baz danych, i w ten sposób wydobywamy metadane. Więc jeśli mamy konto i mamy otwarty port sieciowy, możemy się do niego dostać. A gdy nie mamy tych rzeczy, mamy coś, co nazywa się wirtualnym źródłem danych, które pozwala zasadniczo przesyłać dokumentację automatycznie, poprzez pisanie własnego konektora lub wypełnianie go, nawet jak przesyłanie CSV, do dokumentowania danych obok danych wewnętrznych. To wszystko zostaje umieszczone w wyszukiwarce. Odwołuje się do artykułów i innych dokumentów oraz rozmów w systemie. Tak sobie radzimy, gdy nie możemy bezpośrednio połączyć się z systemem.

Rebecca Jóźwiak: Dobra, to ma sens. Zadam ci jeszcze jedno pytanie. Jeden uczestnik to z pytaniem: „W jaki sposób zawartość katalogu danych powinna być sprawdzana, weryfikowana lub utrzymywana, gdy dane źródłowe są aktualizowane, gdy dane źródłowe są modyfikowane itp.”

David Crawford: Tak, to pytanie, które często otrzymujemy, i myślę, że jedną z naszych rzeczy - jedną z naszych filozofii, jak powiedziałem, nie wierzymy, że użytkownicy są złośliwi. Zakładamy, że starają się przekazywać najlepszą wiedzę. Nie zamierzają wchodzić i celowo wprowadzać ludzi w błąd co do danych. Jeśli to problem w Twojej organizacji, być może Alation nie jest odpowiednim narzędziem dla Ciebie. Ale jeśli przyjmujesz dobre intencje użytkowników, myślimy o tym jako o tym, że nadchodzą aktualizacje, a wtedy zwykle robimy to, że steward kieruje każdym obiektem danych lub każdą sekcją danych. I możemy powiadomić tych stewardów, gdy zostaną wprowadzone zmiany w metadanych, i mogą sobie z tym poradzić. Widzą nadchodzące aktualizacje, sprawdzają je. Jeśli nie mają racji, mogą wrócić, zmodyfikować je i poinformować, a nawet skontaktować się z użytkownikiem, który przekazał informacje i pomóc im w nauce.

Więc to jest główny sposób, w jaki myślimy o tym. Taka sugestia tłumu i zarządzanie przez stewardów, więc mamy wokół tego pewne możliwości.

Rebecca Jóźwiak: Dobra, dobrze. A jeśli możesz po prostu poinformować ludzi, jak najlepiej zacząć pracę z Alation i gdzie mogą się udać, aby uzyskać więcej informacji. Wiem, że podzieliłeś się tym jednym bit.ly. Czy to najlepsze miejsce?

David Crawford: Alation.com/learnmore Myślę, że to świetny sposób. Aby zapisać się na wersję demo, witryna Alation.com ma wiele świetnych zasobów, oficjalnych dokumentów dla klientów i wiadomości o naszym rozwiązaniu. Myślę więc, że to świetne miejsce na początek. Możesz również wysłać e-mailem.

Rebecca Jóźwiak: Dobra, świetnie. I wiem, uczestnicy, przepraszam, jeśli nie dotarłem dzisiaj do wszystkich pytań, ale jeśli nie, zostaną one przesłane do Davida lub jego zespołu sprzedaży lub kogoś z Alation, aby na pewno mogli odpowiedzieć na twoje pytania i pomóc zrozumieć co robi Alation lub co robią najlepiej.

I z tym, ludzie, pójdę naprzód i podpiszę się. Zawsze możesz znaleźć archiwa na InsideAnalysis.com. Możesz go również znaleźć na Techopedia.com. Zwykle aktualizują się nieco szybciej, więc zdecydowanie to sprawdź. I bardzo dziękuję dziś Davidowi Crawfordowi, Dezowi Blanchfieldowi i Robin Boor. To była świetna transmisja internetowa. I z tym pożegnam cię. Dzięki, ludzie. PA pa.

David Crawford: Dziękuję.

Siła sugestii: w jaki sposób katalog danych umożliwia analitykom

W jaki sposób istniejące środowiska hurtowni danych mogą najlepiej skalować się w celu zaspokojenia potrzeb analizy dużych zbiorów danych?

W jaki sposób zgarnianie danych w uczeniu maszynowym stało się najbardziej pracochłonnym wąskim gardłem od czasu ręcznego wprowadzania danych w starszej migracji?

W jaki sposób sztuczna inteligencja umożliwia wzmocnienie mózgu w celu poprawy pamięci za pomocą elektrycznej stymulacji mózgu?

Wybór redaktorów

Co to jest Final Cut Pro? - definicja z techopedia

Co to jest freeware? - definicja z techopedia

Co to jest szary rynek? - definicja z techopedia

Co to jest ładowanie dysku twardego? - definicja z techopedia

Wybór redaktorów

Co to jest liniowa modulacja impulsowa (lpcm)? - definicja z techopedia

Co to jest przechowywanie danych? - definicja z techopedia

Co to jest MP4? - definicja z techopedia

Co to jest m4v? - definicja z techopedia

Wybór redaktorów

Jakie są wspólne kryteria oceny bezpieczeństwa technologii informatycznych (cc)? - definicja z techopedia

Co to jest poufność? - definicja z techopedia

Co to jest ukryty kanał? - definicja z techopedia

Co to jest crack? - definicja z techopedia

Wybór redaktorów

Co to jest attosekunda (as)? - definicja z techopedii

Jakie są trzy prawa robotyki Asimova? - definicja z techopedia

Co to jest karta nieobecna (cnp)? - definicja z techopedia

Kim jest Charles Babbage? - definicja z techopedia

Wybór redaktorów

Co to jest menedżer konfiguracji centrum systemu (sccm)? - definicja z techopedia

Co to jest aplikacja mobilna? - definicja z techopedia

Co to jest bluej? - definicja z techopedia

Co to jest uwierzytelnianie pozapasmowe (Ooba)? - definicja z techopedia

Popularne kategorie