Dom Sprzęt komputerowy Wielkie żelazo, spotykaj duże zbiory danych: uwalnianie danych na komputerze mainframe za pomocą hadoopa i iskry

Wielkie żelazo, spotykaj duże zbiory danych: uwalnianie danych na komputerze mainframe za pomocą hadoopa i iskry

Anonim

Przez Techopedia Staff, 2 czerwca 2016 r

Na wynos: ekosystem Hadoop jest wykorzystywany na komputerach mainframe do szybkiego i wydajnego przetwarzania dużych zbiorów danych.

Obecnie nie jesteś zalogowany. Zaloguj się lub zarejestruj, aby zobaczyć wideo.

Eric Kavanagh: Dobra, panie i panowie, w czwartek jest czwarta wschodnia, a teraz oznacza to, że nadszedł czas na Hot Technologies. Tak, naprawdę nazywam się Eric Kavanagh. Będę twoim moderatorem dzisiejszego seminarium internetowego. To dobre rzeczy, ludzie, „Big Iron, Meet Big Data” - po prostu uwielbiam ten nagłówek - „Uwolnienie danych na komputerach mainframe dzięki Hadoop i Spark”. Porozmawiamy o tym, co stare spotyka nowe. Łał! Obejmujemy spektrum wszystkiego, o czym rozmawialiśmy w ciągu ostatnich 50 lat IT w przedsiębiorstwie. Spark spotyka komputer mainframe, uwielbiam to.

Jest takie miejsce o tobie naprawdę i wystarczająco dużo o mnie. Rok jest gorący. Mówimy o gorących tematach w tej serii, ponieważ naprawdę staramy się pomóc ludziom zrozumieć pewne dyscypliny, określone przestrzenie. Co to znaczy na przykład mieć platformę analityczną? Co oznacza uwolnienie dużych zbiorów danych z komputerów mainframe? Co oznaczają te wszystkie rzeczy? Staramy się pomóc Ci zrozumieć konkretne rodzaje technologii, gdzie pasują one do miksu i jak możesz z nich korzystać.

Dzisiaj mamy dwóch analityków, a potem oczywiście Tendü Yogurtçu z Syncsort. Jest wizjonerką w naszej przestrzeni, bardzo się cieszy, że ma ją dzisiaj w sieci, z naszym własnym Dezem Blanchfieldem i dr Robin Bloor. Powiem tylko kilka szybkich słów. Po pierwsze, ludzie, odgrywasz dużą rolę w tym procesie, więc nie wstydź się zadawać dobrych pytań. Chcielibyśmy się do nich dostać podczas komponentu pytań i odpowiedzi w webcastie, który zwykle znajduje się na końcu programu. I wszystko, co muszę powiedzieć, to to, że mamy dużo dobrych treści, więc jestem podekscytowany tym, co mają do powiedzenia ci chłopcy. Po tym przekażę to Dezowi Blanchfieldowi. Dez, podłoga jest twoja, zabierz ją.

Dez Blanchfield: Dziękuję, Eric, i dziękuję wszystkim za udział w dzisiejszym spotkaniu. Jestem więc bardzo podekscytowany, gdy mam okazję porozmawiać o jednej z moich ulubionych rzeczy na świecie - komputerach mainframe. W dzisiejszych czasach nie kochają się zbytnio. Moim zdaniem mainframe była oryginalną platformą big data. Niektórzy twierdzą, że w tamtym czasie byli jedynymi komputerami i jest to słuszna decyzja, ale od ponad 60 lat naprawdę są oni maszynownią tego, co duże zbiory danych ostatnio zyskały na popularności. Zabiorę cię w małą podróż, dlaczego tak uważam.

Widzieliśmy podróż w stosach technologii w kontekście przesunięcia komputerów mainframe z obrazu, który widzisz teraz na ekranie. To stara mainframe FACOM, jedna z moich ulubionych. Przeszliśmy do wielkiej żelaznej fazy, późnych lat dziewięćdziesiątych i boomu kropek. To jest Sun Microsystems E10000. Ta rzecz była absolutnym potworem przy 96 procesorach. Początkowo 64, ale można go było uaktualnić przy 96 procesorach. Każdy procesor może obsługiwać 1024 wątki. Każdy wątek może być jednocześnie stosowany. To było po prostu potworne i faktycznie napędzało boom dot-com. To są wszystkie wielkie jednorożce, jak je nazywamy, teraz prowadzimy, a nie tylko duże przedsiębiorstwa, niektóre duże strony internetowe.

A potem skończyliśmy z tym powszechnym gotowym modelem na PC. Właśnie połączyliśmy razem wiele tanich maszyn, stworzyliśmy klaster i podeszliśmy do wielkiego wyzwania związanego z żelazem i tego, co stało się dużymi danymi, szczególnie w formie projektu Hadoop, który stworzył wyszukiwarkę open source, Nutch. Zasadniczo odtworzyliśmy komputer mainframe i wiele małych procesorów sklejonych ze sobą i mogących zachowywać się jak ścieżki L oraz w postaci uruchamiania oddzielnych zadań lub części zadań i były one dość skuteczne na wiele sposobów. Tańsze, jeśli zacząłeś mniejszy, ale niezmiennie wiele z tych dużych klastrów stało się droższych niż komputer mainframe.

Mój pogląd na te rzeczy jest taki, że w pośpiechu od boomu dot-com aż do tego, co stało się Web 2.0 i teraz ściga jednorożce, zapomnieliśmy, że ta platforma wciąż zasila wiele naszych największych systemów o kluczowym znaczeniu. Kiedy myślimy o tym, co działa na platformach mainframe tam. To w dużej mierze duże zbiory danych, zwłaszcza koń roboczy danych, ale z pewnością duże zbiory danych. Tradycyjne systemy korporacyjne i rządowe, takie jak bankowość, zarządzanie majątkiem i ubezpieczenia, z których wszyscy korzystamy na co dzień.

Rezerwacja linii lotniczych i systemy zarządzania lotem, w szczególności zarządzanie lotem tam, gdzie krytyczny jest czas rzeczywisty. Prawie każdy rząd stanowy i federalny miał kiedyś komputer mainframe i niezmiennie wielu wciąż go ma. Handel detaliczny i produkcja. Niektóre stare oprogramowanie, które właśnie istniało i nigdy nie zniknęło. Po prostu nadal zasila środowiska produkcyjne i na pewno sprzedaż detaliczną na dużą skalę. Systemy medyczne. Systemy obronne, z pewnością systemy obronne.

W ciągu ostatnich kilku tygodni przeczytałem wiele artykułów o tym, że niektóre systemy kontroli rakiet nadal działają na starych komputerach mainframe, z którymi starają się znaleźć części. Zastanawiają się, jak uaktualnić do nowych komputerów mainframe. Systemy transportowe i logistyczne. To może nie zabrzmieć jak seksowne tematy, ale są to tematy, z którymi mamy do czynienia na co dzień w różnych liniach. Niektóre bardzo duże środowiska telekomunikacyjne nadal działają na platformach mainframe.

Kiedy myślisz o typach danych, które tam są, wszystkie mają kluczowe znaczenie dla misji. To naprawdę ważne platformy i platformy, które bierzemy za pewnik każdego dnia i pod wieloma względami umożliwiają życie. Kto więc nadal korzysta z komputera mainframe i kim są ci wszyscy ludzie, którzy trzymają się tych dużych platform i przechowują wszystkie te dane? Cóż, jak powiedziałem tutaj, uważam, że łatwo dać się zwieść zmianie mediów z dużych żelazek na stojaki popularnych gotowych klastrów lub tanich komputerów PC lub komputerów x86, myśląc, że komputer mainframe umarł i odszedł. Ale dane mówią, że komputer mainframe nigdy nie odszedł i tak naprawdę jest tutaj.

Badania, które zebrałem tutaj w ciągu ostatnich kilku tygodni, wykazały, że 70 procent danych przedsiębiorstw, szczególnie dużych przedsiębiorstw, nadal faktycznie znajduje się na jakiejś formie komputera mainframe. Siedemdziesiąt jeden procent z listy Fortune 500 nadal gdzieś obsługuje podstawowe systemy biznesowe na komputerach mainframe. W rzeczywistości tutaj, w Australii, mamy wiele organizacji, które mają centrum danych w środku miasta. To faktycznie podziemny komputer skutecznie, a liczba komputerów mainframe właśnie tam działa, tyka i szczęśliwie wykonuje swoją pracę. I bardzo niewiele osób wie, że spacerując ulicami, tuż pod ich stopami w jednej konkretnej części miasta, znajduje się to ogromne centrum danych wypełnione komputerami mainframe. Dziewięćdziesiąt dwa ze 100 banków na całym świecie, czyli 100 najlepszych banków, nadal obsługuje systemy bankowe na komputerach mainframe. Dwadzieścia trzy z 25 najlepszych sieci handlowych na całym świecie korzystają z komputerów mainframe, aby nadal obsługiwać systemy zarządzania sprzedażą detaliczną na platformach EIP i BI.

Co ciekawe, 10 z 10 najlepszych ubezpieczycieli nadal obsługuje swoje platformy na komputerze mainframe i faktycznie obsługuje swoje usługi chmurowe na komputerze mainframe. Jeśli używasz interfejsu internetowego lub aplikacji mobilnej gdzieś, gdzie jest oprogramowanie pośrednie, interfejs jest w rzeczywistości rozmawiający z czymś naprawdę ciężkim i dużym z tyłu.

Znalazłem ponad 225 agencji rządowych i samorządowych na całym świecie działających na platformach mainframe. Jestem pewien, że jest wiele powodów. Może nie mają budżetu na rozważenie nowego żelazka, ale jest to ogromny ślad dla bardzo dużych środowisk działających na komputerze mainframe z niektórymi bardzo krytycznymi danymi. I jak wspomniałem wcześniej, większość narodów nadal używa swoich kluczowych systemów obrony na komputerze mainframe. Jestem pewien, że pod wieloma względami próbują się stąd wydostać, ale proszę bardzo.

W 2015 r. IDC przeprowadziło ankietę, a 350 ankietowanych dyrektorów IT poinformowało, że nadal posiada duże żelazo i zarządza nimi w postaci komputerów mainframe. Uderzyło mnie, że jest to więcej niż liczba dużych klastrów Hadoop działających obecnie na całym świecie w produkcji - ciekawe małe statystyki. Zamierzam to potwierdzić i potwierdzić, ale to była duża liczba. Trzysta pięćdziesięciu dyrektorów ds. Informatycznych poinformowało, że nadal produkuje jedną lub więcej komputerów mainframe.

W ubiegłym roku 2015 IBM dał nam potężną Z13, 13. iterację swojej platformy mainframe. Media oszalały na punkcie tego, ponieważ były zdumione, że IBM wciąż produkuje komputery mainframe. Kiedy podnieśli maskę i spojrzeli na to, co kryje się pod tym czymś, zdali sobie sprawę, że w rzeczywistości jest na równi z prawie każdą nowoczesną platformą, która nas ekscytuje w postaci dużych zbiorów danych, Hadoop i na pewno klastrów. Ta rzecz prowadziła Spark, a teraz natywnie Hadoop. Można na nim uruchamiać tysiące komputerów z systemem Linux, który wyglądał i działał jak każdy inny klaster. To była dość zdumiewająca maszyna.

Wiele organizacji zajęło się tymi rzeczami i faktycznie zrobiłem trochę danych na temat tego, ile z tych komputerów zajmuje. Teraz miałem pogląd, że terminal tekstowy 3270 został na jakiś czas zastąpiony przez przeglądarki internetowe i aplikacje mobilne i jest tam mnóstwo danych, które to obsługują. Myślę, że teraz wkraczamy w erę, w której zdaliśmy sobie sprawę, że te komputery mainframe nie znikają i jest na nich znaczna ilość danych. Więc teraz robimy po prostu dodając to, co nazywam gotowymi narzędziami analitycznymi. To nie są aplikacje niestandardowe. Są to rzeczy jednorazowe. Są to rzeczy, które można dosłownie kupić po prostu w zapakowanym pudełku per se i podłączyć do komputera mainframe i przeprowadzić analizę.

Jak już powiedziałem, mainframe istnieje już od ponad 60 lat. Kiedy zastanowimy się, jak długo to trwa, jest to dłuższe niż w rzeczywistości kariery większości żyjących specjalistów IT. I prawdopodobnie nawet część ich życia. W 2002 r. IBM sprzedał 2300 komputerów mainframe. W 2013 r. Liczba ta wzrosła do 2700 komputerów mainframe. To 2700 sprzedaży komputerów mainframe w ciągu jednego roku w 2013 roku. Nie mogłem uzyskać dokładnych danych za 2015 rok, ale wyobrażam sobie, że szybko zbliża się do 3000 sprzedanych urządzeń rocznie w 2015, 2013. Z niecierpliwością czekam na to, aby to potwierdzić.

Wraz z wydaniem Z13, trzynastej iteracji platformy mainframe, która według mnie kosztowała około 1, 2 lub 1, 3 miliarda dolarów od samego początku, czyli IBM, oto maszyna, która wygląda i działa jak każdy inny klaster, który mamy dzisiaj i natywnie działa Hadoop i Spark. Z pewnością można go połączyć z innymi narzędziami analitycznymi i Big Data lub niezmiennie podłączyć do jednego z istniejących lub nowych klastrów Hadoop. Uważam, że włączenie platformy mainframe do strategii dużych zbiorów danych jest koniecznością. Oczywiście, jeśli je masz, masz dużo danych i chcesz dowiedzieć się, jak je uzyskać. I pozostawia się je do zbierania kurzu na wiele sposobów, mentalnie i emocjonalnie, do świata biznesu, ale są tutaj, aby zostać.

Łączność i interfejsy dla wszystkich narzędzi analitycznych do danych hostowanych na komputerach mainframe powinny być kluczową częścią przedsiębiorstwa, a zwłaszcza rządowych planów dużych zbiorów danych. I niezmiennie teraz oprogramowanie je zauważa, przygląda się im z bliska i zdaje sobie sprawę z tego, co jest w tych rzeczach, i łączy umysły, które zaczynają mieć wgląd i wyczucie tego, co jest pod maską. I dzięki temu przekażę mojemu drogiemu koledze, doktorowi Robinowi Bloorowi, a on przyczyni się do tej małej podróży. Robin, zabierz to.

Robin Bloor: Cóż, dziękuję. Dobra, odkąd Dez zaśpiewał piosenkę na komputerze mainframe, przejdę do tego, co moim zdaniem dzieje się w odniesieniu do starego świata komputerów mainframe i nowego świata Hadoop. Chyba najważniejsze pytanie brzmi: w jaki sposób zarządzasz wszystkimi tymi danymi? Nie uważam, że mainframe jest kwestionowana ze względu na jego zdolność do dużych zbiorów danych - jego zdolność do dużych zbiorów danych jest niezwykle wysoka, jak zauważył Dez, jest niezwykle zdolna. W rzeczywistości możesz umieścić na nim klastry Hadoop. To, co jest kwestionowane, dotyczy ekosystemu, a ja trochę rozwinę ten temat.

Oto niektóre pozycjonowanie komputerów mainframe. Ma wysoki koszt wejścia i to, co faktycznie się wydarzyło w przeszłości, od połowy lat 90., kiedy popularność komputerów mainframe zaczęła spadać, zwykle traciła swój niski poziom, ludzi, którzy kupili tanie komputery mainframe i nie było to naprawdę szczególnie ekonomiczne dla tych ludzi. Ale wyżej w rzeczywistości w średnim i wysokim zakresie mainframe nadal było i jest wyraźnie widoczne, niesamowicie niedrogie przetwarzanie.

Trzeba było powiedzieć, że został uratowany przez Linuksa, ponieważ Linux zaimplementowany na komputerze mainframe umożliwił oczywiście uruchomienie wszystkich aplikacji Linuksa. Wiele aplikacji Linuksa poszło tam, zanim duże zbiory danych były nawet słowem lub dwoma słowami. W rzeczywistości jest to dość doskonała platforma dla chmury prywatnej. Z tego powodu może uczestniczyć we wdrożeniach chmury hybrydowej. Jednym z problemów jest brak umiejętności w zakresie komputerów mainframe. Istniejące umiejętności w zakresie komputerów mainframe starzeją się w tym sensie, że ludzie odchodzą z branży na emeryturę z roku na rok i zastępuje się je tylko liczbą osób. To jest problem. Ale wciąż jest niedrogie.

Obszar, w którym jest kwestionowany, to oczywiście cała ta gra Hadoop. To zdjęcie Douga Cuttinga z oryginalnym słoniem Hadoop. Ekosystem Hadoop jest - i pozostanie - dominującym ekosystemem dużych zbiorów danych. Oferuje lepszą skalowalność, niż może faktycznie osiągnąć komputer mainframe, i znacznie obniża koszty przechowywania danych. Ekosystem Hadoop ewoluuje. Najlepszym sposobem, aby pomyśleć o tym, jest kiedyś konkretna platforma sprzętowa i środowisko operacyjne z nią dominujące, a następnie ekosystem po prostu ożywa. I stało się to z komputerem mainframe IBM. Cóż, później stało się z Digital VAX, stało się z serwerami Sun, stało się z Windows, stało się z Linuxem.

Stało się tak, że Hadoop, o którym zawsze myślę, lub o którym myślę, jako rodzaj rozproszonego środowiska danych, ekosystem ewoluuje w niewiarygodnym tempie. Mam na myśli, jeśli tylko wspominasz o różnych imponujących pracach, które są open source, Spark, Flink, Kafka, Presto, a następnie dodajesz do tego niektóre bazy danych, funkcje NoSQL i SQL, które są teraz dostępne na Hadoop. Hadoop to najbardziej aktywny ekosystem, który faktycznie istnieje, z pewnością w środowisku korporacyjnym. Ale jeśli chcesz potraktować go jako bazę danych, po prostu nie ma obecnie żadnego porównania z tym, co zwykle uważam za prawdziwe bazy danych, szczególnie w przestrzeni hurtowni danych. To do pewnego stopnia tłumaczy sukces wielu dużych baz danych NoSQL, które nie działają na Hadoop, takich jak CouchDB i tak dalej.

Jako jezioro danych ma znacznie bogatszy ekosystem niż jakakolwiek inna platforma i nie zostanie z niego wyparty. Jego ekosystem to nie tylko ekosystem open source. Istnieje obecnie ogromna liczba członków oprogramowania, którzy mają produkty, które są zasadniczo zbudowane dla Hadoop lub zostały zaimportowane do Hadoop. Właśnie stworzyli ekosystem, w którym nie ma niczego, co mogłoby konkurować pod względem jego szerokości. A to oznacza, że ​​tak naprawdę stała się platformą dla innowacji w zakresie dużych zbiorów danych. Ale moim zdaniem jest jeszcze niedojrzały i moglibyśmy długo dyskutować o tym, co jest i nie jest, powiedzmy, operacyjnie dojrzałe z Hadoop, ale myślę, że większość ludzi, którzy patrzą na ten konkretny obszar, jest świadoma tego, że Hadoop ma dekady za mainframe pod względem zdolności operacyjnych.

Ewoluujące jezioro danych. Jezioro danych jest z definicji platformą, a jeśli pomyślisz o istnieniu warstwy danych w obliczeniach korporacyjnych, bardzo łatwo jest myśleć o niej w kategoriach stałych baz danych oraz jeziora danych tworzącego warstwę danych. Aplikacje Data Lake są liczne i różnorodne. Mam tutaj schemat, który po prostu omawia różne rzeczy, które muszą być zrobione, jeśli używasz Hadoopa jako obszaru przejściowego lub Hadoopa i Spark jako obszaru przejściowego. I masz wszystko - rodowód danych, czyszczenie danych, zarządzanie metadanymi, wykrywanie metadanych - może być używany do samego ETL, ale często wymaga ETL do wprowadzenia danych. Zarządzanie danymi głównymi, definicje biznesowe danych, zarządzanie usługami co dzieje się w Hadoop, zarządzanie cyklem życia danych i ETL poza Hadoop, a także masz aplikacje do bezpośredniej analizy, które możesz uruchomić na Hadoop.

I dlatego stał się bardzo wydajny i tam, gdzie został zaimplementowany i wdrożony z powodzeniem, zwykle ma na nim co najmniej kolekcję tego rodzaju aplikacji. I większość z tych aplikacji, szczególnie tych, o których zostałem poinformowany, po prostu nie są teraz dostępne na komputerze mainframe. Ale możesz je uruchomić na komputerze mainframe, na klastrze Hadoop, który działał na partycji komputera mainframe.

Jezioro danych staje się, moim zdaniem, naturalnym obszarem przejściowym dla szybkiej analizy baz danych i BI. Staje się miejscem, w którym pobierasz dane, bez względu na to, czy są to dane firmowe, czy zewnętrzne, zadzierasz z nimi, dopóki nie będą, powiedzmy, wystarczająco czyste, aby można było z nich korzystać i mają odpowiednią strukturę, a następnie przekażesz je dalej. A wszystko to jest jeszcze w powijakach.

Moim zdaniem idea współistnienia komputerów typu mainframe / Hadoop, po pierwsze, duże firmy raczej nie porzucą komputera mainframe. W rzeczywistości wskazania, które ostatnio widziałem, wskazują na rosnącą inwestycję w komputer mainframe. Ale nie będą też ignorować ekosystemu Hadoop. Widzę liczby 60 procent dużych firm korzystających z Hadoop, nawet jeśli wiele z nich faktycznie tworzy prototypy i eksperymentuje.

Zagadka brzmi zatem: „Jak sprawić, by te dwie rzeczy współistniały?”, Ponieważ będą musieli udostępniać dane. Dane, które są wprowadzane do jeziora danych, muszą przenieść na komputer mainframe. Dane znajdujące się na komputerze mainframe mogą wymagać przejścia do jeziora danych lub przez jezioro danych, aby połączyć się z innymi danymi. I tak się stanie. A to oznacza, że ​​wymaga szybkiego transferu danych / funkcji ETL. Jest mało prawdopodobne, aby obciążenia robocze były dynamicznie dzielone w, powiedzmy, środowisku mainframe lub z czymś w środowisku Hadoop. To będą udostępniane dane. Większość danych nieuchronnie znajdzie się w Hadoop tylko dlatego, że jest to najtańsza platforma. Prawdopodobnie również tam będzie znajdować się kompleksowe przetwarzanie analityczne.

Podsumowując, ostatecznie musimy myśleć w kategoriach korporacyjnej warstwy danych, która dla wielu firm będzie obejmować komputer mainframe. Ta warstwa danych musi być proaktywnie zarządzana. W przeciwnym razie dwa nie będą dobrze współistnieć. Mogę podać ci piłkę, Eric.

Eric Kavanagh: Ponownie, Tendü Właśnie stworzyłem cię prezenterem, więc zabierz go.

Tendü Yogurtçu: Dziękuję, Eric. Dziękuje za gościnę. Cześć wszystkim. Będę mówić o doświadczeniu Syncsort z klientami w związku z tym, jak postrzegamy dane jako aktywa w organizacji, które są wyrównywane od komputerów mainframe do dużych danych na platformach analitycznych. Mam nadzieję, że pod koniec sesji będziemy mieli czas na pytania od publiczności, ponieważ to naprawdę najcenniejsza część tych webcastów.

Tylko dla osób, które nie wiedzą, co robi Syncsort, Syncsort jest firmą programistyczną. Byliśmy około 40 lat. Zaczęliśmy od strony mainframe, a nasze produkty rozciągają się od mainframe do Unixa i platform big data, w tym Hadoop, Spark, Splunk, zarówno na miejscu, jak iw chmurze. Zawsze koncentrowaliśmy się na produktach danych, przetwarzaniu danych i produktach integracji danych.

Nasza strategia w odniesieniu do dużych zbiorów danych i Hadoop od samego początku naprawdę stała się częścią ekosystemu. Jako właściciele dostawców, którzy naprawdę skupili się na przetwarzaniu danych za pomocą bardzo lekkich silników, pomyśleliśmy, że istnieje duża szansa, aby Hadoop stał się platformą przetwarzania danych i był częścią architektury hurtowni danych nowej generacji dla organizacji. Od 2011 roku współpracujemy z projektami Apache typu open source, zaczynając od MapReduce. Zostałem w pierwszej dziesiątce Hadoop w wersji 2 i faktycznie uczestniczyłem w wielu projektach, w tym również w pakietach Spark, niektóre nasze złącza są publikowane w pakietach Spark.

Wykorzystujemy nasz bardzo lekki silnik przetwarzania danych, który jest całkowicie oparty na płaskich metadanych i dobrze współpracuje z rozproszonymi systemami plików, takimi jak Hadoop Distributed File System. Wykorzystujemy nasze dziedzictwo na komputerach mainframe, naszą wiedzę specjalistyczną w zakresie algorytmów, gdy wprowadzamy nasze produkty Big Data. I ściśle współpracujemy z głównymi dostawcami, głównymi graczami tutaj, w tym Hortonworks, Cloudera, MapR, Splunk. Hortonworks ogłosiło niedawno, że odsprzeda nasz produkt do wbudowania ETL z Hadoop. Z firmą Dell i Cloudera współpracujemy bardzo ściśle, a także odsprzedajemy nasz produkt ETL w ramach jego urządzenia do dużych zbiorów danych. Dzięki Splunk publikujemy dane telemetryczne i dane bezpieczeństwa na komputerach mainframe w pulpitach nawigacyjnych Splunk. Mamy bliskie partnerstwo.

O czym myśli każdy menedżer na poziomie C? Naprawdę brzmi: „Jak wykorzystać moje zasoby danych?” Wszyscy mówią o dużych danych. Wszyscy mówią o Hadoop, Spark, kolejnej platformie komputerowej, która może pomóc mi rozwinąć sprawność biznesową i otworzyć nowe transformacyjne aplikacje. Nowe możliwości wejścia na rynek. Każdy menedżer myśli: „Jaka jest moja strategia danych, jaka jest moja inicjatywa dotycząca danych i jak mogę się upewnić, że nie pozostanę w tyle za konkurencją i nadal będę obecny na tym rynku przez następne trzy lata?” widzimy to, gdy rozmawiamy z naszymi klientami, gdy rozmawiamy z naszą globalną bazą klientów, która jest dość duża, jak można sobie wyobrazić, ponieważ jesteśmy tu od jakiegoś czasu.

Gdy rozmawiamy ze wszystkimi tymi organizacjami, widzimy to również w stosie technologii w wyniku zakłóceń, które miały miejsce w Hadoop. To naprawdę w celu zaspokojenia tego zapotrzebowania na dane jako zasób. Wykorzystując wszystkie zasoby danych, które posiada organizacja. Zauważyliśmy, że architektura hurtowni danych ewoluuje w taki sposób, że Hadoop jest teraz centralnym punktem nowoczesnej architektury danych. I większość naszych klientów, bez względu na to, czy są to usługi finansowe, czy ubezpieczenie, telekomunikacja detaliczna, inicjatywy polegają zwykle na tym, że Hadoop to usługa lub dane jako usługa. Ponieważ wszyscy starają się udostępnić zasoby danych swoim klientom zewnętrznym lub wewnętrznym. W niektórych organizacjach widzimy inicjatywy takie jak niemal rynek danych dla swoich klientów.

Jednym z pierwszych kroków do osiągnięcia tego jest stworzenie centrum danych dla przedsiębiorstw. Czasami ludzie nazywają to jezioro danych. Utworzenie tego centrum danych przedsiębiorstwa nie jest tak proste, jak się wydaje, ponieważ naprawdę wymaga dostępu i gromadzenia praktycznie dowolnych danych w przedsiębiorstwie. Dane te pochodzą teraz ze wszystkich nowych źródeł, takich jak czujniki mobilne, a także ze starszych baz danych i są w trybie wsadowym i strumieniowym. Jednak integracja danych zawsze stanowiła wyzwanie, biorąc pod uwagę liczbę i różnorodność źródeł danych oraz różne style dostarczania, niezależnie od tego, czy chodzi o partię, czy przesyłanie strumieniowe w czasie rzeczywistym, jest teraz jeszcze trudniejsza w porównaniu do pięciu lat temu, dziesięć lat temu. Czasami nazywamy to: „To już nie jest ETL twojego ojca”.

Mówimy więc o różnych zasobach danych. Ponieważ przedsiębiorstwa starają się zrozumieć nowe dane, dane gromadzone z urządzeń mobilnych, niezależnie od tego, czy są to czujniki producenta samochodu, czy dane użytkownika mobilnej firmy hazardowej, często muszą odnosić się do najważniejszych danych w przedsiębiorstwo, na przykład informacje o kliencie. Te najbardziej krytyczne zasoby danych często znajdują się na komputerze mainframe. Korelowanie danych na komputerach mainframe z tymi nowymi źródłami, gromadzonymi w chmurze, gromadzonymi za pośrednictwem urządzeń mobilnych, gromadzonymi na linii produkcyjnej japońskiej firmy samochodowej lub w Internecie z aplikacjami internetowymi, musi nadawać sens tym nowym danym, odwołując się do ich starszych zbiorów danych. Te starsze zestawy danych często znajdują się na komputerze mainframe.

A jeśli te firmy nie są w stanie tego zrobić, nie są w stanie skorzystać z danych na komputerze mainframe, oznacza to, że nie ma szans. Zatem dane jako usługa lub wykorzystanie wszystkich danych przedsiębiorstwa tak naprawdę nie wykorzystuje najbardziej krytycznych zasobów w organizacji. Istnieje również część danych telemetrycznych i danych bezpieczeństwa, ponieważ prawie wszystkie dane transakcyjne są przechowywane na komputerze mainframe.

Wyobraź sobie, że idziesz do bankomatu. Myślę, że jeden z uczestników wysłał do uczestników wiadomość o ochronie systemu bankowego, kiedy przesuwasz swoją kartę, że dane transakcyjne są dostępne na całym świecie na komputerze mainframe. Zabezpieczanie i zbieranie danych bezpieczeństwa i danych telemetrycznych z komputerów mainframe oraz udostępnianie ich za pośrednictwem pulpitów nawigacyjnych Splunk lub innych, Spark, SQL, staje się teraz bardziej krytyczne niż kiedykolwiek, ze względu na ilość danych i różnorodność danych.

Zestawy umiejętności to jedno z największych wyzwań. Ponieważ z jednej strony masz szybko zmieniający się stos dużych zbiorów danych, nie wiesz, który projekt przetrwa, który nie przetrwa, czy powinienem zatrudnić programistów Hive czy Pig? Czy powinienem inwestować w MapReduce czy Spark? Albo następna rzecz, Flink, ktoś powiedział. Czy powinienem inwestować w jedną z tych platform komputerowych? Z jednej strony nadążanie za szybko zmieniającym się ekosystemem jest wyzwaniem, z drugiej strony mamy te starsze źródła danych. Nowe zestawy umiejętności tak naprawdę nie pasują i możesz mieć problem, ponieważ te zasoby mogą się wycofywać. Istnieje duża luka w zakresie umiejętności osób, które rozumieją te starsze stosy danych i rozumieją stos nowych technologii.

Drugim wyzwaniem jest zarządzanie. Kiedy naprawdę uzyskujesz dostęp do wszystkich danych korporacyjnych na różnych platformach, mamy klientów, którzy wyrazili obawy, że: „Nie chcę, aby moje dane wylądowały. Nie chcę, aby moje dane były kopiowane w wielu miejscach, ponieważ chcę w jak największym stopniu unikać wielu kopii. Chcę mieć pełny dostęp bez lądowania na środku. ”Zarządzanie tymi danymi staje się wyzwaniem. Inną kwestią jest to, że jeśli uzyskujesz dostęp do danych w wąskich gardłach, jeśli gromadzisz większość danych w chmurze oraz uzyskujesz dostęp do starszych danych i odnosisz się do nich, przepustowość sieci staje się problemem, platformą klastrową. Jest wiele wyzwań, jeśli chodzi o posiadanie tej inicjatywy dużych zbiorów danych i zaawansowanych platform analitycznych, a jednocześnie wykorzystanie wszystkich danych przedsiębiorstwa.

To, co oferuje Syncsort, nazywane jest „po prostu najlepszym”, nie dlatego, że jesteśmy po prostu najlepsi, ale nasi klienci naprawdę nazywają nas po prostu najlepszymi w zakresie dostępu i integracji danych na komputerach mainframe. Obsługujemy wszystkie formaty danych z komputera mainframe i udostępniamy je do analizy dużych zbiorów danych. Czy to na Hadoop, Spark czy na kolejnej platformie komputerowej. Ponieważ nasze produkty naprawdę izolują złożoność platformy komputerowej. Jako programista potencjalnie rozwijasz się na laptopie, koncentrujesz się na potoku danych i jakie są przygotowania danych, kroki, aby te dane zostały utworzone na potrzeby analizy, kolejnej fazy i weź tę samą aplikację w MapReduce lub weź to ta sama aplikacja w Spark.

Pomogliśmy naszym klientom to zrobić, gdy YARN stał się dostępny i musieli przenieść swoje aplikacje z MapReduce w wersji 1 do YARN. Pomagamy im robić to samo z Apache Spark. Nasz produkt, nowa wersja 9, działa również ze Spark i jest dostarczany z dynamiczną optymalizacją, która zaizoluje te aplikacje dla przyszłych środowisk komputerowych.

Mamy więc dostęp do danych na komputerze mainframe, niezależnie od tego, czy są to pliki VSAM, czy to DB2, czy dane telemetryczne, takie jak rekordy SMF, Log4j lub syslogs, które należy wizualizować za pomocą pulpitów nawigacyjnych Splunk. Robiąc to, ponieważ organizacja może wykorzystać istniejące umiejętności inżyniera danych lub ETL, czas programowania jest znacznie skrócony. W rzeczywistości w przypadku Dell i Cloudera sponsorowany był niezależny test porównawczy, który skupiał się na czasie programowania potrzebnym, jeśli robisz ręczne kodowanie lub korzystasz z innych narzędzi, takich jak Syncsort, i to było o 60, 70 procent skrócenie czasu programowania . Wypełnianie luk w zestawach umiejętności między grupami, hostami plików danych, a także hostami plików danych pod względem osób.

Zwykle zespół dużych zbiorów danych lub zespół zajmujący się przetwarzaniem danych lub zespół, którego zadaniem jest opracowanie tych danych jako architektury usług, niekoniecznie rozmawiają z zespołem mainframe. Chcą zminimalizować tę interakcję prawie w wielu organizacjach. Wypełniając tę ​​lukę, osiągnęliśmy postęp. A najważniejszą częścią jest naprawdę zabezpieczenie całego procesu. Ponieważ w przedsiębiorstwie, gdy mamy do czynienia z tego rodzaju poufnymi danymi, istnieje wiele wymagań.

W branżach o wysokim stopniu regulacji, takich jak ubezpieczenia i bankowość, pytają nasi klienci: „Oferujesz dostęp do danych na komputerach mainframe i to świetnie. Czy możesz mi również zaproponować, aby ten format rekordu zakodowany w EBCDIC był zachowany w oryginalnym formacie, aby spełnić moje wymagania dotyczące audytu? ”. Dlatego sprawiamy, że Hadoop i Apache Spark rozumieją dane na komputerach mainframe. Możesz zachować dane w oryginalnym formacie rekordu, wykonać platformę komputerową dystrybutora przetwarzania i poziomów, a jeśli musisz to przywrócić, możesz pokazać, że rekord nie został zmieniony, a format rekordu nie został zmieniony, możesz spełnić wymogi prawne .

Większość organizacji, tworząc centrum danych lub jezioro danych, stara się to zrobić jednym kliknięciem, aby móc odwzorować metadane z setek schematów w bazie danych Oracle na tabele Hive, pliki ORC lub Parquet staje się konieczne. Dostarczamy narzędzia i zapewniamy narzędzia, dzięki którym jest to jednoetapowy dostęp do danych, zadania automatycznego generowania lub przenoszenia danych oraz zadania automatycznego generowania do mapowania danych.

Rozmawialiśmy o części związanej z łącznością, zgodności, zarządzaniu i przetwarzaniu danych. Nasze produkty są dostępne zarówno lokalnie, jak i w chmurze, co sprawia, że ​​jest to naprawdę bardzo proste, ponieważ firmy nie muszą myśleć o tym, co stanie się w przyszłym roku lub dwóch, jeśli zdecyduję się przejść całkowicie w chmurze publicznej zamiast hybrydowej środowisko, ponieważ niektóre klastry mogą działać lokalnie lub w chmurze. Nasze produkty są dostępne zarówno na Amazon Marketplace, na EC2, Elastic MapReduce, jak i na pojemnikach Docker.

Podsumowując, abyśmy mieli wystarczająco dużo czasu na pytania i odpowiedzi, naprawdę chodzi o dostęp do danych, integrację z nimi i ich przestrzeganie, a jednocześnie uproszczenie. A jednocześnie upraszczając, „projektuj raz i wdrażaj w dowolnym miejscu” w prawdziwym tego słowa znaczeniu dzięki naszemu otwartemu źródłu, nasz produkt działa natywnie w przepływie danych Hadoop i natywnie w Spark, izolując organizacje od szybko zmieniającego się ekosystemu. Zapewniając pojedynczy potok danych, pojedynczy interfejs, zarówno dla partii, jak i przesyłania strumieniowego.

Pomaga to również organizacjom czasami oceniać te frameworki, ponieważ możesz chcieć faktycznie tworzyć aplikacje i po prostu uruchamiać MapReduce kontra Spark i przekonać się, tak, Spark ma tę obietnicę i zapewnia wszystkie postępy w zakresie algorytmów iteracyjnych dla najlepszego uczenia maszynowego a aplikacje analityczne predykcyjne współpracują ze Sparkem, czy mogę także wykonywać strumieniowe i wsadowe obciążenia na tym komputerze? Za pomocą naszych produktów możesz testować różne platformy komputerowe. A dynamiczna optymalizacja, niezależnie od tego, czy korzystasz z autonomicznego serwera, na swoim laptopie, w Google Cloud czy Apache Spark, jest naprawdę dużą propozycją dla naszych klientów. I to było naprawdę napędzane przez wyzwania, które mieli.

Omówię tylko jedno studium przypadku. To jest Guardian Life Insurance Company. Inicjatywa Guardian polegała naprawdę na scentralizowaniu zasobów danych i udostępnieniu ich klientom, skróceniu czasu przygotowania danych. Powiedzieli też, że wszyscy mówią o przygotowaniu danych zajmujących 80 procent całego procesu przetwarzania danych i powiedzieli, że tak naprawdę Dla nich 75 do 80 procent, a oni chcieli skrócić to przygotowanie danych, czas transformacji, czas wprowadzania produktów na rynek dla projektów analitycznych. Stwórz tę zwinność, dodając nowe źródła danych. Udostępniaj scentralizowany dostęp do danych wszystkim swoim klientom.

Ich rozwiązanie, w tym produkty Syncsort, jest teraz dostępne w podobny sposób jak rynek danych Amazon Marketplace obsługiwany przez jezioro danych, którym jest zasadniczo Hadoop, oraz baza danych NoSQL. Korzystają z naszych produktów, aby przenieść wszystkie zasoby danych do jeziora danych, w tym DB2 na komputerze mainframe, w tym pliki VSAM na komputerze mainframe oraz starsze źródła danych w bazie danych, a także nowe źródła danych. W rezultacie scentralizowali zasoby danych wielokrotnego użytku, które można przeszukiwać, udostępniać i udostępniać ich klientom. I naprawdę są w stanie dodawać nowe źródła danych i obsługiwać swoich klientów znacznie szybciej i wydajniej niż wcześniej. Inicjatywy analityczne rozwijają się nawet bardziej po stronie predykcyjnej. Zatrzymam się więc i mam nadzieję, że było to przydatne, a jeśli masz jakieś pytania dotyczące któregokolwiek z pokrewnych tematów, proszę.

Eric Kavanagh: Jasne, i Tendü, po prostu wrzucę jednego. Dostałem komentarz od publiczności, który powiedział: „Lubię ten„ projekt raz, wdrożyć gdziekolwiek ”. Czy potrafisz wniknąć w to, jak to prawda? Mam na myśli, co zrobiłeś, aby umożliwić taką zwinność i czy jest jakiś podatek? Na przykład, gdy mówimy na przykład o wirtualizacji, zawsze jest trochę podatku od wydajności. Niektórzy mówią, że dwa procent, pięć procent 10 procent. Co zrobiłeś, aby jednorazowo włączyć projekt, wdrożyć go w dowolnym miejscu - jak to zrobić i czy wiąże się z nim jakikolwiek podatek związany z wydajnością?

Tendü Yogurtçu: Jasne, dziękuję. Nie, ponieważ w przeciwieństwie do niektórych innych dostawców, tak naprawdę nie generujemy Hive, Pig ani innego kodu, który nie jest natywny dla naszych silników. To tutaj nasze wkłady typu open source odegrały ogromną rolę, ponieważ bardzo ściśle współpracujemy z dostawcami Hadoop, Cloudera, Hortonworks i MapR, a dzięki naszemu wkładowi typu open source nasz silnik faktycznie działa natywnie w ramach przepływu, jako część przepływu Hadoop, jako część Iskry.

To także przekłada się na dynamiczną optymalizację. Było to spowodowane tym, że nasi klienci zostali skonfrontowani z platformami komputerowymi. Kiedy weszli do produkcji z niektórymi aplikacjami, wrócili i powiedzieli: „Właśnie stabilizuję mój klaster Hadoop, stabilizuję się na MapReduce YARN wersja 2, MapReduce wersja 2, a ludzie mówią, że MapReduce nie żyje, Spark jest następną rzeczą, a niektórzy mówią, że Flink będzie następną rzeczą, jak mam sobie z tym poradzić?

Wyzwania te stały się dla nas tak oczywiste, że zainwestowaliśmy w tę dynamiczną optymalizację, którą nazywamy inteligentnym wykonaniem. W czasie wykonywania, gdy zadanie, po przesłaniu tego potoku danych, na podstawie klastra, czy to Spark, czy MapReduce, czy samodzielny serwer Linux, decydujemy, jak uruchomić to zadanie, natywnie w naszym silniku, w ramach tego Przepływ danych Hadoop lub Spark. Nie ma narzutu, ponieważ wszystko odbywa się za pomocą tej dynamicznej optymalizacji, którą mamy, a wszystko dzieje się również dlatego, że nasz silnik jest tak natywnie zintegrowany dzięki naszemu wkładowi typu open source. Czy to jest odpowiedź na Twoje pytanie?

Eric Kavanagh: Tak, to dobrze. Chcę zadać jeszcze jedno pytanie, a potem Dez, może wciągniemy ciebie i Robina. Właśnie dostałem zabawny komentarz od jednego z naszych uczestników. Przeczytam to, bo to naprawdę jest dość zwięzłe. Pisze: „Wydaje się, że w historii rzeczy GORĄCYCH” - rozumiesz? Podobnie jak IoT - „jest tym, że im bardziej próbujesz„ uprościć ”coś, co jest naprawdę złożone, częściej niż wcale nie jest to prostsze, dostarczana jest większa lina do zawieszenia. Pomyśl o zapytaniach do bazy danych, eksplozji, wielowątkowości itp. Czy potrafisz skomentować ten paradoks, do którego się odwołuje? Prostota kontra złożoność i właściwie to, co naprawdę dzieje się pod okładkami?

Tendü Yogurtçu: Jasne. Myślę, że to bardzo ważny punkt. Kiedy upraszczasz rzeczy i robisz te optymalizacje, w pewien sposób pod przykryciem, ktoś musi wziąć pod uwagę złożoność tego, co musi się wydarzyć, prawda? Jeśli coś paraliżujesz lub decydujesz, jak uruchomić określone zadanie w odniesieniu do frameworka komputerowego, oczywiste jest, że część zadania jest wypychana, niezależnie od tego, czy jest to po stronie użytkownika, kodowanie menu, czy optymalizacja silnika. Częścią tego jest to, że uproszczenie interfejsu użytkownika daje ogromną korzyść, jeśli chodzi o wykorzystanie zestawów umiejętności istniejących w przedsiębiorstwie.

I możesz w pewien sposób złagodzić ten paradoks, złagodzić wyzwanie: „Tak, ale nie mam kontroli nad wszystkim, co dzieje się pod maską, pod maską w tym silniku”, wystawiając rzeczy bardziej zaawansowanym użytkownikom, jeśli chcę mieć tego rodzaju kontrolę. Inwestując również w niektóre rodzaje serwisowalności. Będąc w stanie zaoferować więcej metadanych operacyjnych, więcej danych operacyjnych, jak w przykładzie podanym przez tego uczestnika, zarówno dla zapytania SQL, jak i przy uruchomionym silniku. Mam nadzieję, że to odpowiada.

Eric Kavanagh: Tak, to brzmi dobrze. Dez, zabierz to.

Dez Blanchfield: Naprawdę chciałbym uzyskać trochę więcej wglądu w Twój ślad w materiałach typu open source i podróż, którą odbyłeś z tradycyjnego, długoletniego doświadczenia w komputerach mainframe i świecie zastrzeżonym, a następnie przejścia do przyczynianie się do open source i jak to miało miejsce. Inną rzeczą, którą chciałbym zrozumieć, jest pogląd, że widzisz, że firmy, nie tylko działy IT, ale teraz uwzględniają centra danych lub jeziora danych, jak mówią ludzie, i czy widzą ten trend tylko jedno, skonsolidowane jezioro danych lub czy widzimy rozproszone jeziora danych, a ludzie używają narzędzi, aby je połączyć?

Tendü Yogurtçu: Jasne. Po pierwsze, była to bardzo interesująca podróż, jako firma będąca właścicielem oprogramowania, jedna z pierwszych po IBM. Jednak znowu wszystko zaczęło się od naszych ewangelistów, którzy patrzą na Hadoop. Mieliśmy firmy danych takie jak ComScore, były one jednymi z pierwszych, które przyjęły Hadoop, ponieważ gromadziły dane cyfrowe na całym świecie i nie były w stanie przechowywać 90 dni danych, chyba że zainwestowały w swoje pudełko hurtowni danych o wartości 10 milionów dolarów środowisko. Zaczęli patrzeć na Hadoopa. Dzięki temu zaczęliśmy również patrzeć na Hadoop.

A kiedy podjęliśmy decyzję i uznaliśmy, że Hadoop naprawdę będzie platformą danych w przyszłości, doszliśmy również do wniosku, że nie będziemy w stanie grać w nią, udanej gry, chyba że były częścią ekosystemu. Bardzo ściśle współpracowaliśmy z dostawcami Hadoop, Cloudera, Hortonworks, MapR itp. Zaczęliśmy z nimi naprawdę rozmawiać, ponieważ partnerstwo staje się bardzo ważne, aby zweryfikować wartość, jaką może przynieść dostawca, a także upewnić się, że możemy wspólnie przejść do przedsiębiorstwa i zaoferuj coś bardziej sensownego. Wymagało to dużo budowania relacji, ponieważ nie byliśmy znani z projektów open source Apache, jednak mieliśmy świetne wsparcie od tych dostawców Hadoop, muszę powiedzieć.

Zaczęliśmy współpracować i patrzeć na centrum, w jaki sposób możemy wnieść wartość bez naszego własnego oprogramowania w kosmosie. To było ważne. Nie chodzi tylko o wprowadzenie niektórych interfejsów API, na których może działać Twój produkt, ale mogę powiedzieć, że zainwestuję w to, ponieważ uważam, że Hadoop będzie platformą przyszłości, więc inwestując w źródła, które chcieliśmy stworzyć na pewno dojrzeje i stanie się gotowy na przedsięwzięcia. Możemy faktycznie włączyć niektóre przypadki użycia, które nie były dostępne przed naszym wkładem. Przyniesie to korzyści całemu ekosystemowi i możemy bardzo ściśle rozwijać te partnerstwa.

Zajęło to sporo czasu. Zaczęliśmy wnosić wkład w 2011 r. I 2013 r., 21 stycznia - pamiętam datę, ponieważ datą tego był nasz największy wkład, co oznaczało, że od tej chwili możemy mieć ogólnie dostępne produkty - zajęło to sporo czasu, aby rozwinąć te relacje, pokaż wartość, partnerzy stają się partnerami projektowymi ze sprzedawcami i podmiotami odpowiedzialnymi w społeczności open source. Ale to była świetna zabawa. Jako firma, która była częścią tego ekosystemu i rozwijała świetne partnerstwo, było bardzo satysfakcjonujące.

Drugie pytanie dotyczące centrum danych / jeziora danych, myślę, że kiedy widzimy te dane jako implementację usługi w większości przypadków, tak, mogą to być klastry, fizycznie pojedyncze lub wiele klastrów, ale jest to bardziej koncepcyjne niż stawanie się jednym miejscem dla wszystkich danych. Ponieważ w niektórych organizacjach lokalnie widzimy duże wdrożenia klastrowe, jednak mają one również klastry, na przykład w chmurze publicznej, ponieważ niektóre dane zebrane z sekcji online są naprawdę przechowywane w chmurze. Jest w stanie mieć pojedynczy potok danych, który można wykorzystać do obu tych celów, a wykorzystanie ich jako pojedynczego centrum danych, pojedynczego jeziora danych, staje się ważne. Niekoniecznie tylko fizyczne miejsce, ale myślę, że to centrum danych i jezioro danych w klastrach, w różnych lokalizacjach geograficznych i być może w chmurze i lokalach będą bardzo krytyczne. Zwłaszcza iść naprzód. W tym roku zaczęliśmy widzieć coraz więcej wdrożeń chmurowych. To niesamowite. Do tej pory w pierwszej połowie tego roku było wiele wdrożeń chmurowych.

Eric Kavanagh: Dobra, spoko. A Robin, masz jakieś pytania? Wiem, że zostało nam kilka minut.

Robin Bloor: Dobra, mogę zadać jej pytanie. Pierwszą rzeczą, która przyszła mi do głowy, jest to, że Kafka była bardzo podekscytowana. Byłem zainteresowany twoją opinią o Kafce i tym, jak integrujesz się ze sposobem, w jaki ludzie używają Kafki?

Tendü Yogurtçu: Jasne. Tak, Kafka staje się dość popularny. Wśród naszych klientów widzimy, że jest to rodzaj warstwy transportu danych, i widzimy, że dane są magistralą. Na przykład jeden z naszych klientów faktycznie używał pewnego rodzaju danych, które trafiły do ​​tej Kafki wśród wielu osób, takich jak tysiące użytkowników online, i był w stanie je sklasyfikować i przeforsować.

Ponownie, Kafka jest magistralą danych dla różnych odbiorców tych danych. Klasyfikuj niektórych zaawansowanych użytkowników w porównaniu z niezbyt zaawansowanymi użytkownikami i zrób coś innego, idąc naprzód w tym potoku danych. Sposób, w jaki integrujemy się z Kafką jest w gruncie rzeczy, nasz produkt DMX-h staje się niezawodnym konsumentem, bardzo wydajnym i niezawodnym konsumentem dla Kafki. Może odczytywać dane i nie różni się to niczym od odczytu danych z dowolnego innego źródła danych dla nas. Dajemy użytkownikom możliwość kontrolowania okna pod względem wymaganego czasu lub liczby wiadomości, które mogą konsumować z magistrali Kafka. A potem możemy również wzbogacić te dane, gdy przechodzą przez nasz produkt i są ponownie przesyłane do Kafki. Przetestowaliśmy to. Przeprowadziliśmy testy porównawcze na stronie klienta. Posiada również certyfikat Confluent. Ściśle współpracujemy z ludźmi zlewającymi się i jest bardzo wydajny i łatwy w użyciu. Ponownie, interfejsy API zmieniają się, ale nie musisz się martwić, ponieważ produkt naprawdę traktuje to jako kolejne źródło danych, źródło danych przesyłanych strumieniowo. Właściwie fajnie jest pracować z naszym produktem i Kafką.

Robin Bloor: Okej, mam inne pytanie, które jest po prostu ogólnym pytaniem biznesowym, ale znałem Syncsort od dawna i zawsze miałeś reputację i dostarczałeś wyjątkowo szybkie oprogramowanie dla ETL i świata komputerów mainframe. Czy to prawda, że ​​większość Twojej firmy jest teraz przenoszona do Hadoop? Czy to w ten czy inny sposób dość radykalnie rozszerzasz swoją działalność ze świata komputerów mainframe?

Tendü Yogurtçu: Nasze produkty na komputerach mainframe wciąż obsługują 50 procent komputerów na całym świecie. Mamy więc bardzo silną linię produktów mainframe, oprócz tego, co robimy w przypadku dużych zbiorów danych i platformy Hadoop. Nadal jesteśmy w większości projektów upraszczania lub optymalizacji IT, ponieważ jest jeden koniec, w którym chcesz mieć dostęp do danych na komputerze mainframe na platformach Multex Big Data i wykorzystać wszystkie dane korporacyjne, ale są też bardzo krytyczne obciążenia transakcyjne który nadal działa na komputerze mainframe i oferujemy tym klientom sposoby, aby naprawdę zwiększyć wydajność tych aplikacji, uruchomić je w silniku zIIP, aby nie zużywały tylu cykli przetwarzania i MIPS, dzięki czemu są opłacalne.

Nadal inwestujemy w produkty mainframe i faktycznie gramy w tę przestrzeń, w której ludzie przechodzą od dużych żelaznych komputerów mainframe do dużych zbiorów danych i obejmują linię produktów również na tych platformach. Więc niekoniecznie przestawiamy cały biznes na jedną stronę, nadal mamy bardzo udany biznes po obu stronach. Przejęcia również są dla nas bardzo ważne. W miarę ewoluowania przestrzeni do zarządzania danymi i przetwarzania danych dla platform dużych zbiorów danych jesteśmy również zobowiązani do dokonania kilku uzupełniających przejęć.

Robin Bloor: Cóż, myślę, że nie mogę cię zapytać, co to jest, ponieważ nie pozwolisz mi powiedzieć. Interesuje mnie, czy widziałeś wiele implementacji Hadoop lub Spark na mainframe, czy też jest to bardzo rzadka rzecz.

Tendü Yogurtçu: Nie widzieliśmy żadnego. Jest więcej pytań na ten temat. Myślę, że Hadoop na mainframe nie miał większego sensu ze względu na rodzaj podstawowej struktury. Jednak Spark na komputerze mainframe jest dość znaczący, a Spark naprawdę bardzo dobrze radzi sobie z uczeniem maszynowym i analizą predykcyjną, a możliwość posiadania niektórych aplikacji z danymi na komputerze mainframe jest, jak sądzę, dość znacząca. Nie widzieliśmy jeszcze nikogo, kto to robi, jednak tak naprawdę jest to przypadek użycia tych rzeczy. Jeśli Twój przypadek użycia jako firmy przynosi więcej danych z komputerów mainframe i integruje się z resztą zestawów danych na platformie Big Data, to jedna historia. Wymaga dostępu do danych na komputerze mainframe z platformy Big Data Multex, ponieważ jest mało prawdopodobne, aby zestawy danych zostały przeniesione z otwartych systemów i wywołane z powrotem na komputer mainframe. Jeśli jednak masz jakieś dane na komputerze mainframe, które chcesz po prostu zbadać i wykonać trochę odkrycia eksploracji danych, zastosuj zaawansowaną sztuczną inteligencję i zaawansowane analizy, to Spark może być dobrym sposobem na przejście na komputer mainframe jako taki.

Eric Kavanagh: I jeszcze jedno pytanie od publiczności, właściwie dwa kolejne. Zadam ci pytanie od tag-team, a potem podsumujemy. Jeden uczestnik pyta: „Czy IBM integruje Twój wkład typu open source z ekosystemem chmury publicznej, innymi słowy, Bluemix?”, A inny uczestnik powiedział bardzo dobrze, zauważając, że Syncsort doskonale nadaje się do utrzymywania dużej ilości żelaza dla tych, którzy już to ma, ale jeśli firmy zrezygnują z nowych komputerów mainframe na rzecz tego, co nazywa CE, chmuruj wszystko, co prawdopodobnie spadnie, ale zauważa, że ​​jesteście naprawdę dobrzy w przenoszeniu danych, omijając systemy operacyjne do gigabajta na sekundę. Czy możesz jakoś porozmawiać o swojej sile rdzenia, jak wspomniał, i czy IBM integruje twoje rzeczy z Bluemix?

Tendü Yogurtçu: Z IBM jesteśmy już partnerami z IBM i rozmawialiśmy o ich usługach chmury danych oferujących ten produkt. Nasze wkłady typu open source są otwarte dla wszystkich, którzy chcą je wykorzystać. Niektóre połączenia z komputerem mainframe są również dostępne w pakietach Spark, więc nie tylko IBM. Każdy może to wykorzystać. W Bluemix nie zrobiliśmy jeszcze nic konkretnego. Czy masz coś przeciwko powtórzeniu drugiego pytania?

Eric Kavanagh: Tak, drugie pytanie dotyczyło twojego głównego obszaru funkcjonalności przez lata, który naprawdę zajmował się wąskimi gardłami ETL i oczywiście jest to coś, co nadal będziecie robić jako komputery mainframe, teoretycznie trzymajcie się z daleka, chociaż Dez's punkt wciąż się kołysze i rozwija. Ale uczestnik zauważył, że Syncsort jest bardzo dobry w przenoszeniu danych, omijając systemy operacyjne i do gigabajta na sekundę. Czy możesz to skomentować?

Tendü Yogurtçu: Tak, to naprawdę ogólna efektywność wykorzystania zasobów była naszą siłą, a skalowalność i wydajność - naszą siłą. Nie idziemy na kompromis, uproszczenie ma wiele znaczeń, nie idziemy na kompromis. Na przykład, kiedy ludzie zaczęli rozmawiać o Hadoop w 2014 roku, wiele organizacji początkowo nie spoglądało na wyniki. Mówili: „Och, jeśli coś się stanie, mogę dodać jeszcze kilka węzłów i wszystko będzie dobrze, wydajność nie jest moim wymogiem”.

Podczas gdy mówiliśmy o najlepszej wydajności, ponieważ już działaliśmy natywnie, nie mieliśmy nawet niektórych początkowych czkawek, które Hive miał przy wielu zadaniach MapReduce i narzutów związanych z ich uruchomieniem. Ludzie mówili nam: „Och, to nie moje zmartwienie, nie przejmuj się tym w tej chwili”.

Kiedy przyjechaliśmy do 2015 roku, krajobraz się zmienił, ponieważ niektórzy z naszych klientów już przekroczyli pojemność, jaką mieli w swoich klastrach produkcyjnych. Bardzo ważne było, aby zobaczyli, co może zaoferować Syncsort. Jeśli pobierasz jakieś dane z bazy danych lub komputera mainframe i piszesz w formacie Parquet w klastrach, niezależnie od tego, czy lądujesz i wykonujesz kolejną transformację, czy po prostu wykonujesz transformację w locie i format docelowego pliku docelowego, zrobiłeś różnicę, ponieważ oszczędzasz na Pamięć masowa, oszczędzasz na przepustowości sieci, oszczędzasz na obciążeniu klastra, ponieważ nie wykonujesz dodatkowych zadań. Wydaje się, że te mocne strony, które gramy pod względem bycia bardzo świadomym, odczuwają efektywność wykorzystania zasobów pod skórą.

Tak to opisujemy. Jest to dla nas kluczowe. Nie bierzemy tego za pewnik. Nigdy nie uważaliśmy tego za pewnik, więc będziemy nadal silni dzięki tej dźwigni w Apache Spark lub w następnej platformie komputerowej. To nadal będzie naszym celem. Jeśli chodzi o element przenoszenia danych i element dostępu do danych, zdecydowanie jest to jedna z naszych mocnych stron i uzyskujemy dostęp do danych DB2 lub VSAM na komputerach mainframe w kontekście Hadoop lub Spark.

Eric Kavanagh: To świetny sposób na zakończenie webcastu, ludzie. Dziękuję bardzo za poświęcony czas i uwagę. Dzięki tobie, Tendü i Syncsort, za przybycie do sali odpraw i wejście, jak mówią, do rundy. Wiele świetnych pytań od publiczności. Ludzie, to ciągle zmieniające się środowisko. Zarchiwizujemy tę Hot Tech, podobnie jak wszystkie pozostałe. Znajdziesz nas na insideanalysis.com i techopedia.com. Zwykle rośnie w ciągu około jednego dnia. I dzięki temu pożegnamy was, ludzie. Dziękuję bardzo. Porozmawiamy wkrótce. Dbać. PA pa.

Wielkie żelazo, spotykaj duże zbiory danych: uwalnianie danych na komputerze mainframe za pomocą hadoopa i iskry