Dlaczego hadoop idealnie pasuje do sekwencjonowania genomu

2024

Spisu treści:

Teraźniejszość i przyszłość genomiki
Potrzeby przemysłu mapowania genomu

Genomika kliniczna to fascynujący temat, w którym ludzie pracują nad najnowocześniejszymi technologiami, aby przetwarzać szybkie i dokładne wyniki. Na rynku dostępnych jest wiele sekwencerów genomowych, które wytwarzają petabajty danych sekwencji, a wzrost sekwencjonowania w najbliższej przyszłości spowoduje wytworzenie eksabajtów danych. Tutaj Hadoop jest idealną platformą do przetwarzania złożonego przepływu pracy w genomice. Hadoop może przechowywać i sortować ogromne ilości informacji, a także może dokonywać sensownych analiz. (Aby dowiedzieć się, ile danych to naprawdę pociąga za sobą, przeczytaj artykuł Understanding Bits, Bytes and their Multiples.)

Teraźniejszość i przyszłość genomiki

Dzisiaj mapowanie genomu osiągnęło szczyt rozwoju. Wiele osób związanych z przemysłem genomicznym tryska ciekawością, a ponieważ pojawiają się nowe możliwości, lepsza technologia jest potrzebna na godzinę. Sekwencjonowanie genomu jest bardzo powtarzalnym i wymagającym dużej ilości zasobów zadaniem. W samym 2013 r. Wyprodukowano około 15 petabajtów danych i tylko 2000 sekwencerów. Ta zadziwiająca ilość obejmowała 300 KB zsekwencjonowanych danych ludzkiego genomu. Przy takim tempie tworzenia danych można oszacować, że do 2018 r. Powstanie około jednego eksabajta danych. Będzie to spowodowane wzrostem sekwencerów, które będą generować coraz więcej danych na przebieg. Innym powodem jest pojawienie się niezwykle wydajnych i tanich maszyn do sekwencjonowania genomu. Od 2008 r. Cena tych maszyn stale spada. Wynika to z możliwości potężnych maszyn nowej generacji, które wkroczyły na rynek.

Potrzeby przemysłu mapowania genomu

Złożone algorytmy są wykorzystywane do przetwarzania danych zebranych z ludzkiego genomu. Następnie należy zapisać te informacje. Może być w przyszłości sprawdzony w celu porównania z oryginalnymi danymi. Zadanie przetwarzania i przechowywania 100 GB danych nie jest zbyt trudne, szczególnie w przypadku potężnych maszyn pracujących w centrach sekwencjonowania. Badania pokazują, że tę ilość danych można przetworzyć w zaledwie około 1000 godzin procesora, więc jest to bardzo łatwe. Przy tym postępie technicznym widać, że przemysł genomu wkrótce przetworzy tysiące gigabajtów w ciągu zaledwie kilku sekund.

Dlaczego hadoop idealnie pasuje do sekwencjonowania genomu

Spisu treści:

Teraźniejszość i przyszłość genomiki

Potrzeby przemysłu mapowania genomu

Przewodnik po jeziorze danych: co, dlaczego i jak z jeziora danych

Uczenie maszynowe i dlaczego to ma znaczenie

Crowdsourcing: co to jest, dlaczego działa i dlaczego nie odchodzi

Wybór redaktorów

Co to jest prywatne przeglądanie? - definicja z techopedia

Co to jest metro? - definicja z techopedia

Co to jest ekran blokady? - definicja z techopedia

Co to jest zbliżenie semantyczne? - definicja z techopedia

Wybór redaktorów

Co to jest telefon komórkowy Wi-Fi? - definicja z techopedii

Co to jest linia paszowa? - definicja z techopedia

Co to jest identyfikator dzwoniącego? - definicja z techopedia

Co to jest przenośność w chmurze? - definicja z techopedia

Wybór redaktorów

Co to jest programowanie obiektowe (OOP)? - definicja z techopedia

Co to jest alert push? - definicja z techopedia

Co to jest przeciążenie? - definicja z techopedia

Co to jest blokowanie geograficzne? - definicja z techopedia

Wybór redaktorów

Kim jest Douglas Engelbart? - definicja z techopedii

Co to jest akcelerator graficzny? - definicja z techopedii

Co to jest efemeryczny port? - definicja z techopedia

Co to jest griefer? - definicja z techopedii

Wybór redaktorów

Co to jest test ciągłości? - definicja z techopedia

Co to jest błąd przepełnienia? - definicja z techopedia

Co to jest naruszenie praw autorskich? - definicja z techopedia

Co to jest sieć bazowa? - definicja z techopedia

Popularne kategorie