Dom Audio Dlaczego hadoop idealnie pasuje do sekwencjonowania genomu

Dlaczego hadoop idealnie pasuje do sekwencjonowania genomu

Spisu treści:

Anonim

Genomika kliniczna to fascynujący temat, w którym ludzie pracują nad najnowocześniejszymi technologiami, aby przetwarzać szybkie i dokładne wyniki. Na rynku dostępnych jest wiele sekwencerów genomowych, które wytwarzają petabajty danych sekwencji, a wzrost sekwencjonowania w najbliższej przyszłości spowoduje wytworzenie eksabajtów danych. Tutaj Hadoop jest idealną platformą do przetwarzania złożonego przepływu pracy w genomice. Hadoop może przechowywać i sortować ogromne ilości informacji, a także może dokonywać sensownych analiz. (Aby dowiedzieć się, ile danych to naprawdę pociąga za sobą, przeczytaj artykuł Understanding Bits, Bytes and their Multiples.)

Teraźniejszość i przyszłość genomiki

Dzisiaj mapowanie genomu osiągnęło szczyt rozwoju. Wiele osób związanych z przemysłem genomicznym tryska ciekawością, a ponieważ pojawiają się nowe możliwości, lepsza technologia jest potrzebna na godzinę. Sekwencjonowanie genomu jest bardzo powtarzalnym i wymagającym dużej ilości zasobów zadaniem. W samym 2013 r. Wyprodukowano około 15 petabajtów danych i tylko 2000 sekwencerów. Ta zadziwiająca ilość obejmowała 300 KB zsekwencjonowanych danych ludzkiego genomu. Przy takim tempie tworzenia danych można oszacować, że do 2018 r. Powstanie około jednego eksabajta danych. Będzie to spowodowane wzrostem sekwencerów, które będą generować coraz więcej danych na przebieg. Innym powodem jest pojawienie się niezwykle wydajnych i tanich maszyn do sekwencjonowania genomu. Od 2008 r. Cena tych maszyn stale spada. Wynika to z możliwości potężnych maszyn nowej generacji, które wkroczyły na rynek.

Potrzeby przemysłu mapowania genomu

Złożone algorytmy są wykorzystywane do przetwarzania danych zebranych z ludzkiego genomu. Następnie należy zapisać te informacje. Może być w przyszłości sprawdzony w celu porównania z oryginalnymi danymi. Zadanie przetwarzania i przechowywania 100 GB danych nie jest zbyt trudne, szczególnie w przypadku potężnych maszyn pracujących w centrach sekwencjonowania. Badania pokazują, że tę ilość danych można przetworzyć w zaledwie około 1000 godzin procesora, więc jest to bardzo łatwe. Przy tym postępie technicznym widać, że przemysł genomu wkrótce przetworzy tysiące gigabajtów w ciągu zaledwie kilku sekund.

Dlaczego hadoop idealnie pasuje do sekwencjonowania genomu