Dom Trendy W jaki sposób istniejące środowiska hurtowni danych mogą najlepiej skalować się w celu zaspokojenia potrzeb analizy dużych zbiorów danych?

W jaki sposób istniejące środowiska hurtowni danych mogą najlepiej skalować się w celu zaspokojenia potrzeb analizy dużych zbiorów danych?

Anonim

P:

W jaki sposób istniejące środowiska hurtowni danych mogą najlepiej skalować się w celu zaspokojenia potrzeb analizy dużych zbiorów danych?

ZA:

Poszczególne projekty hurtowni danych należy oceniać indywidualnie dla każdego przypadku. Ogólnie rzecz biorąc, próbując rozszerzyć istniejący projekt hurtowni danych, aby lepiej obsługiwać analizę dużych zbiorów danych, istnieje podstawowy proces ustalania, co należy zrobić. Specjaliści IT mogą nazwać to „skalowaniem w górę” lub „skalowaniem w górę”.

Seminarium internetowe: Big Iron, Poznaj Big Data: Uwolnienie danych na komputerach mainframe dzięki Hadoop & Spark

Rejestracja tutaj

Skalowanie zwykle wiąże się z uzyskaniem wystarczającej mocy obliczeniowej, dostatecznej ilości pamięci i przystosowaniem bardziej wydajnych działań serwera do obsługi wszystkich większych zestawów danych, które firma będzie przetwarzać. Natomiast skalowanie w dół może oznaczać zbieranie klastrów sprzętu serwerowego i łączenie ich w sieć w celu zagospodarowania dużych zbiorów danych.

Niektórzy eksperci IT sugerują, że najpopularniejszą metodą w Apache Hadoop i innych popularnych narzędziach i platformach big data jest skalowanie i klastry sprzętowe w celu osiągnięcia pożądanych efektów. Inni podkreślają jednak, że dzięki dzisiejszej technologii hurtownia danych może zostać powiększona przy użyciu strategii zaopatrzenia, która dodaje zasoby do serwera, na przykład poprzez uzyskanie większej liczby rdzeni przetwarzających wraz z większą ilością pamięci RAM.

Niezależnie od tego, czy skalują się w górę, czy w górę, hurtownie danych potrzebują dodatkowych fizycznych zasobów sprzętowych, aby móc obsłużyć większe obciążenia danych. Potrzebują również dodatkowej administracji ludzkiej, co oznacza więcej szkoleń dla wewnętrznych zespołów. W projekcie należy dużo zaplanować, aby określić, jaki stres i presja będą miały większe obciążenia danych w istniejącym starszym systemie, aby przygotować go do nowego ekosystemu dużych zbiorów danych. Jednym z dużych problemów są wąskie gardła pamięci masowej, które wymagają aktualizacji centrów pamięci, oraz inne rodzaje wąskich gardeł wydajności, które mogą spowalniać powstający system, jeśli nie zostaną rozwiązane.

W jaki sposób istniejące środowiska hurtowni danych mogą najlepiej skalować się w celu zaspokojenia potrzeb analizy dużych zbiorów danych?