Dom Bazy danych Co to są brudne dane? - definicja z techopedia

Co to są brudne dane? - definicja z techopedia

Spisu treści:

Anonim

Definicja - Co oznacza Dirty Data?

Brudne dane odnoszą się do danych zawierających błędne informacje. Może być również używany w odniesieniu do danych, które są w pamięci i nie zostały jeszcze załadowane do bazy danych. Całkowite usunięcie brudnych danych ze źródła jest niepraktyczne lub praktycznie niemożliwe.

Następujące dane można uznać za brudne dane:

  • Wprowadzające w błąd dane
  • Zduplikowane dane
  • Nieprawidłowe dane
  • Niedokładne dane
  • Niezintegrowane dane
  • Dane naruszające reguły biznesowe
  • Dane bez uogólnionego formatowania
  • Niepoprawnie interpunkcyjne lub ortograficzne dane

Techopedia wyjaśnia Dirty Data

Oprócz nieprawidłowego wprowadzania danych mogą być generowane brudne dane z powodu niewłaściwych metod zarządzania danymi i ich przechowywania. Niektóre brudne typy danych wyjaśniono poniżej:

  • Niepoprawne dane - aby zapewnić poprawność lub poprawność danych, wprowadzona wartość powinna być zgodna z prawidłowymi wartościami w polu. Na przykład wartość wprowadzona w polu miesiąca powinna wynosić od 1 do 12 lub wiek osoby musi być mniejszy niż 130. Poprawność wartości danych może być wymuszona programowo za pomocą tabel przeglądowych lub kontroli edycji.
  • Niedokładne dane - możliwe, że wartość danych może być poprawna, ale niedokładna. Czasami praktyczne jest sprawdzenie innych plików lub pól, aby dowiedzieć się, czy wartość danych jest dokładna na podstawie kontekstu, w którym jest używana. Mimo to dokładność często można zweryfikować tylko poprzez ręczną weryfikację.
  • Naruszenie reguł biznesowych - dane, które naruszają regułę biznesową, to inny rodzaj brudnych danych. Na przykład data wejścia w życie musi zawsze nastąpić przed datą wygaśnięcia. Innym przykładem naruszenia reguł biznesowych może być roszczenie ubezpieczeniowe Medicare pacjenta, w którym pacjent może być nadal w wieku emerytalnym i nie ma prawa do Medicare.
  • Niespójne dane - Niesprawdzona nadmiarowość danych prowadzi do niespójności danych. Każda organizacja jest dotknięta niespójnymi i powtarzalnymi danymi. Jest to szczególnie typowe w przypadku danych klientów.
  • Niekompletne dane - dane z brakującymi wartościami są głównym rodzajem niekompletnych danych.
  • Zduplikowane dane - zduplikowane dane mogą wystąpić z powodu powtarzających się zgłoszeń, nieprawidłowego łączenia danych lub błędu użytkownika.

Aby podnieść jakość danych i zapobiec zanieczyszczeniu danych, organizacje powinny zastosować metodologie w celu zapewnienia kompletności, ważności, spójności i poprawności danych.

Co to są brudne dane? - definicja z techopedia