Spisu treści:
Definicja - Co oznacza Dirty Data?
Brudne dane odnoszą się do danych zawierających błędne informacje. Może być również używany w odniesieniu do danych, które są w pamięci i nie zostały jeszcze załadowane do bazy danych. Całkowite usunięcie brudnych danych ze źródła jest niepraktyczne lub praktycznie niemożliwe.
Następujące dane można uznać za brudne dane:
- Wprowadzające w błąd dane
- Zduplikowane dane
- Nieprawidłowe dane
- Niedokładne dane
- Niezintegrowane dane
- Dane naruszające reguły biznesowe
- Dane bez uogólnionego formatowania
- Niepoprawnie interpunkcyjne lub ortograficzne dane
Techopedia wyjaśnia Dirty Data
Oprócz nieprawidłowego wprowadzania danych mogą być generowane brudne dane z powodu niewłaściwych metod zarządzania danymi i ich przechowywania. Niektóre brudne typy danych wyjaśniono poniżej:
- Niepoprawne dane - aby zapewnić poprawność lub poprawność danych, wprowadzona wartość powinna być zgodna z prawidłowymi wartościami w polu. Na przykład wartość wprowadzona w polu miesiąca powinna wynosić od 1 do 12 lub wiek osoby musi być mniejszy niż 130. Poprawność wartości danych może być wymuszona programowo za pomocą tabel przeglądowych lub kontroli edycji.
- Niedokładne dane - możliwe, że wartość danych może być poprawna, ale niedokładna. Czasami praktyczne jest sprawdzenie innych plików lub pól, aby dowiedzieć się, czy wartość danych jest dokładna na podstawie kontekstu, w którym jest używana. Mimo to dokładność często można zweryfikować tylko poprzez ręczną weryfikację.
- Naruszenie reguł biznesowych - dane, które naruszają regułę biznesową, to inny rodzaj brudnych danych. Na przykład data wejścia w życie musi zawsze nastąpić przed datą wygaśnięcia. Innym przykładem naruszenia reguł biznesowych może być roszczenie ubezpieczeniowe Medicare pacjenta, w którym pacjent może być nadal w wieku emerytalnym i nie ma prawa do Medicare.
- Niespójne dane - Niesprawdzona nadmiarowość danych prowadzi do niespójności danych. Każda organizacja jest dotknięta niespójnymi i powtarzalnymi danymi. Jest to szczególnie typowe w przypadku danych klientów.
- Niekompletne dane - dane z brakującymi wartościami są głównym rodzajem niekompletnych danych.
- Zduplikowane dane - zduplikowane dane mogą wystąpić z powodu powtarzających się zgłoszeń, nieprawidłowego łączenia danych lub błędu użytkownika.
Aby podnieść jakość danych i zapobiec zanieczyszczeniu danych, organizacje powinny zastosować metodologie w celu zapewnienia kompletności, ważności, spójności i poprawności danych.
