Spisu treści:
- Definicja - Co oznacza odkrycie wiedzy w bazach danych (KDD)?
- Techopedia wyjaśnia Odkrywanie wiedzy w bazach danych (KDD)
Definicja - Co oznacza odkrycie wiedzy w bazach danych (KDD)?
Odkrycie wiedzy w bazach danych (KDD) to proces odkrywania przydatnej wiedzy z kolekcji danych. Ta szeroko stosowana technika eksploracji danych jest procesem obejmującym przygotowanie i selekcję danych, czyszczenie danych, włączenie wcześniejszej wiedzy o zestawach danych i interpretację dokładnych rozwiązań z zaobserwowanych wyników.
Główne obszary zastosowania KDD obejmują marketing, wykrywanie oszustw, telekomunikację i produkcję.
Techopedia wyjaśnia Odkrywanie wiedzy w bazach danych (KDD)
Tradycyjnie wyszukiwanie danych i odkrywanie wiedzy odbywało się ręcznie. W miarę upływu czasu ilość danych w wielu systemach wzrosła do wielkości większej niż terabajt i nie mogła być dłużej utrzymywana ręcznie. Co więcej, dla pomyślnego istnienia każdej firmy, odkrywanie podstawowych wzorców danych jest uważane za niezbędne. W rezultacie opracowano kilka narzędzi programowych do wykrywania ukrytych danych i dokonywania założeń, które stanowiły część sztucznej inteligencji.
Proces KDD osiągnął szczyt w ciągu ostatnich 10 lat. Obecnie obejmuje wiele różnych podejść do odkrywania, w tym uczenie indukcyjne, statystykę bayesowską, optymalizację zapytań semantycznych, zdobywanie wiedzy dla systemów ekspertowych i teorii informacji. Ostatecznym celem jest wydobycie wiedzy wysokiego poziomu z danych niskiego poziomu.
KDD obejmuje działania multidyscyplinarne. Obejmuje to przechowywanie i dostęp do danych, algorytmy skalowania do ogromnych zestawów danych i interpretację wyników. Proces czyszczenia i dostępu do danych wchodzących w skład hurtowni danych ułatwia proces KDD. Sztuczna inteligencja wspiera również KDD poprzez odkrywanie praw empirycznych na podstawie eksperymentów i obserwacji. Wzorce rozpoznane w danych muszą być poprawne dla nowych danych i posiadać pewien stopień pewności. Te wzorce są uważane za nową wiedzę. Kroki zaangażowane w cały proces KDD to:
- Określ cel procesu KDD z perspektywy klienta.
- Poznaj zaangażowane domeny aplikacji i wymaganą wiedzę
- Wybierz docelowy zestaw danych lub podzbiór próbek danych, na których ma zostać przeprowadzone wykrywanie.
- Oczyść i wstępnie przetwarzaj dane, decydując o strategii postępowania z brakującymi polami i zmieniając dane zgodnie z wymaganiami.
- Uprość zbiory danych, usuwając niepożądane zmienne. Następnie przeanalizuj przydatne funkcje, których można użyć do przedstawienia danych, w zależności od celu lub zadania.
- Dopasuj cele KDD do metod eksploracji danych, aby zasugerować ukryte wzorce.
- Wybierz algorytmy eksploracji danych, aby odkryć ukryte wzorce. Ten proces obejmuje podejmowanie decyzji, które modele i parametry mogą być odpowiednie dla całego procesu KDD.
- Szukaj wzorców zainteresowania w określonej formie reprezentacyjnej, które obejmują reguły klasyfikacji lub drzewa, regresję i grupowanie.
- Interpretuj niezbędną wiedzę z wydobytych wzorów.
- Wykorzystaj wiedzę i zastosuj ją w innym systemie do dalszych działań.
- Dokumentuj to i twórz raporty dla zainteresowanych stron.