Reklama
twitter
youtube
facebook
instagram
linkedin
Reklama
Reklama

co to jest data mining

Dostęp do ogromnych zbiorów danych spowodował rozwój przeróżnych technik analitycznych mających na celu poszukiwanie różnego rodzaju wzorców, współzależności czy powiązań i na ich podstawie próby oceny lub prognozowania trendów czy też zachowań. Oczywiście dzięki wykorzystaniu przeróżnych narzędzi statystycznych możemy próbować ocenić, czy istnieją związki przyczynowo-skutkowe w danych zbiorach danych, czy są to wyłącznie przypadkowe (choć atrakcyjnie się prezentujące) korelacje. Od doświadczenia, kompetencji, wnikliwości ale również kreatywności analityka zależy to, czy w danych dostrzeże wartościowe wzory, czy też uzna je za nieprzydatny do niczego szum.

Pozwolę sobie zacytować fragment opracowania profesora Andrzeja Sokołowskiego z Katedry Statystyki na Akademii Ekonomicznej w Krakowie z 2005 roku – Data mining – automat czy metoda naukowa?

Wielu statystyków, głównie tych zajmujących się teorią statystyki zdaje się nie dostrzegać bujnego rozwoju gałęzi zwanej data mining. Niektórzy z nich odnoszą się do data mining z lekceważeniem lub wręcz wrogością, uznając to podejście za „nienaukowe” i podejrzane. […] Typową reakcją obronną było zamknięcie się w wysokiej wieży z kości słoniowej i strzelanie do „przeciwnika” amunicją epitetową w rodzaju: „nienaukowe”, bezzałożeniowe, bez teorii, nieelegenckie, bez dowodów formalnych, prymitywne, nastawione tylko na zastosowania (sic!), itp.

Oczywiście mimo tych zastrzeżeń data mining  się rozwijało w coraz szerszym zakresie, tym bardziej im więcej gromadzono danych na przykład, na temat naszych zachowań w sieci. Oczywiście wzorce wykrywane w ten sposób nie są doskonałe i idealne. Naturalnie, że czasami zwodzą analityków na manowce, niemniej w ogromnej części przypadków pozwalają opracować typowe zachowania konsumentów (które bywają zmienne), wspomagają prognozowanie pogody, przewidywać mecze baseballu, czy nawet dobierać zawodników do drużyn, nie na podstawie oceny ich wyglądu, przeczucia i intuicji, tylko danych dotyczących ich aktywności (polecam Moneyball Michaela Lewisa).

W swojej pracy prof. Andrzej Sokołowski przypomina, że klasyczne badanie statystyczne funkcjonowało według modelu:

Reklama

Problem -> Model -> Dane -> Analiza -> Wynik/Interpretacja

Krótko mówiąc, najpierw budowaliśmy na podstawie naszych obserwacji, intuicji, przekonań pewien model, zaś później sprawdzaliśmy, czy dane ten model potwierdzają.

Tymczasem od momentu ukazania się w 1977 roku książki Exploratory Data Analysis Johna Turkeya podejście to zmieniło kolejność czynników.

Problem -> Dane -> Analiza -> Model -> Wynik/Interpretacja

Czyli najpierw zbieramy jak najwięcej możliwych danych, które poddajemy analizie (poszukiwaniu wzorów i zależności) a następnie na tej podstawie opracowujemy model.

Jak zwraca uwagę prof. Sokołowski przed upowszechnieniem się komputerów i wzrostem ich mocy obliczeniowej takie podejście nadawało się wyłącznie do analizy niewielkich zbiorów danych. To zaś sprawiało, że odkrywanie zależności i wzorów musiało być ograniczone.

Reklama

Podczas krótkich ubiegłotygodniowych wakacji trafiłem po raz już kolejny na zadymę pod ogólnym hasłem „analiza techniczna nie działa”. Prawdopodobnie KatHay postanowi zająć się tym dokładniej, choć robi to od wielu już lat, zdaje się jednak, że ta dyskusja nie ma większego sensu. Przede wszystkim dlatego, że osoby wygłaszające takie tezy mieszają pojęcia nauki, metody naukowej, metod analitycznych, narzędzi i użytkowników tych narzędzi. Dodatkowo dyskusje w serwisach społecznościowych zdają się rządzić logiką „będę mówił do swoich zwolenników, niech klaszczą i przytakują”.

Wszystko zaczęło się od twitterowego wpisu Rafała Zaorskiego

 grafika numer 1 grafika numer 1

Świetne! Doskonałe! Wreszcie będziemy mieli dowód – można by zakrzyknąć. Ale głównie jest atencja autora, który zdaje się uwielbiać tę zabawę.

Pomysł super, z drobnym zastrzeżeniem – analiza, narzędzie to NIE JEST METODA NAUKOWA. To narzędzie do oceny prawdopodobieństwa pewnego ruchu. Koniec.

Rafał Zaorski często powtarza – krytykom, którzy przyczepiają się gdy akurat poniesie jakąś stratę – „na rynku raz się wygrywa, a raz przegrywa”. Ale nie dopuszcza tego rodzaju myślenia do analizy technicznej. Tylko chce dowodów naukowych, że „działa” (cokolwiek, by to w jego ustach znaczyło).

Reklama

Celowo wykorzystałem na początku tego tekstu fragmenty pracy dotyczącej data mining, bo w gruncie rzeczy analiza techniczna – czyli wyszukiwanie prawidłowości i wzorców na podstawie danych to właśnie data mining. Naturalnie w książkach z lat 80. czy 90. XX wieku owo poszukiwanie wzorów było związane wyłącznie albo z obserwacją zdarzeń na wykresach, albo w ograniczonym stopniu wykorzystaniu mocy komputerów, żeby sprawdzić jaką skuteczność mogą mieć różne narzędzia analizy technicznej. Dziś wykorzystuje się moc obliczeniową komputerów do wyszukiwania prawidłowości w ruchach cen. I nie musimy tego nazywać analizą tecgniczną, ale jest to analiza danych, żeby uzyskać informację o tym, co może być skuteczne w działaniu (ze świadomością, że skuteczność może być czasowa). Oczywiście Rafał Zaorski stosuje świetny chwyt retoryczny spłycając analizę techniczną do formacji nietoperzy czy miliona kresek i wskaźników, ale to nie jest analiza techniczna to są jakieś zabawy w rysowanie na wykresach.

Choć – od razu podkreślę, że samo nazywanie formacji na podstawie tego co ona nam przypomina nie oznacza, że jest to od razu zabawa dla dzieciaków. Równie dobrze można by zacząć wyśmiewać astronomów, że nazwali mgławicę „Mgławicą Kraba”, bo – HAHAH – przecież wiemy, że nie ma tam żadnego kraba, tylko mówiąc za Pumbą z „Króla lwa” miliony płonących kul gazowych oddalonych o miliony mil.

Sarkazm, obśmiewanie i deprecjonowanie przeciwnika w dyskusji jest łatwe (próbowałem to pokazać podczas jednego z wpisów dotyczących podobnej strategii stosowanej przez Rafała Wosia – Kuglarstwo ekonomiczne). Łatwo zyskuje się popleczników. Zwłaszcza, gdy się samemu wymyśla, co to on niby sądzi. Ale taka dyskusja nie ma sensu. Bo nie jest dyskusją. Albo mówiąc inaczej „nie działa”.

Rafał Zaorski w pewnym momencie rzuca hasło „nie róbcie ze logiki szmaty”, [gdy piszecie] czyli „działa” ale jednak zależy od stosującego czyli nie zawsze„.

Oj Rafale, Rafale. Wiesz – rachunek różniczkowy działa w zależności od stosującego. Analiza elektrokardiogramu „działa” (czyli ma jakąś wartość diagnostyczną) w zależności od stosującego. Gdy wezmę do ręki suwak logarytmiczny to również mogę stwierdzić, że nie działa. Choć takim metalowym, mały gwóźdź wbiję. Więc jednak działa!

Świetnie jest oskarżyć przeciwnika, że manipuluje samemu to robiąc (w polityce to niesłychanie modna i skuteczna metoda, czyli taka która „działa”).

Reklama

Zrównywanie metody naukowej z metodą analizy nie wiem, czym jest, ale na pewno jest dalekie od logiki i rzetelności..

Ale śmiało możemy mówić już dziś – prognozy pogody nie działają (bo przecież nie udaje się poprawnie prognozować za każdym razem), analizy trendów ekonomicznych, społecznych, zachowań konsumentów – nie działają. Bo przecież to tylko wyszukiwanie wzorców na podstawie danych historycznych. A trendy? Te pewnie też nie istnieją. Bo jesteśmy w stanie generować losowe ciągi danych, które będą przypominały trendy, to przecież oczywisty dowód, że ich nie ma.

[Foto: Mgławica Kraba, która nie tylko nie jest krabem, czyli skorupiakiem z rzędu dziesięcionogów, ale dodatkowo średnio go przypomina. William Parsons, który nadał tę nazwę widać nie znał się nie tylko na mgławicach, ale i krabach]

 

 

Chcesz więcej? Sprawdź najnowsze artykuły na blogi.bossa.pl.

Reklama


Czytaj więcej

 

Opinie, założenia i przewidywania wyrażone w materiale należą do autora publikacji i nie muszą reprezentować poglądów DM BOŚ S.A. Informacje i dane zawarte w niniejszym materiale są udostępniane wyłącznie w celach informacyjnych i edukacyjnych oraz nie mogą stanowić podstawy do podjęcia decyzji inwestycyjnej. Nie należy traktować ich jako rekomendacji inwestowania w jakiekolwiek instrumenty finansowe lub formy doradztwa inwestycyjnego. DM BOŚ S.A. nie udziela gwarancji dokładności, aktualności, oraz kompletności niniejszych informacji. Zaleca się przeprowadzenie we własnym zakresie niezależnego przeglądu informacji z niniejszego materiału. Inwestowanie w instrumenty finansowe wiąże się z ryzykiem.

Czytaj więcej

Artykuły związane z co to jest data mining