Eksploracja danych
Z Wikipedii
Eksploracja danych (spotyka się również określenie drążenie danych, pozyskiwanie wiedzy, wydobywanie danych, ekstrakcja danych) (ang. data mining) to jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Istnieje wiele technik eksploracji danych, które wywodzą się z ugruntowanych dziedzin nauki takich jak statystyka (statystyczna analiza wielowymiarowa) i uczenie maszynowe. Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych.
Spis treści |
[edytuj] Techniki eksploracji danych
Techniki i metody służące eksploracji danych wywodzą się głównie z obszaru badań nad sztuczną inteligencją. Główne przykłady stosowanych rozwiązań należą do następujących zakresów:
- wizualizacje na wykresach
- metody statystyczne
- sieci neuronowe
- metody uczenia maszynowego
- metody ewolucyjne
- logika rozmyta
- zbiory przybliżone
[edytuj] Modele przetwarzania
W eksploracji danych rozwijane są różne modele przetwarzania, różniące się zakresem zastosowań, stosowanymi algorytmami rozwiązań, sposobem prezentacji wyników. Wśród nich wyróżnia się:
[edytuj] Obszar stosowania
Obszarów stosowania eksploracji danych jest wiele, obejmują one te miejsca, w których stosuje się systemy informatyczne, między innymi w celu gromadzenia pozyskanych danych w postaci baz danych. Jesteśmy świadkami prawdziwej eksplozji baz danych, mając na myśli ich liczbę i objętość. Ogromne zbiory danych gromadzone są w hurtowniach danych. Z powodu dużej prostoty konstruowania bazy danych oraz akceptowalnych cen, systemy gromadzące dane stosuje się prawie we wszystkich dziedzinach życia. Wszędzie tam natomiast, gdzie istnieje już baza danych, pojawia się potrzeba analizy tych danych w celu odkrycia nieznanej dotąd wiedzy. Dziedziny, w których szeroko stosuje się eksplorację danych to: technika, medycyna, astronomia, ekonomia, szeroko pojęty biznes.
Zastosowania KDD znajdują zastosowania przy:
- eksploracji danych o ruchu internetowym,
- rozpoznawaniu sygnałów obrazu, mowy, pisma,
- wspomaganiu diagnostyki medycznej,
- badaniach genetycznych,
- analizie operacji bankowych,
- projektowaniu hurtowni danych,
- tworzeniu reklam skierowanych(ang. Targeted ads),
- prognozowaniu sprzedaży(ang. Sales forecast),
- wdrażaniu strategii Cross-selling'owej,
- wykrywaniu nadużyć(ang. Fraud detection),
- ocenie ryzyka kredytowego,
- segmentacji klientów.
Przykładem może być odkrycie w danych z supermarketu zależności polegającej na tym że klient, który kupuje szampana i kwiaty, kupuje zwykle również czekoladki.
[edytuj] Przykłady wizualizacji
[edytuj] Gęstość
- density (gęstości empiryczne) - wykresy rozkładów empirycznych dla wybranych zmiennych predykcyjnych są tym lepsze im linie obrazujące poszczególne klasy są względem siebie znacząco przesunięte. W sytuacji, gdy się na siebie nakładają, praktycznie nie ma możliwości wyznaczenia do jakiej klasy należą.
[edytuj] Boxplot
- boxplot - celem obrazowania właściwości poszczególnych cech na wykresach typu boxplot, jest wyłonienie takich zmiennych, które charakteryzują się największymi przesunięciami względem siebie kwantyli, wartości maksymalnych, minimalnych oraz median.
[edytuj] Histogram
- histogram - histogramy dla wybranych zmiennych predykcyjnych są tym lepsze im słupki są bardziej zróżnicowane. W sytuacji, gdy się na siebie nakładają, praktycznie nie ma możliwości wyznaczenia do jakiej klasy należą.
[edytuj] Co można odczytać z wykresów?
Tabelka przedstawia jakie dane można odczytać z poszczególnych wykresów.
| Density | Boxplot | Histogram | |
|---|---|---|---|
| Kwantyl | nie | tak | nie |
| Mediana | nie | tak | nie |
| Wartość min | tak | tak | tak |
| Wartość max | tak | tak | tak |
| Wartość cechy | tak | tak | tak |
| Liczebność | tak | nie | tak |
| Częstość | tak | nie | tak |
| Wzajemna korelacja zmiennych | tak | nie | tak |
[edytuj] Literatura
- Hand David, Mannila Heikki, Smyth Padhraic, Eksploracja danych, WNT, Warszawa 2005, ISBN 83-204-3053-4
- Daniel T. Larose, Odkrywanie wiedzy z danych, Wyd. Nauk. PWN, Warszawa 2006, ISBN 83-01-14836-5
[edytuj] Linki zewnętrzne
- Data mining w praktyce
- Data Mining, Web Mining, Text Mining, and Knowledge Discovery Guide (en)
- Eksploracja danych (materiały dydaktyczne MIMUW na studia informatyczne II stopnia)
| Niska wycena ziemi dla zakonnic |
Wycena, na podstawie której elżbietanki dostały ziemię w warszawskiej Białołęce, była nierzetelna. Rzeczoznawcy stanęli już przed komisją odpowiedzialności zawodowej. |
| Episkopat broni nuncjusza |
„Znamy dostatecznie długo i dobrze Księdza Arcybiskupa Nuncjusza oraz jego wypróbowaną wierność Ojcu Świętemu i Kościołowi, aby mieć moralną pewność co do jego jednoznacznie negatywnej postawy wobec wszelkiej świadomej współpracy z zadeklarowanymi wrogami Kościoła". |
| Podsłuchy Prokomu na rynku |
ABW nie zniszczyła stenogramów podsłuchów pracowników firmy Prokom z 2007 r. Jeden z podsłuchiwanych - wiceprezes Prokomu Wiesław Walendziak - zawiadomił prokuraturę |
| Bądź tu mądry, sześciolatku |
Posłowie PO kolejny raz zmienili ustawę oświatową. W tym roku sześciolatki miały mieć „prawo" do pójścia do szkoły. Teraz znów mają „obowiązek”, ale „na wniosek rodziców”. |
| Kto robi interes na Matce Boskiej kryzysowej |
„Dar Maryi na trudne czasy” - reklamuje medalik Stowarzyszenie Kultury Chrześcijańskiej im. Piotra Skargi. - To oszustwo - mówią księża misjonarze, którzy w Polsce propagują kult Matki Bożej Objawiającej Cudowny Medalik |
| Lewica w końcu wybiera liderów |
Dziś spory ruch na centrolewicy. Na zjazdach w Warszawie nowych szefów wybierają SdPl i Demokraci.pl. Potem zapewne będą współpracować. Na początek w wyborach europejskich |
| POrządzimy sobie speckomisją |
Platforma przeforsowała nowe zasady pracy speckomisji. Jej przewodniczącym będzie mógł zostać poseł koalicji rządzącej. |
| Palikot oskarża posłankę PiS o polityczną prostytucję |
Janusz Palikot stwierdził w TVN24, że posłanka PiS Grażyna Gęsicka, wzywając rząd do odpowiedzialności za niewykorzystanie funduszy unijnych manipuluje opinią publiczną. Dodał, że jest mu przykro, iż "prostytucja w polityce sięga nawet pani minister Gęsickiej". |
| Kto zastąpi Kopacz? PO wybierze nowego szefa na Mazowszu |
- Zarząd mazowieckiej Platformy Obywatelskiej wybierze w środę nowego szefa; z kierowania partią na Mazowszu - zgodnie z wytycznymi władz Platformy - zrezygnowała jeszcze w zeszłym roku kierująca resortem zdrowia Ewa Kopacz. |
| Cimoszewicz nie rezygnuje ze startu do PE |
B. premier, b. szef MSZ a obecnie senator niezależny Włodzimierz Cimoszewicz poinformował, że nieprawdziwe są informacje prasowe, jakoby ostatecznie zrezygnował ze startu w wyborach do Parlamentu Europejskiego. |




