Czym jest big data i skąd się bierze

W statystyce i informatyce termin big data - "duża masa danych" - odnosi się ogólnie do zbioru danych informacyjnych, które są tak duże pod względem objętości, szybkości i różnorodności, że wymagają specyficznych technologii i metod analitycznych, aby wydobyć wartość lub wiedzę. Literatura wyjaśnia więc, czym jest big data i do czego służy, używając terminów, które mogą brzmieć zbyt technicznie dla niewtajemniczonych. W rzeczywistości jest to jedna z najgłębszych i najbardziej wszechobecnych ewolucji świata cyfrowego, która będzie trwała przez długi czas i głęboko wpłynie na nasze codzienne życie i działalność produkcyjną firm.

Jest to wpływ, który można odczuć każdego dnia, i który praktycznie radykalnie zmienił wiele podstawowych czynności naszej egzystencji. Podobnie jak świat wokół nas. Dlatego też, szczególnie w ostatnim dwudziestoleciu, coraz częściej słyszymy o megadanych w prasie drukowanej i internetowej, a tym bardziej na łamach poświęconych marketingowi i IT. W tym poradniku wspólnie odkryjemy ich wartość, do czego są wykorzystywane i skąd mogą pochodzić big data.


Big Data: czym są i do czego są wykorzystywane

Big data to trend, który jest nie tylko potężny, ale jak już wspomnieliśmy, również skazany na trwanie w czasie. Ponadto jest on stale ulepszany z punktu widzenia zastosowań. Termin ten, jak Państwo zapewne rozumieją, jest używany w odniesieniu do zdolności - właściwej dla nauki o danych - do analizowania, ekstrapolowania i odnoszenia się do bardzo dużej ilości heterogenicznych danych, ustrukturyzowanych i nieustrukturyzowanych. Wszystko dzięki zaawansowanym metodom statystycznym i komputerowym, mającym na celu odkrywanie powiązań i korelacji pomiędzy różnymi zjawiskami, a w konsekwencji przewidywanie przyszłych zjawisk.

Podając kilka przykładów, z biznesowego punktu widzenia big data mogą być wykorzystywane do różnych celów, w tym do mierzenia wydajności organizacji lub procesu biznesowego. W życiu codziennym, jednak, aby w pełni zrozumieć, czym są big data, możemy pomyśleć o interakcji na portalach społecznościowych, nawigacji na dowolnej stronie internetowej lub najnowocześniejszych smartfonach, które są praktycznie zawsze połączone, nie zapominając o kartach kredytowych używanych do zakupów, telewizji, pamięci masowej potrzebnej do aplikacji komputerowych, inteligentnej infrastrukturze miejskiej i czujnikach zamontowanych na budynkach oraz w transporcie publicznym i prywatnym.

W tych wszystkich przypadkach mamy do czynienia z imponującą ilością generowanych danych, oczywiście znacznie większą niż kilkadziesiąt lat temu. Obecnie duże dane mogą być analizowane w czasie rzeczywistym. Ponadto ludzie z czasem stali się również źródłem danych, podobnie jak niemała ilość danych powstaje w całym łańcuchu wartości każdej branży. W 2011 roku firma Teradata stwierdziła, że "system big data przekracza/wykracza poza/przekracza możliwości systemów sprzętowych i programowych powszechnie stosowanych do przechwytywania, zarządzania i przetwarzania danych w rozsądnych ramach czasowych dla społeczności/populacji użytkowników, nawet masowej".

Kolejną propozycję charakterystyki big data podał McKinsey Global Institute: "System big data odnosi się do zbiorów danych, których rozmiar/objętość jest tak duża, że przekracza możliwości systemów relacyjnych baz danych w zakresie przechwytywania, przechowywania, zarządzania i analizowania". W rzeczywistości sama definicja big data nie jest wystarczająca, aby zaoferować pełny i optymalny obraz tak istotnego zjawiska. W rzeczywistości nie oznacza to ograniczenia się do mówienia o dużych ilościach danych: zmienił się również proces zbierania i zarządzania danymi, a technologie wspierające cykl życia danych i ich wykorzystanie ewoluowały.

Wielka rewolucja, o której mówimy mówiąc o big data, to zatem przede wszystkim umiejętność wykorzystania tych wszystkich informacji do przetwarzania, analizowania i znajdowania obiektywnych dowodów w różnych kwestiach. Przekłada się to na to, co można zrobić z taką ilością danych, czyli na algorytmy zdolne poradzić sobie z tyloma zmiennymi w krótkim czasie, a co więcej, przy niewielkich zasobach obliczeniowych - być może nawet zwykłym laptopie z dostępem do analizowanej platformy. Big data, mówiąc prościej, zakłada nowe i bardziej wyrafinowane możliwości łączenia informacji w celu zapewnienia prawdziwie wizualnego podejścia do danych, sugerując wzorce i modele interpretacji, których do tej pory nie można było sobie nawet wyobrazić.

Big data, zatem, jest ogólnie zdefiniowana przez trzy Vs. Pierwszym z nich, będącym bardzo big data, jest Wolumen, czyli ilość danych (ustrukturyzowanych lub nieustrukturyzowanych) generowanych w każdej sekundzie z heterogenicznych źródeł - by wymienić tylko kilka, możemy pomyśleć o czujnikach, logach, mailach, GPS, mediach społecznościowych i tradycyjnych bazach danych. Mamy też Variety (różnorodność), która odnosi się do różnych typów generowanych, gromadzonych i wykorzystywanych danych, a także Velocity (szybkość) - ponieważ big data są tworzone w czasie rzeczywistym. Z czasem wprowadzono czwarte V - Prawdomówność, a następnie piąte - Wartość.

Różne zastosowania Big Data

Analiza dużych ilości danych pozwala nam generować nową wiedzę przydatną do podejmowania bardziej świadomych decyzji, nie tylko w obszarze biznesowym. Teraz, gdy wiemy już, czym jest big data i do czego jest wykorzystywana, równie ważna jest świadomość tego, jak jest ona wykorzystywana w różnych sektorach. Wszystko to jest możliwe i całkowicie przystępne dzięki technologiom, które umożliwiają zarządzanie nieustrukturyzowanymi danymi i przetwarzanie dużych wolumenów danych w czasie rzeczywistym, ale także dzięki upowszechnieniu bardziej wyrafinowanych algorytmów i ogromnie innowacyjnych metodologii analizy.

Narzędzia te mogą i powinny autonomicznie ekstrapolować informacje ukryte w danych. W rzeczywistości przekładają się one na potencjalnie nieskończone zastosowania, widoczne każdego dnia we współczesnym świecie. Przede wszystkim w marketingu megadane znajdują swoje najbardziej użyteczne i powszechne zastosowanie, będąc szeroko wykorzystywane w budowie tzw. metod rekomendacyjnych, takich jak te stosowane przez gigantów rozrywki i e-commerce - Netflix czy Amazon - do tworzenia propozycji zakupowych w oparciu o zainteresowania konkretnego klienta w stosunku do milionów innych. Wykrycie i późniejsze ograniczenie oszustw jest kolejnym przykładem na to, jak można na co dzień wykorzystywać big data do tworzenia wartości produktywnej i poprawy wszelkiego rodzaju doświadczeń użytkowników usług lub platform. Wiodące firmy wydające karty kredytowe, takie jak Visa czy American Express, analizują codziennie miliardy transakcji z całego świata, aby zidentyfikować nietypowe ruchy i wzorce, co pozwala znacznie obniżyć liczbę i częstotliwość oszustw w czasie rzeczywistym.

Nie bez znaczenia jest też zastosowanie w tzw. konserwacji predykcyjnej. Termin ten odnosi się do firm, które wykorzystują dane zebrane na temat operacji do analizowania wydajności i przewidywania możliwych przyszłych problemów, zanim one wystąpią. Eksperci zaobserwowali, że firmy, które są liderami w dziedzinie big data są w stanie wygenerować średnio o 12 proc. więcej zysku niż firmy, które nie wykorzystują wartości tych gwiazd danych naszych czasów.

W sferze publicznej istnieje wiele innych rodzajów zastosowań dla big data: w ostatnich latach policja wykorzystuje duże ilości danych w czasie rzeczywistym do przewidywania, gdzie i ile przestępstw może mieć miejsce; bardziej precyzyjne badania przeprowadziły stowarzyszenia odpowiedzialne za korelację między zdrowiem a jakością powietrza, którym oddychamy; istnieje również możliwość przeprowadzenia analizy genomicznej w celu zwiększenia odporności upraw ryżu na suszę; a nawet tworzenia modeli do analizy danych pochodzących od istot żywych w naukach biologicznych i w badaniach medycznych, zarówno diagnostycznych, jak i farmakologicznych.

Oczywiście, we wszystkich tych obszarach absolutnie niezbędne jest uregulowanie legalnego wykorzystania big data ze względu na ich niesamowitą wartość. Nielegalne lub nadmiernie inwazyjne wykorzystywanie danych może, w mniej poważnych przypadkach, podważyć zaufanie klientów do przedsiębiorstw. W poważniejszych przypadkach może jednak wyrządzić szkodę obywatelom - którzy mogą być pacjentami, wyborcami i konsumentami - co określa się jako najsłabsze ogniwo w łańcuchu wartości. Jak podkreśla się w literaturze biznesowej i prawodawstwie, ochrona osób fizycznych obejmuje prawo do prywatności i wolności osobistych: aby zagwarantować tę ochronę, należy wzmocnić i dostosować działania kontrolne i sankcyjne odpowiednich agencji rządowych za pomocą bardziej zaawansowanych narzędzi regulacyjnych i finansowych.