Można go zatem określić dzieckiem naszych czasów, w których informacja zdaje się największą wartością.
By zrozumieć pracę badacza danych należy wpierw zrozumieć, czym jest data science. Jak mówi teoria, jest to interdyscyplinarna, nieakademicka dziedzina, skupiająca się na procesie pozyskania, obróbki, wizualizacji i wnioskowania na podstawie danych ustrukturyzowanych i nieustrukturyzowanych. Wszystko to odbywa się z użyciem metod statystycznych, eksploracji danych, uczenia maszynowego i analizy predykcyjnej.
O ile sama teoria może się wydawać dosyć skomplikowana, to jej składowe w żadnym wypadku nie są dla nas nowością. Wszystkie elementy, takie jak m.in. uczenie maszynowe, statystyka i eksploracja danych istnieją od dziesiątek lat. Nowością jest tu połączenie tych wszystkich kompetencji niezbędnych do dynamicznego wdrażania rozwiązań opartych na dużej liczbie danych.
Dane są wszędzie
Żyjemy w epoce informacyjnej. Komputer z dostępem do internetu ma dziś niemal każdy i niemal każdy generuje w nim dane. Mamy coraz więcej urządzeń.
Praca z dużymi zbiorami danych nieposiadającymi wyraźnej struktury jest pierwszym elementem odróżniającym pracę data scientist od pracy jego protoplastów: statystyków i analityków danych.
Umiejętności techniczne to nie wszystko
By odnosić sukcesy w pracy badacza danych, konieczne jest połączenie umiejętności technicznych z umiejętnościami miękkimi. Znalezienie równowagi pomiędzy tymi elementami jest tu koniecznością.
Nie bez znaczenia jest również wiedza branżowa. Badacze danych zazwyczaj specjalizują się w konkretnej gałęzi rynku: sektorze finansowym, energetyce czy telekomunikacji. Wiedza na temat specyficznych procesów charakteryzujących dany sektor jest kolejnym elementem potrzebnym do efektywnej pracy.
Rozumienie punktu widzenia odbiorców biznesowych rozwiązania i mówienie tym samym językiem znacząco przyspiesza dostarczanie rozwiązań. Do pełni szczęścia potrzeba jednak jeszcze umiejętności miękkich: empatii, otwartości na drugą osobę i proaktywności. Ta ostatnia, będąca jednym z nawyków opisywanych przez Stephena Coveya jest w mojej ocenie szczególnie wartościowa w pracy data scientist.
Plusy i minusy pracy data scientist
Plusów wynikających z pracy na stanowisku badacza danych jest wiele. Jednym z nich jest możliwość rozwiązywania arcyciekawych problemów z użyciem najnowszych technologii: analiza predykcyjna, a więc przewidywanie przyszłości na podstawie przesłanek z przeszłości jest niesamowicie satysfakcjonującym zajęciem.
Co więcej, praca w obszarze data science odbywa się na styku technologii i biznesu. Daje możliwość kontaktu z ludźmi, co znacząco obniża ryzyko przedwczesnego wypalenia, które jest powszechnym problemem programistów.
Minusem dla niektórych osób może być duża dynamika i szybko zmieniające się środowisko pracy. By nie wypaść z obiegu trzeba również być na bieżąco z nowinkami technologicznymi i wartościowymi publikacjami naukowymi, co wymaga dużych inwestycji czasu również poza pracą.
Zawód przyszłości?
Gdybym miał odpowiedzieć na to pytanie w jednym zdaniu, to zapewne odpowiedziałbym z dużą dozą ostrożności: to zależy. Dziś jesteśmy świadkami wysokiego zapotrzebowania na osoby o specjalizacji data science. Skłaniam się jednak ku temu, że stan ten nie potrwa długo. Nawet jeśli liczba ogłoszeń nie zacznie drastycznie spadać, to wynikać to będzie raczej z trudności w znalezieniu osoby o odpowiednio wysokich kompetencjach, niż z dużej liczby miejsc pracy.
Wiele procesów niegdyś uważanych za wymagające kreatywności zostało już zastąpionych przez algorytmy. Kwestią czasu jest automatyzacja kolejnych.
W nauce o danych, tak jak w wielu innych branżach postępuje automatyzacja. Już dziś istnieją rozwiązania pozwalające na zbudowanie modelu predykcyjnego o zadowalającej jakości w sposób niemal w 100% automatyczny – człowiek jest niezbędny jedynie na etapie definicji początkowych założeń i interpretacji wyników.
Prognozuję, że w najbliższej przyszłości, do czasu wysycenia rynku, liczba ofert pracy w branży data science pozostanie na stałym, wysokim poziomie. Następnie skutkiem m.in. automatyzacji i wysycenia drastycznie spadnie i w pracy pozostaną jedynie najlepsi eksperci rozumiejący wartość ciągłego rozwoju swoich kompetencji i dostarczania wartości biznesowej. Ich pracy nie sposób zautomatyzować.