Wskaźniki cen mierzące rozmiar inflacji są jednymi z najważniejszych, najbardziej oczekiwanych i komentowanych informacji gospodarczych. Ważne zatem jest, aby pomiar był jak najmniej obciążony i tym samym jak najbardziej precyzyjny. Na całym świecie mierzeniem inflacji zajmują się przede wszystkim krajowe urzędy statystyczne, a czasami pomiar ten wspomagają banki centralne (np. w Polsce Narodowy Bank Polski mierzy i publikuje tzw. inflację bazową). My w dzisiejszym tekście przybliżymy pokrótce jak robi to Główny Urząd Statystyczny, ale głównym naszym celem jest przybliżenie jednej z dwóch alternatywnych metod pomiaru: danych skanowanych. To jest przyszłość proszę państwa.
Kiedy wyginą dinozaury...
Obecnie do wyliczenia podstawowej miary inflacji, czyli wskaźnika cen towarów i usług konsumpcyjnych (ang. CPI – Consumer Price Index), wykorzystuje się tzw. reprezentanty towarów i usług, tj. produkty i usługi, które są najczęściej kupowane przez gospodarstwa domowe w celu ich konsumpcji. Informację o poziomie konsumpcji składników koszyka towarów i usług zawartych w CPI uzyskuje się z Badania Budżetu Gospodarstw Domowych (BBGD). To wyznacza strukturę koszyka. Niezbędne w procesie pomiaru inflacji jest oczywiście również zebranie informacji o poziomach cen tych komponentów w dwóch porównywanych okresach, tj. bieżącym (czyli tym, który obecnie badamy) i bazowym (to ten, do którego porównujemy). Po co? Bo inflacja wyznacza zmianę cen, a więc musimy mieć dwa okresy. Ale jak notowane są ceny?
Notowania cen przede wszystkich prowadzone są przez ankieterów. Ankieterzy to osoby odpowiednio przeszkolone i tym samym kompetentne, które są wyposażone w urządzenia elektroniczne (tablety), na których zapisują ceny z punktów sprzedaży detalicznej (z supermarketów, hipermarketów, domów towarowych jak i z małych osiedlowych sklepików, kiosków czy ze straganów, z placówek gastronomicznych oraz z jednostek świadczących usługi). W Polsce mamy ponad 200 rejonów notowań cen, przy czym rejonem może być zarówno całe miasto jak i jego część (np. dzielnica), a także gmina.
Z reguły ceny notowane są raz w miesiącu, ale nie zawsze. Istnieje grupa produktów, która charakteryzuje się dynamicznymi zmianami cen a także sezonowością (np. owoce i warzywa), w związku z czym ich ceny są notowane dwukrotnie w ciągu miesiąca. Jak podaje Główny Urząd Statystyczny, na potrzeby obliczeń wskaźników cen konsumpcyjnych statystyka gromadzi ponad 230 tys. cen w miesiącu. Liczba ta stale wzrasta ponieważ rośnie różnorodność oferty towarów i usług konsumpcyjnych oraz pojawiają się nowe źródła danych o cenach. W szczególności coraz więcej urzędów statystycznych na świecie sięga po dane o cenach do Internetu (dane skrapowane) lub nawiązuje współpracę z sieciami handlowymi i pozyskuje je za pośrednictwem elektronicznych terminali handlowych (dane skanowane). Przyjrzyjmy się więc tym bardziej nowoczesnym metodom pomiaru inflacji.
...stanie się przyszłość
Weźmy najpierw pod uwagę dane skrapowne. Web-scraping to technika, która umożliwia pozyskiwanie danych zamieszczanych na stronach internetowych. Niewątpliwym atutem tego rodzaju kolekcji danych jest fakt, że dane te można pozyskiwać w sposób zautomatyzowany i z dużą częstotliwością (nawet dzienną). W konsekwencji pozwala to na niemal natychmiastowe ich wykorzystanie i produkcję wskaźnika cenowego „online”. Należy jednak zaznaczyć, że z reguły web-scraping obejmuje jedynie dużych detalistów, którzy posiadają swoje strony internetowe oraz ofertę sprzedaży online. Z perspektywy praktycznej możemy stwierdzić, że nasze (tj. mBankowe) analizy inflacyjne regularnie wspomagamy web-scrappingiem, ale póki co to źródło danych generuje więcej problemów niż korzyści. Głównym problemem jest brak jednolitości prezentowanych danych zarówno na poziomie pojedynczego dostawcy, jak i ich grup oraz potężną zmienność. Mamy również problem z dopasowaniem wskaźników cenowych budowanych online z danymi GUS. Nie zarzucamy jednak tych prób budując bazę danych na przyszłość, kiedy ten zbiór danych upowszechni się oficjalnie w urzędzie (lub o ile się w ogóle upowszechni).
Drugim, alternatywnym i jakże nowoczesnym źródłem w pomiarze inflacji, są dane skanowane. Jak podaje EUROSTAT są to: „dane pochodzące z elektronicznych terminali w punktach sprzedaży sieci handlowych, które dostarczają informacji o sprzedawanych produktach na poziomie kodu kreskowego GTIN (ang. Global Trade Item Number) lub EAN (ang. European Article Number), w których zawarte są dane o cenach i poziomie konsumpcji produktów”. Mówiąc prościej – podczas zakupów nasze produkty są skanowane przy kasach, a sklep za pomocą kodu kreskowego znajdującego się na każdym z produktów zapisuje informacje o sprzedanych produktach. W związku z tym, dane skanowane dostarczają bardzo szczegółowych informacji o dokonanych transakcjach i charakteryzuje je olbrzymi wolumen. Jedną z wielu zalet wykorzystywania danych skanowanych w pomiarze inflacji jest fakt, że dane ze skanera zawierają detaliczne informacje o sprzedawanym (konsumowanym) produkcie na poziomie kodu kreskowego (GTIN, EAN, SKU, etc.), a to umożliwia automatyczne „rozpoznawanie” produktów i w konsekwencji ich klasyfikowanie do odpowiednich grup COICOP* (ang. Classification of Individual Consumption by Purpose). W praktyce oznacza to, że poza informacją o tym jaki produkt i w jakiej ilości został sprzedany, znamy też kod sprzedawcy, kod identyfikujący punkt sprzedaży w obrębie danej sieci, etykietę produktu, jednostkę sprzedaży (np. „szt”, „kg”, ”ml”), wartość sprzedaży, liczbę sprzedanych jednostek produktu oraz informacje o rabatach czy podatku VAT. Jest to pomocne przy agregowaniu produktów w jednorodne grupy, co z reguły wykonuje się w oparciu o metody uczenia maszynowego (machine learning) i/lub metody analizy tekstu (text mining). Ważne (a może nawet najważniejsze) jest również to, że specyfika danych skanowanych pozwala na obliczanie wskaźników cen w oparciu o produkty, które zostały faktycznie sprzedane. Tu nie mamy cen ofertowych, jak w przypadku skrapowania, tylko realne ceny transakcyjne. Mamy też pewność reprezentatywności próbki – system IT wybiera najczęściej sprzedawane kody przedmiotów (tzw. low sales filter), co jest innym podejściem niż w tradycyjnym poborze cen, gdzie ankieterzy zbierają ceny produktów tak długo, jak towar jest dostępny, pomimo że może nie być już reprezentatywny (o tym dowiemy się dopiero z przyszłych BBGD). Co więcej, dane skanowane pozyskuje się w sposób automatyczny i tańszy niż w przypadku klasycznego poboru cen przez ankieterów. Szacunki wielu krajów pokazują, że mowa tu o oszczędnościach finansowych rzędu przynajmniej kilkudziesięciu tysięcy euro rocznie (takie kwoty padają "w kuluarach" natomiast wydaje się to jakoś mało ambitnym szacunkiem).
* Jest to klasyfikacja towarów i usług nabywanych przez gospodarstwa domowe według celu przeznaczenia.
Wykorzystywanie danych skanowanych, jakkolwiek korzystne i z pozoru łatwe, niesie ze sobą także poważne wyzwania metodologiczne, systemowe i ludzkie. Duże sieci handlowe generują ogromną ilość danych (miliardy rekordów i dziesiątki tysięcy produktów), które należy przetworzyć (sklasyfikować, dopasować w czasie, odfiltrować). Do tego wymagana jest odpowiednia struktura informatyczna (system IT) oraz wykwalifikowany personel zajmujący się przetwarzaniem danych skanowanych. Zbiory danych skanowanych charakteryzują się dużą dynamiką produktów (tzw. product churn) co w połączeniu z ich ogromnym wolumenem sprawia, że procedowanie tych danych jest procesem czasochłonnym i często wymagającym uruchomienia dodatkowych serwerów obliczeniowych. Pewnym wyzwaniem, także w kontekście danych skrapowanych, jest agregacja wskaźników wyznaczonych w oparciu o nowe źródła danych ze wskaźnikiem pochodzącym z tradycyjnej kolekcji danych. Z reguły odbywa się to na poziomie nie wyższym niż COICOP5 (to już bardzo szczegółowe rozbicie produktowe), ale nie ma tu wypracowanych standardów nawet w zakresie formuły agregującej (nie wyjaśniamy tego procesu, gdyż to nie jest nasze ostatnie słowo w zakresie nowych sposobów pomiaru inflacji). Na koniec tej części warto również wspomnieć, iż nawiązanie przez urząd statystyczny współpracy z siecią handlową nie jest zadaniem łatwym, zwłaszcza jeśli przekazywanie danych skanowanych nie generuje korzyści finansowych dla danej sieci. Jak pokazują doświadczenia krajów UE, którym udało się nawiązać tego rodzaju współpracę, z reguły negocjacje prowadzące do porozumienia trwają 6-8 miesięcy.
Zobacz także: Wiadomości krajowe: ustawa budżetowa na 2024 zatwierdzona
Przyszłość rozpycha się łokciami już w teraźniejszości
Pomimo wyzwań metodologicznych, dane skanowane cieszą się coraz większą popularnością. Pionierem w stosowaniu danych skanowanych są Stany Zjednoczone, zaś niedościgniony poziom zaawansowania metodologicznego i technologicznego reprezentują Australia i Japonia. Jeśli chodzi o kraje europejskie, znaczna część państw (obecnie ponad 1/3) w mniejszym bądź większym stopniu korzysta z danych skanowanych w pomiarze inflacji. Są to m.in. Holandia, Luksemburg, Niemcy, Francja, Norwegia, Szwecja, Belgia, Dania czy Islandia. Z reguły w krajach tych pokrycie koszyka inflacyjnego danymi skanowanymi sięga 20-25% udziału w wydatkach. W Polsce Główny Urząd Statystyczny wykorzystuje dane skanowane do wspomagania szacunków krajowego CPI (tzn. mają one "jakąś" wagę w ostatecznym szacunku inflacji lub podlegają kontroli krzyżowej w ramach standardowego pomiaru cen), natomiast nie wykorzystuje ich jeszcze w ramach szacunków zharmonizowanego wskaźnika HICP. Ta sama uwaga dotyczy danych skrapowanych, po które także chętnie sięga Narodowy Bank Polski i prowadzi w tym kierunku swoje własne analizy.
Według EUROSTATU, wykorzystywanie danych skanowanych daję uzasadnioną nadzieję na poprawę jakości pomiaru HICP. Ilość, różnorodność i jakość danych skanowanych pochodzących od sieci handlowych stanowi ogromną wartość poznawczą, co w konsekwencji daje podstawy do dokładniejszych, mniej obciążonych i „nowoczesnych” wskaźników CPI oraz HICP. Póki co jednak, urzędy statystyczne nie są jeszcze gotowe do przejścia w pełni na pomiary skanowane i zapewne w kilku kolejnych latach istotnie się to nie zmieni. Mogą one jednak w coraz większym stopniu wspomagać analizy tworzone w standardowy sposób.
Uwagi końcowe
Ostatnio lubimy zapraszać gości do wypowiedzi w tematach, które znają lepiej od nas. Dzisiejszy tekst wyszedł spod pióra Natalii Pawelec, a my ograniczyliśmy się do zajęć edytorskich. Natalia jest absolwentką Uniwersytetu Łódzkiego na kierunku Ekonomia (lic.) oraz Informatyka i Ekonometria (mgr), z uzyskanym tytułem magistra ekonomii oraz magistra European Master in Official Statistics (międzynarodowego certyfikatu nadawanego przez Komitet Europejskiego Systemu Statystycznego [ESSC] oraz Europejski Urząd Statystyczny [Eurostat]). Trochę więc o statystyce publicznej wie. Z uwagi natomiast na fakt, że jednocześnie jest zdobywczynią I miejsca w konkursie na najlepszą pracę magisterską z zakresu statystyki pt. "Dane skanowane jako nowoczesne źródło danych w pomiarze inflacji", ma również potężną wiedzę konkretnie w tym temacie. Poza pracą w mBanku wykłada i doktoryzuje się w Instytucie Ekonomii Uniwersytetu Łódzkiego.