W oczekiwaniu na przełom – czyli jak dane skanowe mierzą inflację CPI

Ekonomiści mBanku

Obserwuj nas

Google News

freepik.com

Reklama

Udostępnij

Wskaźniki cen mierzące rozmiar inflacji są jednymi z najważniejszych, najbardziej oczekiwanych i komentowanych informacji gospodarczych. Ważne zatem jest, aby pomiar był jak najmniej obciążony i tym samym jak najbardziej precyzyjny. Na całym świecie mierzeniem inflacji zajmują się przede wszystkim krajowe urzędy statystyczne, a czasami pomiar ten wspomagają banki centralne (np. w Polsce Narodowy Bank Polski mierzy i publikuje tzw. inflację bazową). My w dzisiejszym tekście przybliżymy pokrótce jak robi to Główny Urząd Statystyczny, ale głównym naszym celem jest przybliżenie jednej z dwóch alternatywnych metod pomiaru: danych skanowanych. To jest przyszłość proszę państwa.

Kiedy wyginą dinozaury...

Obecnie do wyliczenia podstawowej miary inflacji, czyli wskaźnika cen towarów i usług konsumpcyjnych (ang. CPI – Consumer Price Index), wykorzystuje się tzw. reprezentanty towarów i usług, tj. produkty i usługi, które są najczęściej kupowane przez gospodarstwa domowe w celu ich konsumpcji. Informację o poziomie konsumpcji składników koszyka towarów i usług zawartych w CPI uzyskuje się z Badania Budżetu Gospodarstw Domowych (BBGD). To wyznacza strukturę koszyka. Niezbędne w procesie pomiaru inflacji jest oczywiście również zebranie informacji o poziomach cen tych komponentów w dwóch porównywanych okresach, tj. bieżącym (czyli tym, który obecnie badamy) i bazowym (to ten, do którego porównujemy). Po co? Bo inflacja wyznacza zmianę cen, a więc musimy mieć dwa okresy. Ale jak notowane są ceny?

Notowania cen przede wszystkich prowadzone są przez ankieterów. Ankieterzy to osoby odpowiednio przeszkolone i tym samym kompetentne, które są wyposażone w urządzenia elektroniczne (tablety), na których zapisują ceny z punktów sprzedaży detalicznej (z supermarketów, hipermarketów, domów towarowych jak i z małych osiedlowych sklepików, kiosków czy ze straganów, z placówek gastronomicznych oraz z jednostek świadczących usługi). W Polsce mamy ponad 200 rejonów notowań cen, przy czym rejonem może być zarówno całe miasto jak i jego część (np. dzielnica), a także gmina.

Reklama

Z reguły ceny notowane są raz w miesiącu, ale nie zawsze. Istnieje grupa produktów, która charakteryzuje się dynamicznymi zmianami cen a także sezonowością (np. owoce i warzywa), w związku z czym ich ceny są notowane dwukrotnie w ciągu miesiąca. Jak podaje Główny Urząd Statystyczny, na potrzeby obliczeń wskaźników cen konsumpcyjnych statystyka gromadzi ponad 230 tys. cen w miesiącu. Liczba ta stale wzrasta ponieważ rośnie różnorodność oferty towarów i usług konsumpcyjnych oraz pojawiają się nowe źródła danych o cenach. W szczególności coraz więcej urzędów statystycznych na świecie sięga po dane o cenach do Internetu (dane skrapowane) lub nawiązuje współpracę z sieciami handlowymi i pozyskuje je za pośrednictwem elektronicznych terminali handlowych (dane skanowane). Przyjrzyjmy się więc tym bardziej nowoczesnym metodom pomiaru inflacji.

...stanie się przyszłość

Weźmy najpierw pod uwagę dane skrapowne. Web-scraping to technika, która umożliwia pozyskiwanie danych zamieszczanych na stronach internetowych. Niewątpliwym atutem tego rodzaju kolekcji danych jest fakt, że dane te można pozyskiwać w sposób zautomatyzowany i z dużą częstotliwością (nawet dzienną). W konsekwencji pozwala to na niemal natychmiastowe ich wykorzystanie i produkcję wskaźnika cenowego „online”. Należy jednak zaznaczyć, że z reguły web-scraping obejmuje jedynie dużych detalistów, którzy posiadają swoje strony internetowe oraz ofertę sprzedaży online. Z perspektywy praktycznej możemy stwierdzić, że nasze (tj. mBankowe) analizy inflacyjne regularnie wspomagamy web-scrappingiem, ale póki co to źródło danych generuje więcej problemów niż korzyści. Głównym problemem jest brak jednolitości prezentowanych danych zarówno na poziomie pojedynczego dostawcy, jak i ich grup oraz potężną zmienność. Mamy również problem z dopasowaniem wskaźników cenowych budowanych online z danymi GUS. Nie zarzucamy jednak tych prób budując bazę danych na przyszłość, kiedy ten zbiór danych upowszechni się oficjalnie w urzędzie (lub o ile się w ogóle upowszechni).

Drugim, alternatywnym i jakże nowoczesnym źródłem w pomiarze inflacji, są dane skanowane. Jak podaje EUROSTAT są to: „dane pochodzące z elektronicznych terminali w punktach sprzedaży sieci handlowych, które dostarczają informacji o sprzedawanych produktach na poziomie kodu kreskowego GTIN (ang. Global Trade Item Number) lub EAN (ang. European Article Number), w których zawarte są dane o cenach i poziomie konsumpcji produktów”. Mówiąc prościej – podczas zakupów nasze produkty są skanowane przy kasach, a sklep za pomocą kodu kreskowego znajdującego się na każdym z produktów zapisuje informacje o sprzedanych produktach. W związku z tym, dane skanowane dostarczają bardzo szczegółowych informacji o dokonanych transakcjach i charakteryzuje je olbrzymi wolumen. Jedną z wielu zalet wykorzystywania danych skanowanych w pomiarze inflacji jest fakt, że dane ze skanera zawierają detaliczne informacje o sprzedawanym (konsumowanym) produkcie na poziomie kodu kreskowego (GTIN, EAN, SKU, etc.), a to umożliwia automatyczne „rozpoznawanie” produktów i w konsekwencji ich klasyfikowanie do odpowiednich grup COICOP* (ang. Classification of Individual Consumption by Purpose). W praktyce oznacza to, że poza informacją o tym jaki produkt i w jakiej ilości został sprzedany, znamy też kod sprzedawcy, kod identyfikujący punkt sprzedaży w obrębie danej sieci, etykietę produktu, jednostkę sprzedaży (np. „szt”, „kg”, ”ml”), wartość sprzedaży, liczbę sprzedanych jednostek produktu oraz informacje o rabatach czy podatku VAT. Jest to pomocne przy agregowaniu produktów w jednorodne grupy, co z reguły wykonuje się w oparciu o metody uczenia maszynowego (machine learning) i/lub metody analizy tekstu (text mining). Ważne (a może nawet najważniejsze) jest również to, że specyfika danych skanowanych pozwala na obliczanie wskaźników cen w oparciu o produkty, które zostały faktycznie sprzedane. Tu nie mamy cen ofertowych, jak w przypadku skrapowania, tylko realne ceny transakcyjne. Mamy też pewność reprezentatywności próbki – system IT wybiera najczęściej sprzedawane kody przedmiotów (tzw. low sales filter), co jest innym podejściem niż w tradycyjnym poborze cen, gdzie ankieterzy zbierają ceny produktów tak długo, jak towar jest dostępny, pomimo że może nie być już reprezentatywny (o tym dowiemy się dopiero z przyszłych BBGD). Co więcej, dane skanowane pozyskuje się w sposób automatyczny i tańszy niż w przypadku klasycznego poboru cen przez ankieterów. Szacunki wielu krajów pokazują, że mowa tu o oszczędnościach finansowych rzędu przynajmniej kilkudziesięciu tysięcy euro rocznie (takie kwoty padają "w kuluarach" natomiast wydaje się to jakoś mało ambitnym szacunkiem).

Reklama

* Jest to klasyfikacja towarów i usług nabywanych przez gospodarstwa domowe według celu przeznaczenia.

Wykorzystywanie danych skanowanych, jakkolwiek korzystne i z pozoru łatwe, niesie ze sobą także poważne wyzwania metodologiczne, systemowe i ludzkie. Duże sieci handlowe generują ogromną ilość danych (miliardy rekordów i dziesiątki tysięcy produktów), które należy przetworzyć (sklasyfikować, dopasować w czasie, odfiltrować). Do tego wymagana jest odpowiednia struktura informatyczna (system IT) oraz wykwalifikowany personel zajmujący się przetwarzaniem danych skanowanych. Zbiory danych skanowanych charakteryzują się dużą dynamiką produktów (tzw. product churn) co w połączeniu z ich ogromnym wolumenem sprawia, że procedowanie tych danych jest procesem czasochłonnym i często wymagającym uruchomienia dodatkowych serwerów obliczeniowych. Pewnym wyzwaniem, także w kontekście danych skrapowanych, jest agregacja wskaźników wyznaczonych w oparciu o nowe źródła danych ze wskaźnikiem pochodzącym z tradycyjnej kolekcji danych. Z reguły odbywa się to na poziomie nie wyższym niż COICOP5 (to już bardzo szczegółowe rozbicie produktowe), ale nie ma tu wypracowanych standardów nawet w zakresie formuły agregującej (nie wyjaśniamy tego procesu, gdyż to nie jest nasze ostatnie słowo w zakresie nowych sposobów pomiaru inflacji). Na koniec tej części warto również wspomnieć, iż nawiązanie przez urząd statystyczny współpracy z siecią handlową nie jest zadaniem łatwym, zwłaszcza jeśli przekazywanie danych skanowanych nie generuje korzyści finansowych dla danej sieci. Jak pokazują doświadczenia krajów UE, którym udało się nawiązać tego rodzaju współpracę, z reguły negocjacje prowadzące do porozumienia trwają 6-8 miesięcy.

Zobacz także: Wiadomości krajowe: ustawa budżetowa na 2024 zatwierdzona

Przyszłość rozpycha się łokciami już w teraźniejszości

Reklama

Pomimo wyzwań metodologicznych, dane skanowane cieszą się coraz większą popularnością. Pionierem w stosowaniu danych skanowanych są Stany Zjednoczone, zaś niedościgniony poziom zaawansowania metodologicznego i technologicznego reprezentują Australia i Japonia. Jeśli chodzi o kraje europejskie, znaczna część państw (obecnie ponad 1/3) w mniejszym bądź większym stopniu korzysta z danych skanowanych w pomiarze inflacji. Są to m.in. Holandia, Luksemburg, Niemcy, Francja, Norwegia, Szwecja, Belgia, Dania czy Islandia. Z reguły w krajach tych pokrycie koszyka inflacyjnego danymi skanowanymi sięga 20-25% udziału w wydatkach. W Polsce Główny Urząd Statystyczny wykorzystuje dane skanowane do wspomagania szacunków krajowego CPI (tzn. mają one "jakąś" wagę w ostatecznym szacunku inflacji lub podlegają kontroli krzyżowej w ramach standardowego pomiaru cen), natomiast nie wykorzystuje ich jeszcze w ramach szacunków zharmonizowanego wskaźnika HICP. Ta sama uwaga dotyczy danych skrapowanych, po które także chętnie sięga Narodowy Bank Polski i prowadzi w tym kierunku swoje własne analizy.

Według EUROSTATU, wykorzystywanie danych skanowanych daję uzasadnioną nadzieję na poprawę jakości pomiaru HICP. Ilość, różnorodność i jakość danych skanowanych pochodzących od sieci handlowych stanowi ogromną wartość poznawczą, co w konsekwencji daje podstawy do dokładniejszych, mniej obciążonych i „nowoczesnych” wskaźników CPI oraz HICP. Póki co jednak, urzędy statystyczne nie są jeszcze gotowe do przejścia w pełni na pomiary skanowane i zapewne w kilku kolejnych latach istotnie się to nie zmieni. Mogą one jednak w coraz większym stopniu wspomagać analizy tworzone w standardowy sposób.

Uwagi końcowe

Ostatnio lubimy zapraszać gości do wypowiedzi w tematach, które znają lepiej od nas. Dzisiejszy tekst wyszedł spod pióra Natalii Pawelec, a my ograniczyliśmy się do zajęć edytorskich. Natalia jest absolwentką Uniwersytetu Łódzkiego na kierunku Ekonomia (lic.) oraz Informatyka i Ekonometria (mgr), z uzyskanym tytułem magistra ekonomii oraz magistra European Master in Official Statistics (międzynarodowego certyfikatu nadawanego przez Komitet Europejskiego Systemu Statystycznego [ESSC] oraz Europejski Urząd Statystyczny [Eurostat]). Trochę więc o statystyce publicznej wie. Z uwagi natomiast na fakt, że jednocześnie jest zdobywczynią I miejsca w konkursie na najlepszą pracę magisterską z zakresu statystyki pt. "Dane skanowane jako nowoczesne źródło danych w pomiarze inflacji", ma również potężną wiedzę konkretnie w tym temacie. Poza pracą w mBanku wykłada i doktoryzuje się w Instytucie Ekonomii Uniwersytetu Łódzkiego.

Masz ciekawy temat? Napisz do nas

Chcesz, żebyśmy opisali Twoją historię albo zajęli się jakimś problemem?

Masz ciekawy temat? Napisz do nas

Napisz do redakcji

Ekonomiści mBanku

mBank od lat jest synonimem innowacyjnych rozwiązań w bankowości. Byliśmy pierwszym w pełni internetowym bankiem w Polsce, a dziś wyznaczamy kierunek rozwoju bankowości mobilnej i online. Jesteśmy jedną z najsilniejszych i najszybciej rozwijających się marek finansowych w Polsce, od 1992 roku notowaną na warszawskiej Giełdzie Papierów Wartościowych.