Seminarium „OpenData w Polsce. Potencjał, zastosowanie i przykłady dobrych praktyk”

Seminarium zatytułowane „OpenData w Polsce. Potencjał, zastosowanie i przykłady dobrych praktyk” którego gospodarzem była Katedra Metod Ilościowych w Ekonomii Wyższej Szkoły Informatyki i Zarządzania w Rzeszowie odbyło się 17 listopada 2014 roku.

Prezentacja przygotowana przez dr Kamila Waisa wprowadziła w problematykę danych otwartych (OpenData): kwestie definicyjne, podstawy prawne, korzyści z wykorzystania danych otwartych, przykłady dobrych praktyk m.in. ze Stanów Zjednoczonych i Wielkiej Brytanii, inicjatywy podejmowane w Polsce (centralne i oddolne), doświadczenia w pozyskiwaniu danych otwartych przez firmy komercyjne, a wreszcie prezentację wybranych narzędzi pozwalających na efektywną pracę z danymi otwartymi (w tym analizę i wizualizację).

W prezentacji szczególnie uwzględniono rozwijający się projekt OpenPoland.net i wykorzystanie potencjału jego API (Interfejsu Programistycznego Aplikacji), który pozwala m.in. na tworzenie przeznaczonych do pracy z danymi otwartymi: pakietów funkcji w języku programowania statystycznego R; prototypów aplikacji webowych, pozwalających na szybki dostęp do danych osobom bez umiejętności programistycznych; wizualizacji danych otwartych w interaktywnych aplikacjach webowych i mobilnych.

Seminarium zgromadziło ponad 20 osób, w tym obecni byli: pracownicy naukowi WSIiZ różnych katedr i wydziałów, przedstawiciele studentów WSIiZ Wydziału Informatyki Stosowanej, a także zaproszeni goście zewnętrzni, którzy wnieśli do dyskusji cenne uwagi z perspektywy własnego doświadczenia zawodowego związanego z problematyką danych otwartych. Wśród gości byli: przedstawiciele sektora komercyjnego – programiści w działających na rynku globalnym firm programistycznych oraz budujący produkty informatyczne oparte na danych; prawnicy – doradzający samorządom m.in. w zakresie otwierania i udostępniania danych na mocy ustawy o dostępie do informacji publicznej; a także przedstawiciele instytucji wojewódzkich, które zarówno wytwarzają i udostępniają w ramach swoich zadań dane otwarte, jak i poszukują danych z innych źródeł do swoich analiz i projektów.

W toku żywej dyskusji plenarnej i późniejszych dyskusji kuluarowych poruszono liczne problemy, postulaty, zgłoszono wiele uwag i wniosków, m.in.:

1. Podkreślono, że udostępniając nowe zbiory danych należy pamiętać o kwestii ochrony prywatności osób, których te dane bezpośrednio dotyczą. Anonimizacja danych na poziomie jednostkowym może okazać się niewystarczająca, jeśli są łączone poziomo ze sobą różne zbiory danych, przez co zwiększa się liczba wymiarów opisujących poszczególne jednostki. Może to doprowadzić do utraty anonimowości wybranych jednostek. Być może jednym z rozwiązań tego problemu byłyby procedury zmiany poziomu agregacji danych w zależności od liczby i szczegółowości wymiarów danych.

2. Podnoszono kwestię jakości i wiarygodności zbiorów danych (także oficjalnych zestawień danych gromadzonych przez instytucje publiczne), które mogę zawierać dane niepełne lub niedokładne. Zestawienie tych samych wskaźników, ale pochodzących z różnych zbiorów z różnych źródeł danych pozwoliłoby na ocenę wiarygodności danych i wypracowanie usprawnień narzędzi pomiaru.

3. Dyskutowano różne aspekty prawne związane z otwieraniem i udostępnianiem danych przez instytucje publiczne (rządowe/samorządowe): dotyczące ścieżki dostępu do informacji publicznej, wagi odmownych decyzji administracyjnych itp.

4. Zgłaszano potrzebę zapewnienia łatwego w obsłudze systemu informatycznego, który by pozwalał na sprawne udostępniania danych. Gdyby taki, faktycznie działający system obsługiwany był od strony zaplecza informatycznego na poziomie centralnym, odciążałby poszczególne urzędy i instytucje, które takim zapleczem nie dysponują, a ich zasoby do jego stworzenia i utrzymania są niewystarczające. Dodatkowo taki system powinien aktywnie wyznaczać i promować najwyższe standardy danych otwartych (techniczne, formalne, prawne).

5. Zauważono, że proaktywne i w praktyce jednorazowe otwieranie kolejnych zbiorów danych w efektywny sposób pozwala odciążyć pracowników urzędów i instytucji, którzy zmuszeni są poświęcać często dużą część czasu pracy na odpowiadanie na powtarzające się, indywidualne zapytania szczegółowe i lokalne.

6. Podniesiony został postulat, by dane surowe z projektów badawczych (zwłaszcza finansowanych z pieniędzy publicznych) również traktować jako dane otwarte i udostępniać je w repozytoriach i agregatorach danych otwartych w taki sam sposób jak inne dane tego typu, w tym również w formie łatwej do automatycznego przetwarzania. To pozwoliłoby na szybki dostęp do danych i na scalenie wyników z różnych źródeł, różnych badań empirycznych, a także oficjalnych danych urzędowych.

7. Zgłaszano potrzebę określenia standardów gromadzonych danych w różnych urzędach i instytucjach, tak by dane te były porównywalne ze sobą i dawały się realizować na różnych poziomach agregacji.

8. Przedstawiono propozycję wspólnego projektu, którego efektem mogłoby być oparte na danych otwartych, analityczne narzędzie webowe skierowane do doradców zawodowych, których zadaniem jest wspierać procesy wyboru ścieżek edukacji / karier zawodowych przez uczniów szkół. Narzędzie takie wymagałoby połączenie różnych źródeł i zbiorów danych: edukacyjnych, pochodzących ze szkół i Systemu Informacji Oświatowej (SIO); wyników egzaminów; zapotrzebowania na poszczególne zawody na rynku pracy określonego za pomocą różnych technik badawczych i danych sprawozdawczych instytucji rynku pracy; wysokości wynagrodzeń w poszczególnych zawodach, danych pochodzących z rejestrów bezrobotnych itp.

9. Zgłoszono postulat dokładnego opisu, rozbudowanych metadanych (danych o danych) poszczególnych zbiorów danych otwartych, co również pozwalałoby na ocenę ich wiarygodności (opis źródła, sposobów pomiaru, narzędzi pomiarowych itp.).

Postulowano również, by zdecydowano częściej w opisie metadanych wykorzystywać format RDF, który daje największe możliwości, ale też jest najrzadziej stosowany w kontekście danych otwartych.