PIG-PIB – liderem udostępniania danych publicznych

Państwowy Instytut Geologiczny – Państwowy Instytut Badawczy wdrożył innowacyjną technologię Linked Data. To kolejny milowy krok w udostępnianiu przestrzennych danych geologicznych. PIG-PIB jest jedną z pierwszych instytucji w Polsce, która uzyskuje pięć gwiazdek w skali dojrzałości udostępniania danych publicznych zaproponowanej przez twórcę internetu Tima Berners-Lee.

Nowe rozwiązanie polega na dokładniejszym wyszukiwaniu interesujących użytkownika danych przestrzennych. Dzięki technologii Linked Data internauta otrzymuje najbardziej trafny z możliwych wynik wyszukiwania. Od razu trafia do celu – odnajduje interesujący go zbiór danych i jego charakterystykę. Nie musi już przeprowadzać dodatkowej selekcji wyników, wybierać spośród kilku lub kilkuset mniej lub bardziej zbliżonych do szukanego tematu, jak to dzieje się przy typowym przeszukiwaniu internetu. Takie rozwiązanie jest o wiele wygodniejsze od dotychczasowego i znacznie mniej czasochłonne.

Użytkownikom strony PIG-PIB technologia Linked Data daje nowe możliwości wyszukiwania danych geologicznych poprzez popularne wyszukiwarki internetowe, a także dużo więcej w zakresie publikowania i łączenia danych pochodzących z różnych źródeł w sieci WWW.

Dotyczy to przede wszystkim przeszukiwania danych kartograficznych. Dziś każdy użytkownik sieci poszukujący konkretnej mapy geologicznej może skorzystać ze swojej ulubionej wyszukiwarki i wpisać hasło np. mapa hydrogeologiczna Warszawa i zostanie skierowany bezpośrednio do informacji o tym arkuszu mapy, a co więcej będzie mógł od razu zobaczyć też skan tej mapy udostępniony przez PIG (rys. 1).

 dane 1

Rys. 1. Wyszukiwanie konkretnego arkusza mapy przy zastosowaniu tzw. Semantic Web – systemu umożliwiającym lepsze rozpoznawanie przez maszyny przesyłanych danych

Już w maju będzie można przeglądać w ten sposób wszystkie z ponad 5 tys. map udostępnionych przez PIG-PIB. Poza tym dzięki połączeniu z innymi zasobami można sprawdzić jakie miejscowości występują na konkretnym arkuszu mapy (rys. 2).

 dane 2

dane 2a

Rys. 2. Informacje dostępne dla arkuszy map w nowej technologii

W serwisie www.pgi.gov.pl w nowym systemie wyszukiwania dostępne są metadane, znajdujące się w:

Poza tym metadane geologiczne zostały połączone z kilkoma bazami danych:

  • skanami map geologicznych (artykuł)
  • Metadanymi, opublikowanymi w tradycyjnej usłudze katalogowej PIG-PIB
  • Gazeterem GeoNames (baza danych geograficznych, zawierająca ponad 10 milionów nazw lokalizacji geograficznych w różnych językach, pochodzących z różnych źródeł)
  • PRNG (Państwowy Rejestr Nazw Geograficznych, baza przechowująca dane na temat miejscowości i obiektów fizjograficznych).

Idea Linked Data

Ranga informacji jest nie do przecenienia. Dawniej informacja była w cenie ze względu na ograniczone źródła, dziś w gąszczu danych wartość mają przede wszystkim dane ze sprawdzonych źródeł. Szczególnie cenna jest obecnie umiejętność filtrowania i wyszukiwania informacji. Społeczeństwo zyskało nowego sprzymierzeńca umożliwiającego dotarcie do danych – wyszukiwarki internetowe, ale niestety bezduszne narzędzie nie zawsze ułatwia zadanie.

Informacje w internecie wyszukiwane są przez wyspecjalizowane narzędzia zbierające informacje o strukturze, stronach i treściach znajdujących się w sieci – roboty internetowe. Niestety mają one pewne ograniczenia i mogą wyszukiwać tyko informacje tekstowe. Sytuacja wygląda podobnie jak ze zdjęciem przedstawiającym grupę ludzi, robot może zaindeksować taki obraz tylko wtedy, jeżeli zostanie on opisany odpowiednim tekstem np. przedstawiającym osoby znajdujące się na konkretnej fotografii. Nie ma możliwości rozpoznania postaci i kontekstu, bazuje tylko i wyłącznie na opisie. Jest to niewątpliwe ograniczenie obecnie istniejących narzędzi i powoduje, że tylko odpowiednio przygotowane dane są wyszukiwane przez roboty. Dla przezwyciężenia tych ograniczeń konieczna jest prezentacja informacji w sposób czytelny zarówno dla człowieka „human readable”, jak i dla maszyn „machine readable”. Na razie jednak tylko człowiek może rozpoznać postacie na obrazkach i zinterpretować ich treść.

Podobnie lub nawet bardziej skomplikowanie jawi się sytuacja w zakresie wyszukiwania informacji przestrzennej. Już kilka lat temu, aby rozwiązać problem dotarcia do informacji prezentowanej na mapach zaproponowano opisanie zbiorów danych przestrzennych metadanymi. Ich celem było podanie charakterystyki poszczególnych zbiorów i w efekcie ułatwienie wyszukiwania. Stworzono wyspecjalizowane katalogi metadanych pozwalające na ich przeszukiwanie zgodnie ze standardami OGC (http://www.opengeospatial.org/standards/cat). W PIG-PIB stworzono odpowiednie rozwiązanie pozwalające na gromadzenie oraz udostępnianie metadanych. Była to odpowiedź Instytutu na wymagania dyrektywy INSPIRE (Dz.U. L 108 z 25.4.2007, str. 1-14) oraz Ustawy o Infrastrukturze Informacji Przestrzennej (Dz.U. 2010 nr 76 poz. 489) w powyższym zakresie. Niestety przedstawiona aplikacja posiadała zasadniczy mankament – użytkownik musiał wiedzieć, że takie narzędzie istnieje. Wpisanie w goglach hasła „mapa hydrogeologiczna Szczecin” nie pozwalało na przekierowanie do metadanych tego arkusza mapy lub do jego skanu. W wyniku wyszukiwania przez google otrzymywano bardzo ogólnikowe informacje o Mapie Hydrogeologicznej Polski w skali 1:50 000 (rys. 3). To tak jakby szukając gminy Ustrzyki Górne otrzymać informacje o podziale administracyjnym Polski.

 dane 3

Rys. 3. Efekt „zwykłego” wyszukiwania mapy hydrogeologicznej arkusz Szczecin

Ten przykład poszukiwania zbiorów informacji przestrzennej bardzo dobrze obrazuje różnicę miedzy informacją czytelną dla człowieka i dla maszyny. Po prostu trzeba wiedzieć gdzie szukać, a maszyna tego nie wie.

Naukowcy pracują od lat nad rozwiązaniem tego problemu dla ułatwienia wyszukiwania informacji przestrzennej. Obiecującym rozwiązaniem jest idea Semantic Web zaprezentowana przez twórcę internetu Tima Berners-Lee:„Sieć semantyczna to nie tylko umieszczanie danych w sieci. Chodzi o tworzenie linków, aby osoba lub maszyna mogła przeglądać sieć danych. Jeśli masz powiązane dane, możesz znaleźć inne powiązane dane”.

Rozwinięciem sieci semantycznej jest właśnie idea Linked Data, która umożliwia łączenie różnych danych, przez co użytkownik otrzymuje znacznie bardziej bogate możliwości kojarzenia różnych informacji w różnym kontekście.

Zastosowanie mechanizmów i możliwości jakie daje Linked Data stało u podstaw podjęcia przez PIG-PIB współpracy z Wrocławskim Instytutem Zastosowań Informacji Przestrzennej i Sztucznej Inteligencji (WIZIPISI) dla stworzenia narzędzia umożliwiającego sprawne przeszukiwanie danych przestrzennych wytwarzanych w PIG-PIB zarówno przez człowieka jak i maszyny, a w efekcie osiągniecie podstawowego celu – umożliwienia użytkownikom wyszukiwania zbiorów danych geologicznych w wyszukiwarkach google, yahoo. Do tej pory nie było możliwe z wymaganą precyzją.

Koncepcja Linked Data jest zbiorem dobrych praktyk w zakresie publikowania i łączenia danych, pochodzących z różnych źródeł, w sieci WWW. Opiera się na czterech podstawowych regułach, zaproponowanych przez Tima Berners-Lee:

  1. Wykorzystanie unikalnych identyfikatorów tzw. URI jako nazw dla zasobów.
  2. Wykorzystanie protokołu HTTP do lokalizacji identyfikatorów URI
  3. Odniesienie do URI powinno zapewnić uzyskanie użytecznych informacji o zasobie z wykorzystaniem standardów (RDF, SPARQL)
  4. Uwzględnienie powiązań do innych zewnętrznych zasobów, publikowanych w podobny sposób, z wykorzystaniem identyfikatorów URI.

W Linked Data standardem wymiany danych jest model RDF, rekomendowany przez W3C . Zasoby danych w modelu RDF reprezentowane są w postaci trójek, w skład których wchodzi podmiot, predykat, przedmiot. Podmiot to opisywany zasób identyfikowany poprzez URI, przedmiot to inny powiązany zasób (także zewnętrzny) lub konkretna wartość atrybutu (cecha zasobu). Predykat definiuje charakter relacji między podmiotem i przedmiotem, pozwala na poprawną interpretację takiego związku.

Zasoby opisywane z wykorzystaniem modelu RDF mogą tworzyć bardzo rozbudowane struktury, dlatego istnieje potrzeba wprowadzenia kategoryzacji obiektów w postaci ontologicznej (schematu pojęć), co jest możliwe przy pomocy języków RDFS (RDF Schema) oraz OWL (Web Ontology Language). Pozwalają one na standaryzację opisu zasobów poprzez dostarczenie terminologii, wykorzystywanej do definiowania ich typów oraz zachodzących między nimi relacji. Główną ideą stosowania ontologii jest możliwość ponownego wykorzystania zastosowanej terminologii z danej dziedziny wiedzy, co zapewnia interoperacyjność zasobów, publikowanych w sieci WWW w modelu RDF.

Większość z zasobów publikowanych jako Linked Data oraz informacji o nich może być wyszukiwana za pomocą prostej przeglądarki internetowej, dzięki czemu każdy użytkownik sieci WWW ma do nich dostęp. Oznacza to również, że aplikacje sieciowe mogą także wyszukiwać i przetwarzać dane połączone za pomocą standardowych usług sieciowych.

Publikowanie metadanych w postaci dokumentów HTML z semantycznymi adnotacjami w języku RDFa jest najbardziej przyjaznym dla użytkownika sposobem, ponieważ oprócz postaci czytelnej dla maszyn dostarczona zostaje także prezentacja danych w postaci dokumentów HTML. RDFa dostarcza zestawu atrybutów HTML, dzięki którym możliwe jest połączenie czytelnego dla człowieka tekstu z informacją możliwą do odczytu przez maszyny bez powielania treści dokumentu w oddzielnych formatach.

Zastosowanie tej technologii wprowadza PIG-PIB na najwyższy poziom Linked Open Data (LOD). Stosując pionierskie i innowacyjne rozwiązania Instytut realizuje ideę powszechnego dostępu do danych publicznych.

dane 4

Rys. 4. Rozwiązanie wdrożone przez PIG osiąga jako pierwsze w Polsce 5 gwiazdek w skali Linked Data

Udostępnione właśnie przez Instytut usługi są elementem pionierskich działań w instytucjach państwowych udostępniających dane. Służą prostym rozwiązaniom ułatwiającym wyszukiwanie informacji studentom, naukowcom, przedsiębiorcom i każdemu zainteresowanemu informacją geologiczną dla uzyskania konkretnej wiedzy lub podjęcia decyzji inwestycyjnej.

 

Tekst: Tomasz Nałęcz