공간정보/표준

INSPIRE 데이터 사양 개요

하늘이푸른오늘 2019. 3. 5. 14:25

INSPIRE 데이터 사양은 INSPIRE에 사용되는 다양한 주제의 공간데이터를 동일한 방법으로 정의하고 서술하기 위한 기준입니다. 데이터 사양에 따라 제작된 데이터는 어떠한 목적으로든 쉽게 교환할 수 있으며, 다른 데이터와도 쉽게 결합하여 사용할 수 있습니다. INSPIRE 의 가장 큰 목표는 "다양한 응용에서 끊김없이 사용할 수 있는 일관성 있는 데이터를 생산하는 것, 즉 데이터 상호 운영성"입니다. 이 목표를 달성하기 위한 가장 핵심이 데이터 사양이라고 할 수 있습니다.

참고로 INSPIRE 의 데이터 사양(data Specification)은 ISO 19131(데이터 제품 사양: Data product specification)에 기초하고 있습니다. 약간은 차이가 있을 수 있지만, 거의 대부분 비슷하다고 생각해도 됩니다. 다만, 제가 이제까지 본 데이터 제품 사양서는 대부분 꼭 필요한 내용만 담고 있어서 내용이 함축적이고 양이 많지 않음에 비해서, INSPIRE의 제품 사양은 해당 데이터에 관련된 내용을 모두 담고 있어, 다른 문서를 참조할 필요가 없습니다. 대신 양은 아주 방대합니다.

데이터 상호 운영성은 기술적 상호 운영성과 의미론적 상호 운영성으로 나누어 생각해 볼 수 있습니다. 기술적 상호 운영성이란, 다양한 시스템 구성 요소간에 투명하게 잘 돌아가는 것을 의미합니다. 중간에 사람(코디네이터)가 없이도 컴퓨터만으로 자동 처리되는 것을 의미합니다. 이를 위해 가강 기본적으로 필요한 것이 기계-중립적인 포맷입니다. DXF 나 Shape 포맷운 지원되는 모델이 너무 약해서 곤란합니다. 기계 중립적인 포맷은 XML의 일종인 GML이 널리 사용되고 있으며, 특히 ISO 19100 표준에서는 GML이 유일한 표준 포맷입니다. 대부분의 경우, 이러한 기술적 상호 운영상은 소프트웨어에서 지원되기 때문에 이런 부분은 거의 문제가 없다고 생각할 수 있습니다. 

기술적 상호 운영성보다 더 중요한 것이 의미론적 상호운영성입니다. 의미론적 상호운영성에서는 데이터의 내용을 동일한 방식으로 이해될 수 있어야 한다는 의미입니다. 이를 위해서는 먼저 사용하는 용어, 개념 등의 통일이 중요합니다. 예를 들어 동일한 도로라고 해도 바라보는 입장, 즉 교통의 관점인가 유지관리의 관점인가에 따라 다르게 볼 수 있다는 것입니다. 특히 유럽의 경우엔 수많은 나라와 기관들이 얽혀 있기 때문에 이러한 개념-개념이 가리키는 실제 대상- 이를 가리키는 용어의 삼박자가 일치하는 것이 매우 중요합니다.

의미론적 상호 운영성의 핵심은 구조적/스키마 일관성입니다. 예를 들어 도로를 정의한다고 했을 때 한쪽에서는 도로를 면형 데이터로 구성하고 다른 쪽에서는 노드-링크로 구성하였다면 이 두 데이터를 서로 교환해서 사용하는 것은 거의 불가능할 것입니다. 어느쪽에서는 객체로 구성한 것을 다른 쪽에서는 속성으로 정의한다든지, 어느 쪽에서는 집합 연관관계를 구성하였는데, 다른 쪽에서는 이런 연관관계를 구성하지 않았다면, 데이터를 투명하게 상호 교환하기는 거의 불가능해집니다. 그때마다 사람이 개입해서 정확하게 구성되었는지 확인해야 하니까요. 이러한 중간 확인 과정없이 모두 자동으로 처리하고자 하는 것이 결국 데이터 상호 운영성 그 자체라고 할 수 있습니다.

아래 그림은 제가 "공간정보 유통과 표준에 대하여" 라는 글에서 동일한 도로에 대해 각기 다른 스키마를 채택한 예를 든 그림입니다. 이 상태 그대로는 데이터의 호환은 거의 불가능합니다. 이처럼 각기 다른 스키마를 가지고 있는 현실에서 어떻게 일관성을 확보할 것인가하는 것이 의미론적 상호 운영성의 핵심이라고 볼 수 있습니다.

이러한 방식으로 데이터를 모두 투명하게 가져다 쓰는 가장 쉬운 방법은 모두 동일한 구조, 동일한 시스템을 사용하는 방법일 것입니다. 물론 한개의 부서라면 가능하고 실제로도 그렇게 운영됩니다. 하지만, 조금만 범위를 넓혀도, 예를 들어 옆 부서간에도 사용하는 시스템이 다를 수 있고, 데이터를 바라보는 관점과 구조가 다를 수 있습니다. 지자체 전체로 보았을 때, 국가 전체로 보았을 때는 그 경우의 수가 끝도 없겠죠.

이를 해소하는 방법은 "공통 상호 도메인 모델"을 채택하는 것입니다. 기존의 시스템은 각각 고유의 내부 모델과 데이터를 그대로 유지하되, 이 공통 도메인 모델과 교환할 수 있는 방법만 고려하면 됩니다. 

아래는 제가  예전에 올린 "공간정보 유통과 표준에 대하여"라는 글에 올렸던 그림(원 소스는 ISO 19109 응용스키마)입니다.  이 그림에서 공통 응용스키마라고  표현한 것이 바로 INSPIRE에서 말하는 "공통 상호 도메인 모델"입니다. 이 그림에서는 시스템이 두개만 표현되어 있는데, 이러한 방식을 적용하면 아무리 많은 시스템이 있어도 동일한 방식으로, 모두 똑같은 의미로 데이터의 상호 운영성이 확보 될 수 있습니다.

아래는 INSPIRE에서 구축중인 34가지 공통 데이터 레이어입니다.

INSPIRE 에서는 데이터의 상호 운영성을 위하여, 이들 각각에 대하여 데이터 사양을 구축했습니다.  아래는 그중 몇개만 정리한 것입니다.

Annex I - 

Annex II

Annex III

예를 들어 아래의 PDF 파일은 건물(III.2)에 관한 데이터 사양입니다. 

inspire_dataspecification_bu_v3.0.pdf

아래는 이 데이터 사양에 들어 있는 3 가지 응용스키마중 한가지인 "Buildings 2D" 응용스키마 입니다. 보시는 것처럼 스테레오타입이 <<featureType>> 인 클래스가 총 6가지 뿐이 없습니다. 

다른 응용스키마도 이와 비슷하기 때문에 공통 데이터 모델(응용스키마) 자체만 봤을 때는 그다지 복잡할 게 없어 보입니다. 그럼에도 이 데이터 사양은 311쪽이나 됩니다. 읽어보면 정말 내용도 방대합니다. 여기에는 배경 정보, 유스케이스, 상위 실행규칙에 관한 내용 등등... 모든 것이 포함되어 있기 때문입니다. 한마디로, 건물에 관한 공통 데이터 모델에 부합하는 데이터를 만들고자 할 경우, 이 문서만 보면(다른 문서를 참고하지 않아도. 심지어는 INSPIRE 실행 규칙(IR)을 읽어 볼 필요 없이) 모든 필요한 내용이 들어 있습니다. 

===

INSPIRE의 34개 레이어 별로. 위와 같은 데이터 사양이 각각 정의되어 있습니다. 그냥 모든 문서가 300쪽이라고 가정하면 모든 문서는 거의 10,000 쪽에 달합니다.

문제는 이렇게 방대한 문서를 어떻게 하면 모든 분야에서 일관성 있게 작성할까 하는 것입니다. 각 분야의 전문가별로 그냥 각자 데이터 사양을 만들면, 각기의 관점에 따라 형식도 다르고 내용도 문서가 만들어질 것입니다. 어떤 사람은 자세하게 작성하고 어떤 사람은 압축하여 기술할 수도 있습니다. 심지어는 동일한 내용에 대해 다르게 기술할 수도 있을 것입니다.

INSPIRE 에서는 그래서 각 Working group 별로 데이터 사양을 제작하기 전에, 먼저 데이터 사양을 위한 모델링 프레임워크를 만들었습니다. 아래 그림에서 빨간 사각형으로 쳐둔 부분이 바로 이 모델링 프레임워크입니다. 이를 작성한 다음 해에는 가장 핵심 주제인 annex I의 9 개 레이어에 대해 데이터 사양을 작성하고, 2012년 부터 나머지 25가지 레이어의 데이터 사양을 제작했음을 알 수 있습니다.

여기에서 모델링 프레임워크라고 부르는 것은 아래와 같은 기술지침(technical guideline)을 말합니다. 이중에서 2.5 ~2.7이 가장 중요한 문서입니다.

아래 그림은 범용개념 모델(generic conceptual model)이 어떤 것을 의미하는지를 나타낸 것입니다. 가운데에 빨간 네모 박스를 해둔 부분이 범용 개념 모델로, 이 모델을 기반으로 각각의 데이터 사양(맨위)이 만들어 졌음을 볼 수 있습니다. 그리고 범용 개념 모델은 기존의 ISO/OGC 등의 기반 표준을 기준으로 만들어 졌다는 것을 볼 수 있습니다. 

즉, INSPIRE에서는 국제 표준을 그대로 채택한 것이 아니라, 그중에서 자신들이 사용할 것만 뽑고, 정리를 해서 "범용 개념 모델(Generic Conceptual Model)"이라는 것을 만들고, 이것을 기초해서 각각의 레이어별로 데이터 사양을 제작했으며, 이 데이터 사양을 기준으로 데이터를 제작하고 교환한다는 것입니다. 

일본의 경우에는 ISO 19100 시리즈 표준에서 자신들이 필요한 것들만 뽑아서 일본지리정보표준 프로파일(JPGIS : Japan Profile for Geographic Information Standards)를 만들고, 이를 모든 데이터 제작, 유통의 기준으로 삼고 있습니다. 당연히 일본에서도 JPGIS를 기준으로 데이터 제품 사양서를 만들고, 제품 사양서를 기준으로 데이터를 제작 유통하도록 규정되어 있습니다. INSPIRE 의 범용 개념 모델과 JPGIS가 일대일로 대응할 수는 없겠지만, 개념적으로는 동등한 수준이라고 볼 수 있을 것 같습니다.

INSPIRE 범용 개념 모델(GCM:Generic Conceptual Model)

GCM은 ISO 19100 시리즈를 기반으로 한 데이터 모델링 원칙입니다. ISO 19109에는 일반 지형지물 모델(GFM: General Feature Model)이 정의되어 있습니다. 지형지물(클래스)와 속성, 연관관계 등이 서로 어떻게 연결되는지 등을 정의한 메타 모델입니다. 이름상으로는 GCM과 GFM이 유사한 부분이 있을 것 같지만, GCM은 다음과 같은 내용을 담고 있어서, GFM 과는 완전히 다릅니다. (GFM도 포괄하고 있습니다.)

- 공통 용어 및 기반
- 데이터 사양 생산을 위한 요구사항과 권고사항
- 응용스키마에서 사용되는 기본 유형
- ID, 범용 네트워크 모델(GNM: Generic Network Model), 지명사전(gazetteer)를 포함한 공통 개념

아래는 GCM에 포함된 내용들입니다. 한마디로 GCM은 모든 데이터 사양을 위한 최적의 모델링 원칙으로서, 이를 따르면 일관성있는 데이터 사양을 만들 수 있습니다.

(A) INSPIRE 원칙(INSPIRE principles)
    - 공간데이터는 가장 적절한 수준에 보관하고 접근 가능하게 하고, 관리해야 한다.
    - 여러 관련자의 다양한 자료로 부터 공간데이터를 일관성있게 결합하고, 여러 사용자및 응용에서 공유할 수 있어야 한다.
   - 어떤 한 수준의 공공기관이 수집한 공간 데이터는, 다른 공공기간 관에도 공유할 수 있어야 한다.

(B) 용어(Termiology)
   - 용어를 참조할 때, 용어집을 통해 일관성 있는 언어를 사용해야 한다.
   - ESDI에서는 공통 용어를 만들어야 한다.

(C) 참조 모델(reference model)
   - 기술적 파트(정보 모델링 등)에 대한 프레임워크

(D) 응용스키마와 지형지물 목록에 대한 규칙(Rules for application schemas and feature catalugues)
   - 지형지물 목록에서는 공간 객체의 유형과 특성을 정의한다.
   - 공간 데이터셋의 완전한 내용 및 구조는 공식 개념스키마언어(UML)로 표현한 응용스키마로 정의

(E) 공간적 측면 및 시간적 측면(Spatial and temporal aspects)
   - 공간 객체의 공간/시간적 특성을 기술하는 개념 스키마
     - 공간 기하 및 위상/시간 기하 및 위상/커버리지 함수

(F) 다중언어 및 문화적 적응(Multi-lingual text and cultural adaptability)
   - 지형지물 목록, 지형지물 개념 사잔, 정의 및 지리적 명칭, 속성/연관 및 열거형/코드리스트 등은 다중언어로 기술한다.
   - 응용스키마는 다중 언어를 사용하지 않는다.

(G) 좌표 참조(coordiante referencing)
    - 공간/시간 참조체계, 측정 단위, 좌표 변환 매개변수, 유럽 지리 그리드(European geographical grids)

(H) 객체 참조 모델링(Object Reference Modelling)
   - 정보를 어떻게 기존의 공간 객체에 참조할 것인가. (좌표로 참조하는 게 아니라, 기본 지형지물 공간 객체를 통해 참조함)

(I) 데이터 변환 모델(Data translation Model)
   - 국가/지역 응용스키마를 INSPIRE 응용 스키마로 변환 및 그 반대 변환. 변환에는 데이터 변환과 질의 변환이 있음

(J) 묘화 모델(Portrayal Model)
   - 데이터 사양에 부합하는 데이터에 대한 묘화 규칙 모델. 표준화된 묘화 목록의 사용

(K) 식별자 관리(Identification Management)
   - Annex I/II에 있는 공간 객체는 객체 식별자를 가져야 함. 모호함이 없이 객체를 식별할 수 있는 유일 객체 식별자의 역할 및 성격을 정의함
   - 필요시 Annex III의 레이더도 유일 객체 식별자를 지원할 수 있음

(L) 등록물 및 등록소(Registers and registries)
   - 좌표계, 측정 단위, 코드 목록, 지형지물 개념 사전, 식별자 네임스페이스, 지형지물 목록, 응용 스키마 등을 등록할 수 있는 등록소(register) 필요
   - 등록소는 등록물 서비스(registry service)를 통해 접근할 수 있음
   - 데이터에 대한 메타 데이터는 별도의 카탈로그 서비스(catalogue service)를 통해 제공됨

(M) 메타데이터(Metadata)
   - 발견/평가/사용을 위한 메타데이터의 정의

(N) 유지관리(maintenance)
   - 변화된 것만 갱신함, 객체의 버저닝 지원, 공간객체 라이프 사이클 규칙

(O) 품질(Quality)
   - 각각의 공간 데이터 셋의 품질 수준 공개에 필요한 조언
   - 각각의 공간 데이터셋에 대한 수용가능한 품질 수준, 각각의 데이터셋에서 이 수준을 만족하는 방법 등의 모범 사례를 제공함

(P) 데이터 전달(Data Transfer)
   - 공간객체의 인코딩은 모델에 따라야 함. 즉 UML 응용스키마로 완전히 결정됨
   - 웹 서비스를 구현하는 네트웍 서비스를 지원하기 위해 공간객체는 GML로 인코딩되어야 함
   - 커버리지 데이터는 기존의 인코딩을 사용해야 함(예 정사영상)

(Q)  데이터간의 일관성(Consistency between data)
   - 국경, 주제, 분야, 해상도를 뛰어넘어 일관성이 있어야 함

(R) 다중 표현(Multiple representation)
   - 시간과 공간을 통한 합성,
   - 해상도간의 합성

(S) 데이터 획득(Data Capturing)
   - 주어진 공간 객체에 대한 데이터 사양 고유의 입력 기준)예, 호수는 2ha를 넘을 것, 도로는 European Road Network의 일부일 것 등

(T) 부합성(Conformance)
   - 어떤 데이터가 데이터 사양에 부합하는지를 시험하는 방법. 각각의 데이터 사양에 지정된 부합성 테스트를 적용해야 함

INSPIRE 데이터 사양 개발 방법

INSPIRE 기술 지침 2.6에서는 데이터 사양 개발 방법론(Methodology for the development fo data specification) 을 다루고 있습니다. 여기에서는 데이터 사양 문서에는 이런 이런 내용을 넣어야 한다는 것보다 훨씬 포괄적인 내용, 즉, 어떻게 사용자의 요구를 조사, 분석하여 데이터 사양에 담아야 할지를 담고 있습니다.

간단히 정리하자면, 먼저 기존의 정책자료, 보고서 설문조사 등을 통해 유스케이스를 개발하고, 현재 존재하는 데이터 등의 상황을 분석한뒤 이를 비교하여 차이를 분석하여 데이터 사양을 개발한 뒤 비용 편익 분석 등을 통해 반복한다는 내용입니다. 일반 시스템 개발에서 사용하는 방법론과 그다지 다른 것 같지는 않네요.

어쨌든... 이런 과정을 통해 작성되는 데이터 모델은, 너무 간단해서도 사용자 요구사항을 만족시킬 수 없고, 너무 복잡해지면 구현하기 힘들고 비용이 과다해 지므로, 적절히 균형을 유지해야 한다는 점을 강조하고 있습니다.

===

이상입니다. 이 글은 INSPIRE 데이터 사양에 관한 교육자료를 보고 마음대로 편집한 것입니다.