몇 년 전, 한 연구 프로젝트에서 미국 보건 데이터를 분석해야 할 일이 있었다. 구글에 검색하자 수많은 사이트가 쏟아졌지만, 막상 클릭해보면 유료이거나, 회원가입이 번거롭거나, 표면적인 요약 통계만 제공하는 경우가 많았다. 특히 영문 사이트에 익숙하지 않은 사용자 입장에서는 수많은 링크 안에서 진짜 원본 데이터 가 무엇인지 찾는 것부터가 막막했다. 하지만 이 경험이 계기가 되어 나는 이후 미국과 유럽의 공공 데이터 포털을 본격적으로 탐색하게 되었고, 지금은 논문 작성, 디자인, 마케팅 분석 등 다양한 분야에서 해외 무료 공공 데이터를 적극 활용하고 있다. 이번 글에서는 단순히 사이트를 소개하는 것 이 아니라, 실제로 어떤 데이터를 어떻게 찾고, 어떤 맥락에서 쓸 수 있는지를 경험 중심으로 설명하고자 한다. 특히 많은 사람들이 놓치는 관점 과 잘못된 접근 방식 도 함께 짚어보며, 데이터를 수동적으로 찾는 데서 끝나지 않고 능동적으로 활용하는 방향으로 안내하겠다.
미국의 data.gov 데이터 바다 속에서 길을 찾는 법
처음 접한 해외 공공 데이터 사이트는 미국의 대표 포털인 data.gov 였다. 이곳은 미 연방정부, 주정부, 지방정부 등에서 수집한 통계, 보고서, API, 오픈소스를 통합 제공하는 대형 플랫폼이다. 단순히 규모가 클 뿐만 아니라, 주제별 필터링 시스템이 잘 되어 있어서 기초적인 활용에는 어렵지 않다. 하지만 문제는 데이터가 너무 많다 는 것이었다. 실제로 "COVID-19", "housing", "education" 등의 키워드로 검색하면 수천 개의 데이터셋이 뜨고, 어떤 것이 신뢰할 수 있는 최신 자료인지 분별하기 어렵다.
내가 적용한 전략은 메타데이터 필터링이다. 데이터셋을 클릭하면 오른쪽 상단에 Last updated , Publisher , Format 등의 정보가 나오는데, 이 중 가장 중요했던 건 발행기관(Publisher)이다. 예를 들어, 질병통제예방센터(CDC)나 국립보건원(NIH)에서 발행한 경우라면 신뢰도가 높다. 또한 JSON, CSV, XLS 등의 포맷 중 가공 가능한 형식을 선택하는 것도 중요하다. 나는 엑셀을 주로 활용하기 때문에 CSV로 제공되는 데이터를 우선순위로 뒀다.
한 가지 꿀팁은 검색창에 API 나 dashboard 같은 단어를 함께 넣는 것이다. 이렇게 하면 단순 파일이 아닌, 실시간 데이터 포털이나 시각화 자료로 이어지는 경우가 많아 작업의 효율이 높아진다.
유럽연합의 EU Open Data Portal 언어 장벽 넘기
유럽연합에서 제공하는 EU Open Data Portal 역시 엄청난 양의 데이터를 제공한다. 여기에는 경제, 환경, 에너지, 교통, 농업, 보건 등 거의 모든 공공 정책 영역의 통계와 원본 문서가 담겨 있다. 하지만 대부분의 문서가 영어가 아닌 프랑스어, 독일어, 스페인어 등으로 제공되기 때문에 언어 장벽이 문제였다.
이때 내가 활용한 방법은 크롬 브라우저의 자동 번역 기능과 더불어 데이터 필터링 후 다운로드 방식이다. 특히 “Eurostat”이 제공하는 통계 자료는 매우 정밀하고 정기적으로 업데이트된다. 내가 기후 변화 관련 데이터를 찾았을 때는 Greenhouse gas emissions by sector 라는 주제로 국가별, 연도별 CO2 배출량 자료를 CSV로 받을 수 있었다.
재미있는 건 같은 기후 데이터를 검색하더라도, 미국에서는 주 단위의 실시간 수치를 강조하는 반면, 유럽은 정책 효과성에 대한 시계열 데이터를 강조한다는 점이다. 이건 분석할 때 방향이 달라진다는 뜻이다. 즉, 같은 주제라도 미국과 유럽 데이터를 비교하면 보다 입체적인 시각이 가능하다. 논문이나 리서치 자료를 쓸 때 단일 출처에 의존하지 않는 분석 을 하려면 반드시 양쪽 데이터를 비교해보는 걸 추천한다.
통계 기반 이미지와 시각 자료 찾기 RawPixel, UNdata, NASA
논문이나 콘텐츠를 만들다 보면 단순 수치 데이터 외에도 시각적 자료가 필요할 때가 많다. 이때 내가 애용하는 곳이 바로 RawPixel, UNdata, NASA Open Data
RawPixel은 상업적으로도 사용 가능한 인포그래픽, 다이어그램, 지도 등을 무료로 제공하는 사이트다. 특히 'public domain' 필터를 적용하면 사용 제약이 없고, 학술 목적에 매우 유용하다. 이 사이트는 일반적인 이미지보다 데이터 시각화 에 특화된 자료가 많아 논문 도입부나 인포그래픽 구성 시 도움이 된다.
UNdata는 유엔 산하 다양한 기관에서 수집한 글로벌 통계를 제공하는데, 여기에는 저개발국의 식량, 보건, 교육 관련 정보가 매우 풍부하다. 무엇보다도 대륙별 데이터 구조가 체계적이라서, 지역 비교에 유리하다.
NASA는 오픈 소스로 우주, 지구 관측, 위성 영상 등을 API 형태로도 제공한다. 내가 데이터 시각화 수업에서 위성 영상 데이터를 활용해 기후 변화 전후를 비교한 사례를 발표했을 때, 교수님께서 실제 공공 데이터로 구현한 사례 라고 극찬하셨던 경험이 있다. 이런 데이터를 찾을 수 있다는 것 자체가 차별점이 된다.
데이터를 찾는 게 끝이 아니다 활용 허용범위 확인하기
공공 데이터라고 해서 무조건 자유롭게 쓸 수 있는 건 아니다. 나는 처음에 모든 공공 데이터를 블로그나 프로젝트에 자유롭게 쓸 수 있을 거라 생각했지만, 실제로는 저작권, 라이선스, 인용 방식에 대한 기준이 사이트마다 달랐다.
특히 유럽 사이트는 'Creative Commons BY', 'CC0', 'Attribution Only' 등의 라벨이 붙어있는데, 이를 정확히 읽어야 한다. 내가 예전에 만든 슬라이드에서 유럽 환경청(European Environment Agency)의 그래프를 썼다가 출처 미기재 로 피드백을 받은 적이 있다. 이때부터는 데이터를 다운받을 때 꼭 License 항목을 먼저 확인하고, 사용할 때는 꼭 출처를 하단에 삽입한다.
또한 데이터에 따라 비상업적 용도에만 허용 이라는 조건이 붙기도 하므로, 유튜브나 뉴스레터에 사용할 경우에는 재확인이 필요하다. 미국의 경우 대부분 공공 도메인으로 분류되지만, 대학이나 민간 연구소에서 제공하는 자료는 조건이 다를 수 있다.
잘 알려지지 않은 데이터 포털 niche한 정보의 보물창고
많은 사람들이 data.gov나 EU 포털까지만 알고 있지만, 실제로 더 구체적인 정보를 제공하는 전문 포털들이 많다. 예를 들어 World Bank Open Data는 개발도상국 중심의 교육, 금융, 인구 데이터를 아주 상세하게 제공하며, OECD Stats는 선진국 비교 분석에 최적화되어 있다.
또한Humanitarian Data Exchange (HDX)는 분쟁, 재난, 난민과 같은 인도적 위기와 관련된 데이터를 실시간으로 제공하는데, NGO나 국제개발 관련 논문을 쓰는 사람들에게 매우 유용하다.
내가 직접 HDX에서 시리아 난민 유입 데이터를 받아 Python으로 시각화해본 적이 있다. 당시 사용한 자료는 UNHCR에서 실시간으로 업데이트한 데이터를 기반으로 했고, 그 결과로 만든 대시보드는 포트폴리오로도 활용할 수 있었다. 즉, 단순히 리포트를 위해 데이터를 찾는 게 아니라, 자기만의 프로젝트로 확장 가능성이 있는 게 진짜 가치다.
결론: 공공 데이터는 열려 있지만, 찾는 기술은 훈련이 필요하다
해외 무료 공공 데이터는 말 그대로 열려 있지만 그냥 보기만 해서는 얻기 어렵다. 필요한 데이터를 빠르게 찾고, 신뢰도 높은 출처를 판단하고, 활용 조건을 이해하며, 궁극적으로는 나만의 분석으로 재해석해야 진짜 활용이 된다. 이 글에서 소개한 사이트들 중 하나만 파고들어도 당신의 글쓰기, 연구, 콘텐츠 작업의 질은 분명 달라질 것이다. 그리고 그 데이터는 당신의 사고방식을 바꾸는 도구가 될 수 있다. 열려 있는 데이터를 찾아가는 능력은 앞으로 모든 분야에서 점점 더 중요한 역량이 될 것이다.