빅데이터 혁신공유대학 교과목 수강 후기 공모전 대상
"공간 빅데이터 분석 전문가를 향해서"
교과목명 : 빅데이터개론2, 공간분석론
수상자 : 서울시립대학교 성유진
<첫 시작, 빅데이터 혁신공유 대학 사업단 설명회>
많은 미디어에서 빅데이터에 대한 중요성을 강조하던 시기에 빅데이터의 가치를 처음 인식하기 시작했습니다. 기업들은 수많은 데이터들을 분석함으로써 고객들에게 보다 적절한 서비스를 제공하고 고객들은 이런 서비스를 이용 및 소비하게 됩니다. 이는 기업의 입장에서도 좋은 성과를 얻어낼 수 있으며 이러한 과정을 통해 얻은 데이터가 또 다른 좋은 데이터로서 축척되어 작용한다는 것이 흥미롭게 느껴졌습니다. 또한 저의 전공인 공간정보공학과 이를 결합한다면 엄청난 시너지를 일으킬 수 있다는 기대감이 생겼습니다. 공간정보 데이터는 주로 위치 정보와 속성정보를 결합한 형태로 제공되며 교통정보, 상가정보와 같이 용량이 큰 경우가 많기에 빅데이터 분석을 학습함으로써 공간 데이터 또한 효율적으로 분석할 수 있다고 생각했기 때문입니다.
그러나, 빅데이터 분석이란 학문은 생소하고 낯설었기에 어디서부터 어떻게 시작을 해야 할지 막막함이 느껴졌습니다. 이러한 시기에 빅데이터 혁신공유 대학 사업단의 설명회를 듣게 되었습니다. 설명회를 통해 학과와 연계된 공간 빅데이터 마이크로디그리를 알게 되었습니다. 이를 이수한다면 빅데이터 분석에 대한 기반을 다지고 공간 데이터를 직접 분석해 볼 수 있다는 기대감이 생겨 빅데이터개론2와 공간분석론을 수강했습니다.
<빅데이터 대한 기반 다지기, 공간 데이터 분석의 시작>
가장 먼저 빅데이터에 대한 기반을 다지기 위해 “빅데이터개론2”을 수강했습니다. 빅데이터개론2을 통해서 빅데이터가 무엇인지에 대한 이론부터 파이썬을 이용해 직접 데이터를 다루는 방법까지 배울 수 있었습니다. 데이터 프레임으로 데이터를 효율적으로 가공하는 방법, 분석 전 데이터의 생성, 삭제, 수정과 같은 전처리 방법 그리고 그룹 비교, 회귀분석, 분류 모델과 같은 데이터 분석 방법을 배우고 실습했습니다. 수업은 온라인 강의 플랫폼인 줌과 함께 이용희 교수님께서 직접 만들어주신 교재 홈페이지(https://uos-bigdata.github.io/bigdatabook/intro.html)를 기반으로 진행되었으며 친절하고 꼼꼼한 설명과 다양한 예제 덕분에 데이터 분석을 쉽게 이해할 수 있었습니다. 그리고 중요하거나 어려운 개념은 따로 녹화를 해서 올려주신 덕에 원활한 복습이 가능했습니다. 또한, 일방적인 수업 방식이 아니라 문제 해결형 콘텐츠 방법(PBL) 방법으로 진행되었으며 한 학기 총 8번의 과제를 내주셔서 저희가 직접 데이터를 다룰 수 있는 많은 기회를 제공해 주셨습니다. 과제 학습을 통해 교재 외의 다양한 문제들을 다뤄볼 수 있었고 개념들을 올바르게 학습했는지 스스로 점검해 볼 수 있었습니다. 빅데이터개론2는 구성이 체계적으로 갖춰져 있고 학생들이 수업에 직접 참여하는 방식으로 수업이 진행되기에 처음 빅데이터를 접하는 학생들도 어려움 없이 수업 내용을 학습할 수 있다고 생각합니다. 저 또한 이 과목을 통해 빅데이터에 대한 기초를 익히고 흥미를 얻었습니다. 그렇기에 빅데이터에 대해 입문하고자 하는 학생들에게 이 강의를 특히 추천하고 싶습니다.
빅데이터개론2의 수강으로 빅데이터에 대한 기반을 다지며 직접 공간 데이터를 가공해 보고 싶다는 열정으로 “공간분석론”을 함께 수강했습니다. 공간데이터는 무작위적인 분포를 보이는 일반 데이터들과 달리 비슷한 성질들끼리 군집되어 있으며 각 데이터들끼리 서로 영향을 줄 수 있다는 공간적 자기상관을 가지고 있습니다. 그렇기에 전통적인 일반 통계 분석법 외에도 공간 데이터를 위한 분석법이 존재하기도 합니다. 이러한 공간 데이터의 성질을 고려한 공간분석론 수업을 통해서 일반 데이터 분석 방법뿐만 아니라 공간데이터 분석법을 배울 수 있었습니다. 수업은 R을 통해 진행되었으며 R 프로그래밍의 기초와 일반 통계 및 데이터 시각화 방법을 배웠습니다. 그리고 Moran’s I와 같은 공간적 자기상관 분석, 지리 가중 회귀분석, 공간 보간법(interpolation)과 같은 공간 데이터 분석 방법을 학습함으로써 공간 데이터를 이용할 시에 일반 데이터 분석 방법과 공간 데이터 분석 방법 중 어느 것이 더 적합한 분석법인지를 확인해 볼 수 있었습니다. 이론과 병행하여 매 수업마다 실습을 진행했기에 개념으로만 익혔을 때 막막했던 부분을 쉽게 이해할 수 있었습니다. 실습 데이터로는 서울 열린 데이터 광장, 공공 데이터 포털의 데이터를 사용해 공공 데이터를 찾고 다운로드해 가공하는 방법을 익혔고 이 과정에서 openAPI를 사용하는 법을 배워 앞으로 보다 폭넓은 데이터 사용이 가능할 것이라고 기대됩니다. 공간분석론은 공간 데이터를 중심으로 데이터를 분석하는 방법을 배울 수 있기에 교통 분석, 상권 분석, 지가 분석과 같은 공간 데이터에 관심을 가지고 있는 학생과 공간정보공학과 학우들에게 추천하고 싶습니다.
<한 발자국 더 나아가기 - LSDS 연구실, 2022 서울특별시 디지털 공간정보 활용 공모전>
빅데이터개론2와 공간분석론을 수강함으로써 빅데이터의 전반에 대해 파악할 수 있게 되었고 공간 데이터의 특징과 이를 가공하기 위해 주의해야 할 점 및 공간 데이터 분석 방법을 익힐 수 있었습니다. 이론 및 실습으로 학습 내용을 저만의 것으로 만들었기에 이제는 주도적으로 데이터를 분석하고자 하는 욕심이 생겼습니다. 그래서 수업에서 그치는 것이 아닌 한 발자국 더 나아가 공간 데이터 분석 및 시각화 연구실에서 연구를 진행했고 2022 서울특별시 디지털 공간정보 활용 공모전에 출전해 최우수상이라는 좋은 성적을 거두었습니다.
- 공간 데이터 분석 및 시각화 연구실(LSDS: Lab for Spatial Data Science)
LSDS는 Lab for Spatial Data Science의 약자로 공간 데이터를 분석하고 시각화하는 연구실입니다. 저는 “서울특별시 가로수의 이산화탄소 흡수량 및 공간적 분포 연구”를 주제로 연구를 진행했습니다. 이를 통해 서울특별시 내에 존재하는 가로수의 흉고 지름, 수고 등을 이용하여 바이오매스양을 산정하고 이를 통해 이산화탄소 흡수량을 계산하여 수종별, 동별, 구별로 가로수가 어느 정도의 이산화탄소를 흡수하는지 확인했습니다. 그리고 가로수의 위치 데이터를 이용하여 동별 또는 구별로 가로수의 분포가 어떻게 되는지 파악하고 이가 인구수나 소득 등과 같은 변수와 어떠한 상관관계 또는 인과관계가 있는지 연구했습니다.
연구는 서울 열린 데이터 광장에서 제공하는 “서울시 가로수 위치정보” 데이터를 이용해 진행했습니다. 그러나 이 데이터들은 양식이 표준화되지 않았고 데이터 일부 존재하지 않거나 오타가 있는 등의 오류가 다수 존재했습니다. 데이터들을 확인하며 분석 시작 전에 전처리 단계에서 막막함을 느꼈습니다. 이때 빅데이터개론2에서 학습했던 데이터 전처리 과정을 떠올렸습니다. 그 덕에 수목명을 정리할 때 unique 함수를 사용하여 오류를 정리할 수 있었고 isnull 함수를 사용해 흉고 지름과 수고 중 NULL 값이 존재하는 값을 찾아 제거할 수 있었습니다. 이렇게 정리한 수목을 이용하여 약 94%의 비율을 차지하는 느티나무, 메타세콰이어, 버즘나무, 양버즘나무, 은행나무 그리고 회화나무를 대표 수종으로 선택했습니다. 또한 barplot으로 데이터를 시각화함으로써 각 수종별의 나무 수를 파악할 수 있었습니다. 이렇게 정리한 수목들을 이용해 이산화탄소 흡수량을 계산했고 histplot과 커널 밀도 추정을 통해 시각화함으로써 한 그루당 흡수하는 평균적인 이산화탄소량이 어느 정도인지와 분산 정도를 이해할 수 있었습니다.
빅데이터개론2에서 배운 파이썬을 활용하는 방법과 데이터 전처리 방법 덕분에 연구 데이터를 원하는 바에 맞게 적절히 처리할 수 있었습니다. 그 외에도 학습 내용이 기반이 되어 가로수의 동별 및 구별 분류, 회귀 분석과 같은 데이터 분석 및 시각화를 진행할 수 있었습니다.
- 2022 서울특별시 디지털 공간정보 활용 공모전(최우수상)
여러 데이터를 다뤄본 경험을 쌓으니 이제는 공간적 성질을 가진 데이터들을 분석해 보고 싶다는 생각을 했습니다. 그래서 공간 빅데이터 마이크로디그리 이수를 진행하고 있는 같은 학과 학우와 함께 팀을 꾸려 “2022 서울특별시 디지털 공간정보 활용 공모전”에 출전했습니다. 이 공모전은 서울시 공간 데이터 및 개방 데이터를 활용하여 도시, 환경, 안전 등 정책결정에 활용할 수 있는 평면 또는 입체 분석 지도를 제작하는 것을 목표로 하고 있었습니다. 저희 조는 미세먼지가 서울 시민들의 건강에 미치는 악영향을 줄이고자 미세먼지 분석을 시행하기로 결정했습니다. 미세먼지는 바람, 계절 등의 사항들에 민감하게 반응하고 높은 미세먼지 농도를 보이는 지역 주변 또한 높은 미세먼지 농도를 보이는 경향성을 가지고 있기에 공간 분석법을 이용하여 분석을 진행해야 한다고 생각했습니다. 연구 영역은 거주 인구 수가 가장 많은 송파구로 선정했습니다. 이러한 사항들을 종합하여 “국지적 분석을 통한 송파구 내 공사장과 사업장의 주요 미세먼지 배출원 관리”를 주제로 정하여 데이터 분석을 시행했습니다.
여러 논문과 자료들을 통해서 미세먼지 농도에 영향을 준다고 판단되는 변수로 공사장과의 거리, 사업장과의 거리, 도시가스 사용량, 상대습도, 녹지 그리고 교통량을 선정했습니다. 저희는 공사장과 및 사업장과의 거리가 멀어질수록 미세먼지 농도가 낮아질 것이며 도시가스 사용량이 많아질수록, 상대습도가 높아질수록, 교통량이 많아질수록 그리고 녹지가 적을수록 미세먼지 농도가 높아질 것이라고 가설을 세웠습니다. 여러 변수 중에 입지 제안 및 제한과 같은 정책적 제언을 하기 위해 공사장과 사업장을 중심으로 분석을 시행했습니다.
가장 먼저 공간 분석론을 통해 학습한 R을 이용해 선형 회귀 분석을 시행했습니다. 이는 공간적 성질을 고려하지 않고 송파구 내에서 전반적인 경향성만을 고려한 분석 방법입니다. 그 결과 대부분의 변수는 저희 가설과 일치했지만 공사장과 도시가스 사용량의 경우 가설과 반대되는 경향성을 보였습니다. 일반 선형 회귀 분석은 공간적 자기상관을 고려하지 않는 분석 방법이기에 미세먼지 분석을 하기에 적절하지 않다고 생각해 국지적 상관성을 탐색할 필요성을 느꼈습니다.
즉, 공간적 자기상관을 고려한 회귀 분석을 시행해야 한다고 생각했고 이는 공간 분석론에서 배운 지리 가중 회귀 분석을 통해 구현할 수 있다고 생각했습니다. 그래서 R을 이용해 각 그리드별로 변수가 미치는 영향성을 계산하는 지리 가중 회귀분석을 시행했습니다. 이를 일반 선형 회귀 분석 계수를 기준으로 비교하여 가설과 더 적합한 지역은 빨간색으로, 가설과 더 일치하지 않는 지역은 파란색으로 표현했습니다. 이를 통해 선형 회귀 분석에서는 볼 수 없었던 공간적 경향성을 볼 수 있었고 공사장과 사업장이 빨간색으로 표현되어 높은 상관관계를 보이는 지역을 중심으로 공사장 및 사업장의 추가 입지를 제한해야 한다고 판단했습니다. 최종적으로는 각 그리드별로 영향성이 가장 큰 변수를 대표 변수로 설정하여 하나의 지도로 종합하여 표현했습니다. 미세먼지의 특성상 자연적 변수인 상대습도가 전반적으로 가장 큰 영향을 미치나 공사장과 사업장이 가장 큰 영향을 미치는 지역을 보며 이들이 미세먼지 농도에 얼마나 악영향을 끼치는지 파악할 수 있었고 이의 관리가 필요하다고 생각했습니다.
이러한 일련의 분석 과정을 통해 공간적 특징을 띄는 데이터들을 일반 데이터들과 비교하여 어떻게 다르게 처리해야 하는지를 고민해 볼 수 있었고 그 분석 과정과 결과가 유의미한 차이를 보이는지를 확인할 수 있었습니다. 이러한 모든 분석의 흐름에서 공간 빅데이터 마이크로디그리의 이수 과정에서 배운 내용들이 실제로 많이 적용되었기에 빅데이터 분석 과정에 더욱 흥미를 느낄 수 있었습니다. 또한, 최우수상이라는 좋은 성적을 얻을 수 있어 마이크로 디그리 과목을 수강한 것에 큰 만족감을 느꼈습니다.
<공간 빅데이터 분석 전문가를 향해서>
공간 빅데이터 마이크로디그리 과목을 이수하며 빅데이터에 처음 입문하게 되었고 이의 매력과 흥미를 느끼게 되었습니다. 이러한 흥미로 스스로 데이터들을 가공하고 처리하여 분석함으로써 단순히 개념 학습에서 그치는 것을 넘어 실제 빅데이터 분석 전문가를 향해 나아가고 있음을 느꼈습니다. 현재는 전동 킥보드, 전기 자전거와 같은 전기를 동력으로 하는 1인용 교통수단인 퍼스널 모빌리티(PM)에 관심을 가지고 있습니다. 이 데이터 또한 이동 경로나 주변 상권들과 같은 요인들에 영향을 받는 공간적 데이터이기에 공간 빅데이터 마이크로디그리의 과목인 공간데이터마이닝과 데이터 시각화를 수강하여 보다 전문적인 분석을 시행하고 싶습니다. 빅데이터 마이크로디그리는 빅데이터 분석을 쉽고 재밌게 이해할 수 있도록 도와줬으며 저의 진로에 대한 방향성을 구체화해주었습니다. 현재의 열정으로 앞으로도 열심히 공부하고 분석하여 공간 빅데이터 전문가로 거듭나고 싶습니다.