<인공지능에게 빅데이터를 묻다>
“빅데이터란 무엇입니까?”
작가: 그림_Midjourney 글 _smodin
아래의 글과 그림은 AI 작가가 ‘빅데이터란 무엇입니까?‘에 대한 키워드 입력으로 AI 스스로 작성한 글과 그림입니다. 몇 단어로 글을 작성하고 몇 분 만에 표절이 없는 기사와 에세이를 쉽게 작성합니다. 문법을 교정하고 문장의 구조를 개선도 스스로 하지요.
다만, 아직 AI 작가의 글은 오류가 발생하기 쉽고 동의어를 반복하거나 주제에서 벗어나기도 합니다.
글쓰기는 창작자에게 가장 노동 집약적이고 시간을 투자하는 고된 작업입니다. AI 작가는 이부분을 어느정도 해소시킬 것이라고 예측됩니다. 그러나 한편으로는 작가와 예술가들을 무용지물로 만들수도 있지 않을까 하는 우려도 있습니다. 앞으로 우리는 이러한 단점과 장점이 공존하는 인공지능과 함께 살아 갈수 있을까요?
작가:Midjourney_https://www.midjourney.com/home/
“빅데이터란 무엇입니까?‘’
요즘 뉴스를 읽다 보면 ’빅데이터’라는 단어를 쉽게 접할 수 있을 정도로 가장 Hot 하고 친숙한 존재입니다.
그러나 많은 사람들에게 이러한 정의는 충분하지 않습니다. Quora 또는 Google에 "빅데이터란 무엇인가"라는 문구를 입력하면 호기심 많은 사람들이 "데이터가 '빅'이 되기 위해 얼마나 커야 하나요?" 또는 "'빅데이터'가 일반적인 도구로 처리할 수 없는 데이터라면 어떤 도구가 '일반적인' 도구로 간주됩니까?"와 같은 다양한 질문을 찾아볼 수 있습니다. 물론 빅데이터를 올바르게 정의했다고 치더라도, 방대한 양의 데이터 세트를 축적하는 것이 오늘날 기업에 적합한 목표가 될 수 있을까요?
실제로 기업과 정부를 중심으로 빅데이터가 다방면으로 활용되고 있지만 정작 데이터를 제공하고 있는 소비자들은 빅데이터가 정확히 어떤 것인지 모르는 경우가 많습니다.
사실상 주변을 살펴보면 빅데이터를 이용하여 제공하는 정보들이 많음에도 불구하고 빅데이터의 힘을 많이 실감하지 못하는 분들도 있습니다. 그래서 오늘은 사례를 통해 빅데이터가 어떻게 활용되고 있는지 알아보고자 합니다.
“빅데이터”라는 용어는 20여 년 전에 컴퓨팅 기계 협회(ACM) 라이브러리에서 처음 언급되었습니다. Michael Cox와 David Ellsworth는 "시각화는 컴퓨터 시스템에 흥미로운 과제를 제공합니다.
데이터 세트는 일반적으로 크기가 매우 크기 때문에, 주 메모리, 로컬 디스크 및 원격 디스크의 용량에도 부담을 줍니다.
우리는 이것을 빅데이터 문제라고 부릅니다. 데이터 세트가 주 메모리(코어)에 맞지 않거나 로컬 디스크에도 맞지 않을 때, 가장 일반적인 솔루션은 더 많은 리소스를 확보하는 것입니다"라고 설명했습니다.
다시 말해, 당시 빅데이터 정의는 본질적으로 "가용 하드웨어에서 더 이상 운영할 수 없는 데이터"였습니다.
빅데이터 관리를 위해서는 방대한 양의 서로 다른 복잡한 정보를 처리하고 유의미하게 분석할 능력을 갖춘 시스템이 활용됩니다.
이러한 측면에서 빅데이터와 AI는 다소 상호 협력적인 관계에 있습니다.
빅데이터를 정리, 분석하기 위한 AI가 없다면 빅데이터의 실용성이 감소하게 될 것입니다. 그리고 AI는 빅데이터에 포함된 데이터 세트의 범위에 따라 실행 가능한 강력한 분석 기능을 제공합니다.
포레스터리서치(Forrester Research) 애널리스트 브랜든 퍼셀(Brandon Purcell)의 말대로 “데이터는 AI의 생명줄입니다. AI 시스템이 제 기능을 하려면 데이터로 학습해야 합니다.”
빅데이터 기술을 통해 무엇을 할 수 있습니까?
다양성은 회사가 빅데이터를 획득할 수 있는 소스의 범위와 빅데이터가 표시될 수 있는 대량 형식을 나타냅니다.
여기에는 스마트폰, 사내 장치, 소셜 미디어 채팅 프로그램, 주식 시세 데이터 및 금융 거래 데이터와 같은 장소가 포함됩니다.
소스는 특히 데이터를 수집하는 기업의 성격과 관련이 있어야 합니다.
예를 들어, 소매 회사는 최근에 출시된 의류 라인에 대해 소셜 미디어에서 사용자가 말하는 내용에 주의를 기울여야 합니다. 제조 회사의 경우에는 소셜 미디어를 팔로우하는 데 내재된 가치가 적을 것입니다.
빅데이터에 대한 투자 혜택을 받는 데 가장 큰 장애물 중 하나는 기술 부족입니다. 빅데이터 기술, 고려 사항 및 결정이 IT 거버넌스 프로그램에 추가되도록 하여 이러한 위험을 완화할 수 있습니다.
접근 방식을 표준화하면 비용을 관리하고 리소스를 활용할 수 있습니다.
빅데이터 솔루션 및 전략을 구현 중인 조직은 기술 요구사항을 조기에 자주 평가하고 잠재적인 기술 격차를 사전에 식별해야 합니다.
기존 리소스를 교육/교차 교육하고, 새로운 인력을 고용하고, 컨설팅 회사를 활용하여 이러한 문제를 해결할 수 있습니다.
대표적인 예로 ‘구글 애드’를 들 수 있습니다.
구글은 웹 사이트를 방문한 사람들이 어떤 사이트를 방문했는지를 분석해 방문한 사람의 성향을 데이터를 통해 파악합니다. 이런 데이터를 토대로 인터넷 광고를 게시할 때 모든 사용자가 아닌 광고주가 원하는 타겟에게 광고가 노출되도록 설정하여 광고를 효율적으로 게시하고 있습니다. 구글은 보다 더 많은 광고주를 한정된 웹페이지 안에 수용할 수 있어 좋고, 광고주 또한 원하는 타겟층에 정확히 전달하면서 비용 절감은 물론, 광고효율도 높일 수 있어 양사 모두에게 이익이 되고 있습니다.
뿐만 아니라 사용자에게도 필요 없는 광고가 아니라 현재 나에게 유익한 정보를 골라서 보여주기 때문에 빠르고 쉽게 좋은 조건으로 누릴 수 있게 되었습니다.
데이터는 세상을 더 안전한 곳으로 만들고 그 과정에서 인간의 행동에 대한 중요한 교훈을 줄 수 있습니다. 사회가 컴퓨터와 인터넷에 점점 더 의존하게 됨에 따라 이것이 우리 삶에 어떤 영향을 미치는지 이해하여 필요할 때 데이터들을 현명하게 적용하는 것이 중요합니다. 데이터들을 적용하는 데 관련된 기술은 당신이 어떤 분야에서 일하든 상관없이 발견한 것을 잘 활용하는 한 가치가 있습니다!
“인공지능이 쓴 소설“의 이야기를 다루는 서울대학교 2022-2학기 개설과목 디지털 스토리텔링과 게임 _홍진호교수님 수업에서 더 많은 AI의 창작 사례를 만나보시기 바랍니다.
https://youtu.be/Y5_8j_tLam4