잡동사니

대화를 데이터로 보는 새로운 시각 (feat. LLM) 본문

IT/AI

대화를 데이터로 보는 새로운 시각 (feat. LLM)

yeTi 2024. 5. 30. 22:48

안녕하세요. yeTi입니다.
오늘은 LLM 이 삶의 방식을 바꿀 수 있다는 확신이 든 순간을 공유하고자 합니다.

대화는 인간 상호작용의 핵심입니다. 우리는 일상적으로 많은 대화를 나누지만, 이를 데이터의 관점에서 바라본다면 새로운 통찰을 얻을 수 있습니다. 이제 대화를 데이터 송수신의 과정으로 보고, 이를 통해 대화의 본질을 이해하는 방법을 알아보겠습니다.

데이터란 언어 그 자체이다

2024년 5월 5일 데이터와 언어를 엮은 발상을 페이스북에 업로드했습니다. 데이터란 언어 그 자체이다.

이하 해당 컨텐츠의 내용을 인용합니다.


데이터라는 것이 뭘까를 고민하다가 도달한 결론이 있습니다.

언어를 시각화한 것이다.

그 동안 개발자 입장에서 데이터는 스키마를 가진 하드디스크에 기록된 무엇인가 였습니다.

예를 들어 텍스트 파일, 엑셀 파일, 데이터베이스 같은 것들입니다.

그런데 생각해보니(속말로 묻따풀) 스카마가 필요한 이유는 데이터라고 지칭하는 것에 의미를 부여하여 인식하기 위해서이고

저장된 데이터라고 칭하는 것들은 관계의 얽힘들을 언어 혹은 그림과 같은 방식으로 시각화(기록)한 것일 뿐이라는 생각이 들었습니다.


이러한 맥락에서 데이터는 언어를 다룰 수 있는 각 주체에 이미 존재하고 이들간 녀김에 니르기위해 얽히는 과정에서 인식하는 활동 자체가 데이터를 주고 받는 것 이라는 생각이 들었습니다.

이를 GPT 모델에 대입하면 언어로 녀김에 니르기위한 대화 자체가 데이터를 축적하는 과정입니다.

단지 ERD로 시각화를 안하고 데이터베이스라는 것을 사용하지 않았을 뿐입니다.

그리고 이렇게 녀김에 니르기위한 과정을 명명한 것이 프롬프트 엔지니어링이 아닌가 싶습니다.

그리고 ChatGPT와 대화를 해봅니다.

대화는 데이터 송수신의 과정

대화는 단순한 말의 교환을 넘어, 정보를 주고받는 복잡한 데이터 처리 과정입니다. 이를 이해하기 위해 대화의 각 단계를 데이터 처리의 관점에서 분석해보겠습니다.

입력 데이터 수집:
대화는 말하는 사람의 기억, 경험, 지식 등에서 출발합니다. 이 데이터는 외부에서 수집된 정보와 결합하여 대화의 기초가 됩니다.

데이터 전송 및 저장:
말하는 사람은 자신의 생각을 말로 표현하여 상대방에게 전달합니다. 이는 데이터를 송신하는 과정으로 볼 수 있습니다. 수신된 데이터는 상대방의 뇌에 저장되고 해석됩니다.

데이터 처리 및 변환:
상대방은 수신된 말을 이해하고, 자신의 경험과 지식을 통해 이를 해석합니다. 이는 데이터를 처리하고 변환하는 과정과 유사합니다.

정보의 해석:
해석된 데이터는 새로운 정보를 생성합니다. 상대방은 이 정보를 바탕으로 응답을 준비합니다.

피드백 및 출력:
상대방은 이해한 내용을 바탕으로 응답을 생성하여 다시 말합니다. 이는 가공된 데이터를 출력하는 과정입니다.

반복 및 학습:
대화는 반복되는 과정을 통해 상호 학습이 이루어집니다. 사람들은 대화를 통해 더 나은 의사소통 방법을 배우고, 이해의 폭을 넓혀갑니다.

대화와 데이터 처리의 유사성

대화를 데이터 처리의 관점에서 보면, 인간의 대화와 대형 언어 모델(LLM)의 작동 방식 사이에는 많은 유사점이 있습니다.

입력 데이터 수집:
LLM은 사용자가 입력한 텍스트 데이터를 수집합니다. 이는 대화에서 사람이 정보를 수집하는 과정과 유사합니다.

데이터 전처리:
LLM은 입력된 텍스트를 토큰화하고 전처리하여 의미를 파악합니다. 이는 사람이 상대방의 말을 해석하는 과정과 비슷합니다.

데이터 처리 및 변환:
LLM은 수집된 데이터를 바탕으로 복잡한 연산을 수행하여 의미를 이해하고, 다음에 올 가능성이 높은 단어를 예측합니다. 이는 사람이 말을 이해하고 응답을 준비하는 과정과 유사합니다.

정보 생성 및 출력:
LLM은 예측된 결과를 바탕으로 응답 텍스트를 생성합니다. 이는 사람이 응답을 말로 표현하는 과정과 비슷합니다.

대화를 데이터로 보는 새로운 시각의 가치

대화를 데이터로 보는 새로운 시각은 여러 가지 실질적인 가치를 제공합니다.

  • 의사소통의 효율성 향상: 대화를 데이터 처리 과정으로 분석함으로써, 의사소통의 효율성을 높일 수 있는 방법을 찾을 수 있습니다.
  • 인공지능 개발에 도움: 인간의 대화를 이해하고 이를 모델링하는 것은 더 나은 인공지능 대화 모델을 개발하는 데 기여할 수 있습니다.
  • 학습과 교육: 대화의 데이터적 관점을 통해 효과적인 학습과 교육 방법을 설계할 수 있습니다.

LLM (Large Language Model) 이 가지는 의미

개념을 설명할 수 있다는 것은 알고 있다는 것이고 알고 있다는 것은 데이터를 내재화하고 있다는 것입니다.

개념을 설명했을 때, 알아 들었다는 것은 데이터를 받아들인다는 것입니다.

데이터를 내재화하고 있고 데이터를 받아들일 수 있다는 것은 필요에 따라 다양한 데이터를 가공할 수 있다는 것입니다.

이를 ChatGPT 를 만들어 본 경험에 비춰보겠습니다. 사주팔자

사주를 알려주는 서비스를 만들고 싶다는 생각이 들었을 때, 사주라는 것을 설명할 수 있어야 서비스를 만들어갈 수 있습니다.

이 때, ChatGPT에게 물어보니 사주라는 것을 저보다 더 설명을 잘해주었습니다. 설명을 해주었다는 것은 사주라는 것의 데이터를 가지고 있다는 것이기 때문에 적절한 역할과 책임을 인식시켜주고 대화하는 방식만 정의하면 될 것이라고 생각하고 그 정도의 프롬프팅만 했습니다.

결과적으로는 만족할만한 답변을 받았다고 생각하는데요.

이러한 결과의 출발은 데이터라는 관점의 변화에서 출발한 것입니다.

결론

1년 이라는 시간동안 LLM 이라는 것을 지켜보면서 이것을 어떻게 바라봐야할까? 라는 생각을 하고 있었습니다.

하지만 꾸준하게 한국말 묻따풀을 진행하며 말이 가진 개념과 말을 통한 상호간의 녀김 그리고 얽힘이라는 것을 접하며 말을 가지고 있다는 것이 곧 데이터를 가지고 있다는 생각으로 이어졌습니다.

그리고 이러한 개념을 데이터의 송수신 관점에서 바라보니 그 유사성이 높다는 것을 다시 한번 깨닫게 됩니다.

말이 가진 개념을 말로 풀어낼 수 있다는 것은 데이터를 가지고 있다는 것을 의미합니다.

Comments