Smart Image Content Research Center
Chung-Ang University
Smart Image Content Research Center
Chung-Ang University
Series Volume 1 Overview
The Institute for Convergence Research in Visual Media has been conducting the Global Humanities and Social Sciences Convergence Research Program (Project Title: Affective AI-Based Storytelling and Image Generation for Global Cultural Content) funded by the National Research Foundation of Korea (NRF) from 2025 to 2031.
To systematically compile and disseminate the outcomes of this research, we are preparing the “Emotional AI Global Content Series.”
The first volume, scheduled for publication in 2026, is a collaborative essay collection titled “Emotional AI: Rethinking the Boundaries of Technology, Art, and Humanity.”
Rather than serving as a simple introduction to emotional AI technologies, this volume begins with a fundamental question: “How can humans and AI coexist through emotion as a medium?” From this perspective, it aims to create an interdisciplinary platform for reexamining the relationships between humans, machines, and art.
The columns presented here are prepared as previews and summaries of the full manuscripts to be included in the series. New pieces will be published weekly.
We invite you to follow and engage with the evolving discourse on Emotional AI.
4월 3호. 감정을 학습하기
텍스트를 넘어 인간의 상태를 읽는 기술
권혁준
중앙대학교 첨단영상대학원 교수
인공지능은 기본적으로 패턴을 인식하고 학습하는 기술이다. 방대한 데이터 속에서 반복적으로 나타나는 규칙과 상관관계를 찾아내고, 이를 바탕으로 분류하고 예측하며 생성한다. 이미지 속 사물을 구별하고, 음성에서 문장을 인식하고, 텍스트의 의미를 해석하는 일은 모두 이러한 원리 위에서 이루어진다. 오늘날 우리가 AI라고 부르는 대부분의 기술은 결국 데이터 안에 숨어 있는 패턴을 얼마나 정교하게 포착하느냐에 달려 있다고 해도 과언이 아니다.
그동안 AI 연구의 중심에는 주로 언어와 이미지 같은 대상이 있었다. 문장이 무엇을 뜻하는지, 영상 속에서 어떤 장면이 펼쳐지고 있는지를 해석하는 일이 핵심 과제였다. 그리고 이 영역에서 최근의 AI는 눈부신 발전을 이루었다. 이제 AI는 단순한 검색이나 문장 완성의 수준을 넘어, 복잡한 추론을 수행하고, 어려운 시험 문제를 풀며, 인간이 생산한 텍스트와 시각 정보를 상당한 수준으로 이해하고 생성한다. 수능형 문제 풀이, 전문 자격시험 수준의 질의응답, 수학과 과학의 고난도 추론, 이미지 이해와 생성까지, 기존에는 각기 다른 전문 영역으로 여겨졌던 작업들이 하나의 범용 모델 안에서 점차 통합되고 있다. 적어도 언어와 비전 데이터의 처리라는 측면에서 보면, AI는 이미 매우 높은 수준의 성능을 보여주고 있다.
이러한 발전은 AI의 위치 자체를 바꾸어 놓았다. 과거의 AI가 특정 작업을 보조하는 기술에 가까웠다면, 이제는 인간 사회 안쪽으로 깊이 들어와 학습, 업무, 소통, 의사결정의 과정에 직접 관여하는 시스템이 되었다. 사람들은 더 이상 AI를 낯선 기술로만 대하지 않는다. 질문을 던지고, 설명을 듣고, 글을 고치고, 아이디어를 정리하고, 일의 방향을 점검하는 과정에서 AI는 점점 일상적인 도구이자 주요한 지적 자원처럼 사용된다. ChatGPT나 Gemini와 같은 시스템을 전혀 사용하지 않는 사람을 찾기 어렵다는 말이 과장이 아닐 정도로, AI는 이제 인간의 사고와 판단 바로 곁에서 작동하는 기술이 되었다.
바로 그렇기 때문에 다음 단계의 과제가 중요해진다. 인간은 문장이나 사진만 주고받는 존재가 아니기 때문이다. 우리는 말의 내용과 함께 말투, 속도, 억양, 침묵, 표정, 시선, 반응 방식과 같은 다양한 신호를 함께 주고받는다. 텍스트는 그중 한 층위일 뿐이고, 실제 인간의 소통은 훨씬 더 두껍고 복합적인 정보 구조 위에서 이루어진다. 같은 문장이라도 어떤 표정으로, 어떤 속도로, 어떤 맥락에서 말했는지에 따라 의미는 크게 달라진다. 결국 인간 가까이에서 기능하는 AI라면, 인간이 드러내는 더 넓은 상태 정보까지 함께 해석할 수 있어야 한다. 감성 AI의 필요성은 바로 여기에서 나온다.
이 지점에서 많은 사람들은 곧바로 의문을 가질 수 있다. 감정은 사람마다 다르고, 상황에 따라 달라지며, 문화에 따라서도 표현 방식이 다르다. 기쁨, 불안, 피로, 당혹감 같은 것은 내면의 경험이기 때문에, 이것을 과연 AI가 학습할 수 있는지 의문스럽게 느껴진다. 감정은 정답이 하나로 떨어지는 대상이 아니고, 수식처럼 명확하게 정의하기도 어렵다. 같은 표정이 전혀 다른 감정을 뜻할 수도 있고, 같은 감정이 전혀 다른 방식으로 표현될 수도 있다. 그래서 감성 AI라는 말은 언어 이해나 이미지 인식보다 더 낯설고 더 어려운 개념처럼 들린다.
그러나 공학의 관점에서 보면 감정 역시 학습 가능한 대상이다. 그 이유는 감정 또한 결국 정보이기 때문이다. 물론 감정 자체를 직접 꺼내어 볼 수는 없다. 하지만 감정은 표정의 변화, 시선의 움직임, 음성의 높낮이와 속도, 단어 선택, 문장 길이, 반응 시간, 생체신호와 같은 다양한 형태로 바깥에 드러난다. 다시 말해 감정은 완전히 보이지 않는 것이 아니라, 여러 데이터 층위에 흔적을 남긴다. 관찰 가능한 신호가 있고, 그 신호들 사이에 반복되는 관계가 있다면, 그것은 충분히 학습의 대상이 될 수 있다.
AI가 감정을 인간처럼 느끼고 체험한다고 말할 수는 없지만, 감정과 관련된 신호를 해석하고 그에 맞게 반응하도록 만드는 것은 분명히 가능한 일이다. 이 점에서 감성 AI는 인간적인 영역을 기계로 대체하려는 시도라기보다, 인간이 실제로 주고받는 다양한 상태 정보를 모델링하려는 자연스러운 연구 과제라고 보는 편이 더 정확하다.
사실 기존의 AI 모델들도 이미 이러한 해석을 어느 정도 수행하고 있다. 오늘날의 대규모 언어모델은 문장의 표면적 의미만 읽는 것이 아니라, 어조와 분위기, 화자의 의도까지 일정 수준 추정한다. 사용자가 짜증을 내고 있는지, 조심스러운 태도로 질문하는지, 확신이 없는 상태인지에 대해 모델이 어느 정도 반응할 수 있는 것은 이런 이유 때문이다. 이미지 모델 역시 얼굴 표정이나 장면의 맥락을 통해 정서적 단서를 포착한다. 슬픔, 긴장, 즐거움과 같은 정서적 분위기는 이미 언어와 이미지의 해석 과정 속에 일정 부분 포함되어 있다.
다만 이러한 해석은 대부분 언어와 이미지 이해의 과정 속에 암묵적으로 포함되어 있을 뿐, 감정을 명시적으로 다루는 형태로 설계된 것은 아니다. 다시 말해 기존 모델은 감정을 부분적으로 읽고 있지만, 그것을 독립된 목표로 정교하게 모델링하고 있는 것은 아니다.
때문에 앞으로의 과제는 이미 부분적으로 가능한 해석을 더 직접적이고 정교한 수준으로 확장하는 데 있다. 보다 미묘한 뉘앙스를 읽고, 더 안정적으로 상태를 추정하며, 그 결과를 실제 상호작용의 개선으로 연결하는 것이 감성 AI가 지향하는 방향이다. 예를 들어 대화형 AI가 사용자의 질문 내용만이 아니라 혼란의 정도, 불만의 신호, 설명을 따라오지 못하고 있는 상태를 함께 파악할 수 있다면, 응답의 방식은 분명 달라질 수 있다. 이러한 차이는 단순한 사용자 편의의 문제가 아니라, 인간과 상호작용하는 시스템의 품질 자체를 결정하는 요소가 된다.
이 과정에서 특히 중요한 것은 개인화와 문화적 맥락이다. 같은 침묵도 어떤 사람에게는 집중의 표시일 수 있고, 다른 사람에게는 불편함의 신호일 수 있다. 같은 웃음도 친밀감의 표현일 수 있고, 긴장을 감추는 방식일 수도 있다. 더구나 감정 표현은 문화권에 따라서도 차이를 보인다. 어떤 사회에서는 감정을 직접적으로 드러내는 것이 자연스럽지만, 어떤 사회에서는 절제된 표현이 더 일반적이다. 어떤 언어에서는 완곡한 표현이 예의의 일부이지만, 다른 언어에서는 오히려 모호함으로 받아들여질 수도 있다.
따라서 감성 AI는 보편적인 패턴만 학습해서는 충분하지 않다. 개인마다 다른 표현 방식과 문화마다 다른 정서 규범을 함께 고려할 수 있을 때, 비로소 인간 가까이에서 자연스럽게 작동하는 AI에 가까워질 수 있다. 결국 감성 AI의 정교함은 단순히 더 많은 데이터를 모으는 데서 나오지 않고, 데이터가 놓여 있는 삶의 맥락을 함께 이해하는 데서 나온다.
앞으로 AI는 더 많은 영역에서 인간과 함께 일하고, 가르치고, 안내하고, 돕게 될 것이다. 이때 필요한 것은 단지 더 많은 지식을 가진 AI가 아니라, 사람의 상태를 더 섬세하게 읽을 수 있는 AI이다. 인간이 드러내는 정서적 신호를 데이터로 읽고, 그 의미를 맥락 속에서 해석하여, 인공지능이 사람에게 더 적절하게 반응하도록 만드는 감성 AI 기술은 인간 가까이에서 작동하는 AI를 가능하게 하는 핵심 기술이라 할 수 있다.
4월 2호. 감정을 읽는 AI는 무엇을 배우는가
감성 알고리즘과 모델의 현재, 그리고 다음 질문
오지형
중앙대학교 첨단영상대학원 교수
우리는 이제 AI 및 기계가 사람의 얼굴을 보고, 목소리의 떨림을 듣고, 문장의 어조를 읽으며 감정을 추정하는 시대에 살고 있다. 누군가는 이를 “감정을 이해하는 인공지능”이라 부르고, 또 누군가는 아직 그 표현이 너무 이르다고 말한다. 실제로 오늘의 감성 AI는 인간의 내면을 완전히 이해한다기보다, 감정이 바깥으로 드러나는 여러 신호를 통계적으로 학습하고 해석하는 기술에 가깝다. 그런데 바로 이 지점이 흥미롭다. 감성 알고리즘은 인간의 감정을 있는 그대로 읽는가, 아니면 데이터 속에서 반복적으로 나타난 감정의 표정을 계산하는가.
「감성 알고리즘&모델」은 바로 이 질문에서 출발한다. 감성 AI의 핵심은 단순히 ‘기쁨, 슬픔, 분노’를 맞히는 분류기 (classifier)를 만드는 일이 아니다. 오히려 더 중요한 것은 감정을 어떤 형태로 모델링할 것인가의 문제다. 감정을 몇 개의 범주로 나눌 것인지, 혹은 쾌·불쾌 (valence)와 각성도 (arousal) 같은 연속 좌표 위에서 볼 것인지, 얼굴만 볼 것인지 아니면 음성, 텍스트, 몸짓, 장면 맥락까지 함께 읽을 것인지에 따라 전혀 다른 알고리즘이 만들어진다. 결국 감성 모델은 인간 감정의 본질을 그대로 복사한 기술이 아니라, 감정을 어떤 관점에서 정의하고 표현할 것인지에 대한 하나의 이론적 선택이기도 하다.
최근 이 분야는 매우 빠르게 확장되고 있다. 초창기에는 얼굴 표정 인식 (facial expression recognition)이 중심이었다면, 이제는 인물의 주변 장면과 사회적 맥락을 함께 해석하는 문맥 기반 감정 인식 (context-aware emotion recognition), 음성·텍스트·영상 신호를 함께 다루는 멀티모달 감정 인식 (multimodal emotion recognition), 나아가 대규모 언어모델과 비전모델을 결합해 감정의 이유와 상황까지 추론하려는 시도로까지 이어지고 있다. 감정은 더 이상 얼굴 근육의 미세한 움직임만으로 설명되지 않는다. 같은 표정도 상황에 따라 전혀 다른 감정이 될 수 있고, 같은 문장도 목소리와 관계 맥락에 따라 다르게 받아들여진다. 감성 AI가 점점 더 복잡한 모델을 요구받는 이유가 여기에 있다.
하지만 성능이 높아질수록 질문도 함께 어려워진다. 기계가 학습한 감정은 누구의 감정인가. 데이터셋 (dataset)에 많이 등장하는 문화권의 표정과 언어 습관이 보편적 감정처럼 오인되지는 않는가. 억지 미소, 사회적 가면, 문화적 차이, 감정의 중첩과 모호성은 알고리즘 안에서 얼마나 살아남는가. 감성 AI는 인간을 더 잘 이해하기 위한 기술이 될 수도 있지만, 반대로 인간의 복잡한 감정을 지나치게 단순한 라벨 (label)로 환원하는 장치가 될 위험도 함께 안고 있다. 그래서 감성 알고리즘의 문제는 단지 공학의 문제가 아니라, 인간 이해의 방식에 관한 철학적 문제이기도 하다.
그림 : 감성 AI
이번 글에서는 이러한 흐름을 따라 감성 AI의 주요 알고리즘과 모델이 어떻게 발전해왔는지, 그리고 앞으로 어떤 방향으로 나아가야 하는지를 살펴보고자 한다. 얼굴 표정 데이터셋에서 시작된 전통적 접근, 장면과 관계를 읽는 문맥 모델, 음성·텍스트·영상이 결합된 멀티모달 구조, 그리고 최근의 대규모 사전학습 (pre-training) 및 생성형 AI와 연결되는 흐름까지 차례로 짚어볼 예정이다. 동시에 “감정을 잘 맞히는 모델”을 넘어, “감정을 얼마나 책임 있게 다루는 모델인가”라는 질문도 함께 던지고자 한다.
감정을 읽는 기계는 결국 인간을 어떻게 상상하는 기계인가. 감성 알고리즘의 역사는 단지 더 높은 정확도의 경쟁이 아니라, 인간의 감정이 과연 측정될 수 있는가를 둘러싼 긴 사유의 역사이기도 하다. 이 글은 그 기술적 진보를 소개하는 데서 멈추지 않고, 감성 AI가 인간과 예술, 커뮤니케이션, 그리고 미래의 인터페이스를 어떻게 바꾸고 있는지까지 함께 바라보려 한다. 감정을 계산하는 기술의 시대에, 우리는 오히려 다시 질문해야 한다. 감정은 데이터가 되면 더 잘 이해되는가, 아니면 다른 방식으로 다시 낯설어지는가.
4월 1호. 인공지능은 문화를 어떻게 이해하는가: 문화적 맥락 속 의미와 감성을 반영한 데이터와 평가의 변화
김학구
중앙대학교 메타버스융합학과 교수
우리는 흔히 인공지능이 사람처럼 세상을 “이해한다”고 말한다. 사진을 보고 상황을 설명하고, 질문에 자연스럽게 답하는 모습을 보면, 인공지능이 인간과 유사한 방식으로 의미를 파악하고 있다고 느끼기 쉽다. 그러나 그 이해가 항상 동일한 방식으로 작동하는 것은 아니다. 예를 들어, 누군가에게 행운을 빌기 위해 손가락을 교차하는 제스처의 경우, 미국에서는 긍정적인 의미를 갖지만, 다른 문화권에서는 전혀 다른, 부적절한 의미로 해석되기도 한다. 실제로 해당 제스처는 문화에 따라 “행운을 빈다”는 표현으로 이해되기도 하고, “외설적인 의미”로 받아들여지기도 한다 (그림 1). 이러한 차이는 제스처 인식에만 국한되지 않는다. 여성의 초상화를 두고도, 어떤 문화권에서는 “단정하게 앉아 있는 모습이 만족스럽다”고 묘사되는 반면, 다른 문화권에서는 “복장이 지나치게 노출되어 부적절하다”고 인식되기도 한다 (그림 2). 즉, 같은 이미지를 보더라도 그것이 전달하는 감성과 의미는 문화적 맥락에 따라 크게 달라진다.
그림 1. MC-SIGNS 데이터셋: 지역과 문화에 따라 달라지는 제스처 해석
그림 2. ArtElingo-28 벤치마크 데이터셋: 객관적 사실보다 주관적 의견 및 언어와 문화에 걸친 다양성 강조
최근 인공지능, 특히 시각-언어 모델(Vision-Language Models, VLMs)이나 대형 언어 모델(Large Language Models, LLMs)은 객체를 인식하거나 질문을 이해하고 자연스럽게 답하는 일에 대해서는 이미 인간과 유사한 수준에 도달했다는 평가도 있다, 하지만 이러한 성능은 주로 “무엇이 보이는가” 또는 “문장이 무엇을 의미하는가”와 같은 일반적인 이해 능력에 기반한 것이다. 문제는, 이러한 모델이 문화적 맥락을 요구하는 질문에 대해서는 종종 부적절하거나 엇나간 답변을 생성하여 쉽게 실패한다는 점이다. 이는 단순한 오류라기보다, 인공지능이 학습한 세계 자체가 특정 문화에 편향되어 있기 때문이라는 지적이 이어지고 있다.
이러한 한계의 중요한 원인 중 하나는 데이터에 있다. 현재 인공지능 모델은 방대한 양의 이미지와 텍스트 데이터를 통해 학습되는데, 이 데이터는 특정 지역과 언어, 특히 서구권 중심으로 구성된 경우가 많다. 그 결과, 모델은 자연스럽게 그 문화에서 자주 등장하는 대상과 표현에는 강해지지만, 다른 문화에 대해서는 충분한 이해를 갖추지 못하게 된다. 다시 말해, 인공지능이 이해하는 “세계”는 실제 세계의 다양성을 온전히 반영하지 못한 채, 특정 방식으로 편집된 세계에 가깝다. 하지만 더 근본적인 문제는 이러한 한계가 그동안 충분히 드러나지 않았다는 점이다. 기존의 인공지능 평가 방식은 주로 객체 인식이나 문장 이해처럼 비교적 보편적인 과제에 초점을 맞추고 있었으며, 문화에 따라 해석이 달라질 수 있는 상황은 거의 고려하지 않았다. 따라서, 인공지능 모델이 문화적으로 부적절한 답변을 하더라도, 기존의 평가 기준에서는 높은 성능을 기록하는 일이 가능했다. 다시 말해, 문제는 존재했지만, 그것을 드러낼 수 있는 평가 틀이 부족했던 것이다.
이러한 인식 위에서, 최근 연구들은 데이터와 평가 방식을 함께 재구성하는 방향으로 나아가고 있다. 한편에서는 더 다양한 국가와 언어, 그리고 문화적 맥락을 포함하는 데이터셋을 구축하려는 시도가 이루어지고 있으며, 다른 한편에서는 문화적 맥락을 반영한 새로운 평가 방식을 설계하려는 노력이 이어지고 있다. 예를 들어, 동일한 질문이라도 문화에 따라 다른 해석이 가능하도록 문제를 구성하거나, 단순히 정답 여부가 아니라 해당 문화에서 얼마나 적절한 답변인지를 평가하는 방식이 제안되고 있다. 이는 인공지능 모델을 단순히 “더 많은 정보를 아는 시스템”으로 만드는 것이 아니라, 맥락에 따라 “다르게 이해할 수 있는 시스템”으로 확장하려는 시도라고 볼 수 있다. 나아가 일부 연구에서는 문화와 감성 이해를 단순한 정보의 문제가 아니라 규범과 가치의 문제로 확장하고 있다. 어떤 행동이 적절한지, 어떤 표현이 예의에 맞는지는 단순한 사실 지식만으로는 설명할 수 없으며, 사회적 맥락과 기대를 함께 고려해야 한다. 이러한 관점에서 보면, 문화와 감성 이해는 정답을 맞히는 문제가 아니라, 특정 상황에서 어떤 판단과 해석이 가능한지를 다루는 문제에 가깝다.
이 글은 이러한 흐름을 바탕으로, 인공지능이 문화와 감성을 어떻게 이해하고 있으며, 그 이해를 우리는 어떤 방식으로 드러내고 평가하고 있는지를 살펴보고자 한다. 특히 데이터의 구성과 평가 방식이 이 문제에서 어떤 역할을 하는지, 그리고 최근 연구들이 이 두 요소를 어떻게 재설계하고 있는지를 중심으로 소개한다. 이를 통해 인공지능의 “이해”라는 개념이 어디까지 확장될 수 있는지, 그리고 우리가 기대하는 이해란 무엇인지에 대해 생각해보고자 한다.