"냉장고에서 오렌지를 꺼내 싱크대로 옮겨줘."
사람에게 이 말을 하면 3초면 끝난다. 그런데 이렇게 말하면 어떻게 될까. "그나저나 어제 퇴근하고 보니 주방이 엉망이더라고. 냉장고에서 오렌지를 꺼내 싱크대로 옮겨줘. 아, 저녁은 또 뭘 먹나 모르겠어." 핵심 지시는 하나이고 나머지는 잡담이다. 사람은 듣는 순간 군더더기를 걸러내고 행동한다. 그 당연한 능력이, 지금 로봇에게는 없다.
요즘 로봇들은 카메라로 주변을 보고, 사람의 말을 듣고, 그에 맞는 동작을 한꺼번에 처리하는 구조로 움직인다. 말·눈·손이 하나로 묶인 방식이다. 이런 로봇을 연구자들은 VLA(Vision-Language-Action, 시각·언어·행동 통합 모델, 이하 VLA)라 부른다. 그런데 이 세 가지가 하나로 묶여 있다는 사실은 강점인 동시에 약점이다. 말이 흔들리면 손도 흔들린다.
러시아 퍼가체바(Daria Pugacheva) 연구팀이 2025년 10월 발표한 논문 「소파 말고 사과를 가져와(Bring the Apple, Not the Sofa)」는 이 문제를 실험으로 증명했다. 방식은 단순했다. 현재 가장 널리 쓰이는 VLA로봇 다섯 종에게 명령을 줄 때, 핵심 지시 앞뒤로 잡담 문장을 붙이거나, 같은 뜻을 다른 말로 돌려 표현하거나, 훈련 데이터에서 자주 등장했던 단어와 문장을 끼워 넣었다. 그리고 로봇이 과제를 제대로 완수하는지를 수백번씩 반복해 측정했다.
결과는 충격적이었다. 훈련 데이터의 어휘·의미와 비슷한 잡담이 섞이면 성공률이 절반 넘게 떨어졌다. 사람이 자연스럽게 돌려 말하는 것만으로도 성능이 20% 가까이 낮아졌다. 로봇은 핵심을 잡아내는 대신 앞뒤 말에 발이 걸려 멈추거나 엉뚱하게 움직였다. 실험 중에는 "소파 위에 사과가 있어"라는 잡담 한 줄이 끼어들자, 로봇이 목표 물체와 무관하게 소파 쪽으로 이동해 주변을 무작위로 헤매는 장면도 기록됐다. 훈련 중에 본 적 없는 말투, 섞인 잡담, 돌려 표현한 문장 앞에서 VLA는 조용히 무너졌다.
여기서 잠깐 멈춰 생각해볼 필요가 있다. 로봇이 이렇게 흔들리는 이유가 언어 이해력이 부족해서일까. 꼭 그렇게만 보기는 어렵다. 최근 언어모델의 발전은 눈부시고, VLA 역시 그 성과 위에 서 있다. 그러나 지금의 VLA는 수백만건의 명령어와 동작 데이터를 학습한 뒤, 들어온 말이 그 패턴과 얼마나 비슷한지 매칭하는 방식으로 작동하는 경향이 강하다. 패턴에 맞으면 작동하고, 조금이라도 어긋나면 흔들린다. 이해력의 결핍이라기보다는, 이해의 폭이 아직 훈련 데이터의 범위 안에 머물러 있다는 표현이 더 정확하다.
이 사실은 물리 환경에서도 똑같이 드러난다. 상하이 교통대학교 AI연구소 류한칭(Liu Hanqing) 연구팀이 2026년 3월 발표한 논문 「에바-VLA(Eva-VLA)」는 현실 환경의 작은 변화 앞에서 VLA가 얼마나 쉽게 무너지는지를 처음으로 체계적으로 측정한 연구다. 연구팀은 현실에서 로봇이 맞닥뜨리는 물리적 변수를 세 가지로 나눴다. 물체가 기울어지거나 넘어진 상황, 조명 밝기나 방향이 바뀐 상황, 작업 공간에 바코드나 낯선 이미지가 놓인 상황이다. 이 세 조건을 조합해 현재 가장 성능이 뛰어난 VLA 모델들을 수백 회씩 반복 실험했다.
결과는 언어 실험과 판박이였다. 정상 환경에서 거의 실수 없이 작동하던 로봇들이 조건이 조금만 바뀌자 급격히 무너졌다. 특히 물체 자세 변화가 가장 치명적이었다. 장기 복합 과제에서 대표적인 VLA 모델의 실패율은 최대 98%에 달했고, 세 가지 물리 변수를 통틀어 장기 과제 평균 실패율은 90%를 넘었다. 물건 각도가 조금 달라지고 조명 방향이 바뀌는 것만으로, 실험실에서 완벽하게 작동하던 로봇이 무너진 것이다. 말의 경우와 정확히 같은 이유에서다. 로봇은 훈련 중 본 패턴과 맞으면 작동하고, 달라지면 멈춘다. 언어든 환경이든 그 원리는 다르지 않다.
물론 기술은 스스로 결함을 메우는 방향으로 움직이고 있다. 퍼가체바 연구팀은 로봇에게 명령을 전달하기 전 별도의 언어모델로 잡담을 걸러내는 방식을 제안했고, 이를 통해 원래 성능을 거의 완전히 회복할 수 있음을 보였다. 류한칭 연구팀도 최악의 물리적 조건을 미리 찾아 훈련에 반영하면 내성이 높아진다는 것을 확인했다. 기술은 분명히 앞으로 나아가고 있다. 그러나 이 두 해법이 공통적으로 전제하는 것이 있다. 취약점을 미리 알고 있어야 한다는 것이다. 연구자들이 미리 상정한 조건을 벗어나는 순간, 어떤 필터도 어떤 훈련도 로봇을 지켜주지 못한다. 현장의 변수는 언제나 실험실보다 넓다.
로봇이 말을 못 알아듣는 건 단순한 이해력의 문제가 아닐 수 있다. 그보다는, 로봇이 익숙하게 학습한 세계의 영역이 생각보다 좁다는 것이 문제다. 그 영역 밖에서 로봇은 조용히 실패한다. 돌봄 시설의 노인이 평소와 다른 말투로 부탁하고, 병원 복도의 조명이 공사로 며칠째 바뀌어 있고, 약병이 누군가 손대어 각도가 틀어져 있는 그 순간. 그 실패는 로봇 제조사의 홍보 시연 영상에도, 도입 전 성능 수치에도 나타나지 않는다.
로봇을 도입하는 병원, 학교, 복지시설이 로봇의 성능 수치보다 먼저 물어야 할 것은 하나다. "이 로봇은 어떤 말 앞에서, 어떤 환경에서 실패하는가." 그 질문을 던질 줄 아는 것이, 기술을 받아들이는 사회의 가장 기본적인 감각이다. 로봇에게 현실 세계는 익숙하지 않은 세계이기 때문이다.
최홍규 연구위원(EBS) / 미디어학 박사
이 기사는 뉴스토마토 보도준칙 및 윤리강령에 따라 김기성 편집국장이 최종 확인·수정했습니다.
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지