인공지능대학원 심재영 교수팀, AI 학습 효율화 '데이터셋 증류' 논문 2편 ICLR 학회 동시 채택
심재영 교수팀, 방대한 학습 데이터를 소규모 합성 데이터 압축하는 데이터 증류 연구로 두각
자율주행,로봇 비전에 필요한 3D 포인트 클라우드 압축·연속 데이터셋 갱신 기술 각각 제시
인공지능대학원 심재영 교수팀의 데이터셋 증류 기술 성과를 담은 논문 2편이 세계 최고 권위의 기계학습 국제학술대회인 '표현학습국제학회(ICLR 2026)'에 동시 채택됐다. 데이터셋 증류는 방대한 원본 데이터를 AI 학습에 꼭 필요한 소규모 합성 데이터로 압축하는 기술이다. 예를 들면 고양이 사진 100만 장을 모두 학습시키는 대신, 고양이의 귀 모양, 눈, 털, 자세, 배경 변화 같은 특징을 잘 담은 소수의 이미지나 합성 데이터를 만들어 학습시키는 식이다. 대규모 데이터를 반복 학습시키지 않아도 돼 학습 시간과 GPU, 전력 사용량을 줄일 수 있어, AI 학습의 비용 부담을 낮출 핵심 기술로 꼽힌다. 연구진은 데이터셋 증류 분야의 ‘3D 포인트 클라우드 데이터 압축’과 새 데이터 유입 시 이전 정보가 지워지는 ‘망각’이라는 두 과제에서 각각 해결책을 제시했다. ■ AI 학습용 3D 데이터, 더 작고 다양하게 압축한다 3D 포인트 클라우드 데이터는 물체나 공간의 표면을 수많은 점의 좌표로 나타낸 데이터다. 자율주행차가 주변 차량과 보행자, 도로 구조를 인식하거나 로봇이 물체의 형태를 파악해 집고 움직이는 데 꼭 필요하다. 하지만 이 3D 포인트 클라우드 데이터는 형태가 불규칙하고 정해진 순서가 없어, 기존 이미지 데이터에서 저장 공간을 효율적으로 압축하는 '매개변수화(Parameterization)' 기술을 적용하는 데 한계가 있다. 게다가 기존 방식은 고해상도의 단일 합성 데이터만 저장하려다 보니, 정해진 메모리 예산 내에서 데이터의 다양성을 확보하기 어려웠다. 심 교수팀(공동 제1저자 김동욱, 임재영 연구원)은 3D 포인트 클라우드에 맞춤형으로 설계된 '매개변수화 기반 데이터셋 증류 프레임워크'를 세계 최초로 제안했다. 고해상도 샘플 1개를 통째로 쓰는 대신, 해상도가 낮은 샘플인 '앵커(Anchor) 샘플’ 여러 개로 초기화하는 방식을 택해 메모리 효율을 극대화한 것이다. 연구팀은 여러 앵커 샘플의 모양을 스스로 부드럽게 혼합하는 '학습 가능한 3D 형상 모핑(Learnable Shape Morphing)' 기술도 접목했다. 이를 통해 AI는 가중치를 스스로 학습하며, 기존과 동일한 메모리 환경에서도 훨씬 다양하고 새로운 형태의 3D 합성 샘플들을 생성해낼 수 있게 됐다. 원본 데이터와 합성 데이터를 비교하는 과정에서 생길 수 있는 구조적 오류도 줄였다. 점들이 공간에 얼마나 고르게 퍼져 있는지를 반영하는 ‘균일도 인식 매칭 손실(Uniformity-Aware Matching Loss)’을 도입해, 원본과 합성 데이터의 3차원 구조가 어긋나지 않도록 했다. 개발된 기술은 ModelNet10 등 5개의 주요 3D 벤치마크 데이터셋에서 기존 방법론들을 압도하는 성능을 기록했다. 특히 ModelNet10 극한 압축 환경(클래스당 샘플 1개)에서는 기존 최고 정확도인 35.9%를 87.7%로 대폭 끌어올리는 결과를 달성했다. ■ “데이터 계속 쌓여도 저장 공간은 그대로”…연속 데이터셋 압축하는 AI 기술 개발 데이터 증류 연구는 일반적으로 전체 데이터가 처음부터 모두 준비되어 있다고 가정하지만, 실제 현장에서는 데이터가 한꺼번에 모이지 않는다. 자율주행차가 새로운 도로 환경을 만나거나, 로봇이 다른 조명·배경·센서 조건에서 주변 데이터를 얻는 것처럼 시간에 따라 데이터가 순차적으로 축적된다. 이때 새로 들어온 데이터마다 별도의 증류 데이터셋을 만들면 저장 공간과 학습 비용이 다시 늘어난다. 그렇다고 하나의 합성 데이터셋만 계속 고쳐 쓰면, 새 데이터의 특징이 덮어씌워지면서 이전 데이터의 정보가 사라지는 ‘망각(catastrophic forgetting)’ 문제가 생긴다. 연구팀은 이러한 순차적 데이터 유입 상황에서 합성 데이터셋의 크기를 키우지 않고, 이전 데이터와 새 데이터를 함께 담는 기술을 개발했다. 합성 데이터셋 내부의 각 데이터 샘플마다 과거 지식과 새로운 지식을 반영하는 비율을 서로 다르게 조절하는 기술이다. 예를 들어 일부 데이터는 과거 정보를 안정적으로 유지하는 역할에 집중하고, 다른 데이터는 새롭게 수집되는 데이터의 특징을 빠르게 학습하도록 역할을 분담하는 방식이다. 샘플별 갱신 비율은 메타러닝 기반 이중 최적화 기법을 통해 자동으로 찾도록 했다. 각 샘플이 이전 정보를 지키는 안정성(stability)과 새 정보를 받아들이는 적응성(plasticity) 가운데 어느 쪽에 더 집중해야 하는지를 스스로 조절하게 한 것이다. 이번 연구는 오민영 연구원이 제1저자로 참여했다. 연구팀은 “이번 연구는 데이터가 지속적으로 생성되는 실제 환경에서도 고정된 저장 용량만으로 효율적인 학습이 가능함을 보여준 사례”라며 “향후 자율주행, 로봇, 엣지 디바이스, 대규모 온라인 AI 서비스 등 지속적으로 데이터를 처리해야 하는 다양한 분야에 활용될 수 있을 것”이라고 밝혔다.