top of page

웨어러블이 말하기 시작했다 - 구글의 SensorLM

  • 작성자 사진: Kyoung-Hwan Choi
    Kyoung-Hwan Choi
  • 8월 6일
  • 5분 분량

웨어러블 기기는 그동안 심박수, 수면 시간, 걸음 수처럼 수치 데이터를 제공하는 데 집중해왔다. 하지만 단순한 숫자만으로는 상황을 이해하거나 해석하기 어렵다. 같은 심박수 120이라도, 그것이 오르막길을 걷는 중인지, 스트레스를 받는 회의 중인지에 따라 의미는 전혀 달라진다.


인간의 경험은 감각 지각과 언어 표현 사이의 지속적인 대화로 전개된다. 예를 들어, 심박수와 같은 생리학적 원시 데이터에서 감지된 변화는 “심박수가 65에서 90으로 급등했다”는 저수준 통계적 설명에서 “근력 운동이 있었던 시기”라는 고수준 의미적 추상화로 자연스럽게 번역될 수 있다. 이러한 감각과 언어 사이의 내재된 상호작용은 인간이 자신의 내면 상태, 건강 상태, 행동 변화를 이해하는 방식의 핵심을 이룬다.


오늘날 웨어러블 센서는 이러한 인간 경험의 서사를 이전에는 불가능했던 해상도로 기록한다. 분 단위로 수집된 데이터는 개인의 생리적·행동적 상태에 대한 치밀한 인사이트를 담는다. 이처럼 연속적이고 정밀한 센서 데이터 흐름을 직관적이고 실용적인 언어 설명으로 정렬하고 해석하는 일은 사용자 참여, 임상적 의사결정, 맞춤형 인사이트 제공, 행동 개입 등 다양한 분야에서 매우 중요하다.


하지만 이러한 원시 센서 데이터를 직접 해석하는 일은 매우 어렵다. 대형 언어 모델(LLM)은 텍스트 시퀀스 처리에는 뛰어난 성능을 보이지만, 웨어러블 데이터처럼 고차원적이고 연속적이며 시간적으로 방대한 데이터를 다루는 데는 구조적 한계를 갖는다. 예를 들어, 하루치의 분 단위 다중 모달 센서 기록은 20만 개 이상의 토큰으로 확장되며, 이는 대부분의 최신 LLM들이 감당할 수 있는 문맥 길이 한계를 훨씬 초과한다.



구글의 최신 웨어러블 기술, SensorLM은 무엇일까?


구글은 이런 맥락의 차이를 이해하고 설명할 수 있는 새로운 기술을 공개했다. 바로 SensorLM이다. SensorLM은 웨어러블 센서 데이터와 자연어를 연결하는 인공지능 모델로, 단순한 심박수, 수면 시간 같은 숫자 데이터를 넘어, 센서가 감지한 내용을 사람처럼 ‘이해하고 설명’할 수 있는 모델이다.



SensorLM은 어떤 기술인가요?


SensorLM은 단순히 데이터를 인식하는 데 그치지 않는다. 상황을 해석하고 요약하며, 설명하는 능력을 갖췄다. 기존에는 웨어러블 기기에서 심박수나 움직임과 같은 수치를 수동적으로 받아들이는 수준이었다면, SensorLM은 이를 기반으로 " 사용자는 약 15분간 가파른 오르막길을 걷고 있었어요", "스트레스를 받는 상황에서 심박수가 증가했어요" 등과 같은 문장을 생성한다. 즉, 수치를 사람이 이해할 수 있는 문장으로 바꿔주는 기술이다.


ree

[Source: SensorLM: Learning the Language of Wearable Sensors]



얼마나 많은 데이터를 학습했나요?


이러한 설명 능력은 방대한 데이터를 기반으로 한다. SensorLM은 전 세계 127개국, 103,643명의 사용자로부터 수집 된 약 6천만 시간 분량의 웨어러블 센서 데이터로 학습되었다. 총 10만 명이 넘는 사용자의 실제 데이터를 기반으로, 각 상황에 따른 생체 반응과 행동 패턴을 학습한 것이다. 또한 수동으로 데이터를 라벨링 하지 않고, 자동으로 텍스트 설명을 생성하는 계층적 캡셔닝 파이프 라인을 개발해 학습 효율도 높였다.



SensorLM의 주요 기능


구글은 센서 데이터로부터 통계 계산, 경향 식별, 이벤트 설명 등을 통해 자동으로 설명 텍스트 캡션을 생성하는 파이프 라인을 개발했다. SensorLM은 대조 학습(contrastive learning)과 생성 기반 사전 학습(generative pre-training)을 함께 사용한다. 전자는 센서 데이터를 올바른 텍스트 설명과 일치 시키도록 모델을 훈련 시키며, 후자는 모델이 스스로 설명을 생성할 수 있도록 학습 시킨다. SensorLM은 장거리 걷기, 유산소 운동, 근력 운동과 같은 인간 활동을 식별할 수 있다.


SensorLM의 주요 기능은 크게 세 가지로 요약된다.


첫째, 제로샷 활동 인식이다. 학습된 적이 없는 활동도 유추해낼 수 있으며, 몇 개의 예시만 주어도 새로운 행동을 빠르게 인식한다. 예를 들어, 모델이 '요가'라는 활동을 학습하지 않았더라도, 유사한 움직임과 맥락을 보고 요가라고 유추해낼 수 있다.


센서와 언어의 정렬 (Aligning Sensor with Language)


센서 데이터를 자연어와 통합하려는 관심은 점점 커지고 있지만, 비정제된 웨어러블 데이터에서 구축된 대규모의 센서-텍스트 페어링 코퍼스는 여전히 부족한 상황이다. 그러나 이러한 데이터셋은 효과적인 크로스모달(교차 모달) 모델을 훈련하기 위해 필수적이다.


기존 연구들은 주로 다음과 같은 방식으로 센서-언어 통합 문제에 접근해왔다.

  • 센서 특징(feature)의 사전 요약된 텍스트를 활용하거나,

  • 원시 센서 값을 표 형식(tabular input)으로 LLM에 입력해 예측 작업을 수행하거나,

  • 특수한 센서 인코더와 정렬 모듈을 사용해 LLM이 센서 데이터를 해석할 수 있도록 보조하거나,

  • 최근에는 질의 응답 기반의 센서-텍스트 프레임 워크를 활용해 센서-텍스트 데이터셋 생성을 시도하기도 했다. 이 방법은 인간 행동 인식(HAR)에 초점을 맞춰 설계된 경우가 많다.


하지만 이들 접근 방식은 수작업 요약에 의존하는 경우가 많고, 센서-텍스트 페어링이 드물고 범위도 좁다는 한계로 인해 일반화 성능이 떨어진다. 이에 반해, 본 연구에서는 대규모 계층적 캡션 데이터를 기반으로 직접 센서-언어 표현을 학습함으로써, 다양한 작업에 대한 강력한 제로샷 일반화 성능을 확보하는 데 초점을 맞췄다.



둘째, 교차 모달 검색 기능이다. “심박수가 급증한 시점을 보여줘” 또는 “이런 활동이 있었던 순간을 찾아줘”와 같이, 자연어와 센서 데이터 간의 양방향 검색이 가능하다.


멀티모달 센서 기반 모델 (Multimodal Sensor Foundation Models)


최근 센서 데이터 모델링 연구는 대규모 생리학적/웨어러블 센서 데이터에 대한 자기지도 사전학습(self-supervised pretraining)을 통해 정확도, 견고성, 일반화 성능 향상을 보여주었다.


기존의 센서 기반 모델은 주로:

  • 단일 모달(예: IMU, ECG)이나 다채널 센서 데이터에 집중하며,

  • 대조 학습(contrastive learning) 또는

  • 복원 기반(reconstruction-based) 사전 학습 목적 함수를 사용한다.


보다 최근의 연구에서는 ECG, EEG, IMU 등 개별 생리 센서 데이터를 언어나 영상 등 다른 모달리티와 정렬하는 멀티모달 센서 기반 모델도 시도되고 있다. 본 연구는 이 흐름을 확장하여, 다양한 센서 타입과 자연어를 공동으로 모델링함으로써 센서 기반의 새로운 응용과 멀티모달 이해를 가능하게 하는 포괄적인 센서-언어 모델을 구현하였다.


셋째, 설명 생성 능력이다. 단순한 수치 데이터를 넘어, “고강도 활동으로 심박수가 평균 140 이상이었고, 약 15분간 지속되었다”처럼 상황에 맞는 문장을 생성한다.


비전-언어 사전학습 (Vision-Language Pretraining, VLP)


비전-언어 사전학습(VLP)은 멀티모달 인공지능의 발전을 이끌며, 시각 정보와 텍스트를 결합한 표현 학습에 큰 진전을 이뤘다.

VLP는 대규모 이미지-텍스트 데이터셋을 기반으로 강력한 멀티모달 모델을 만들어내며,

  • 제로샷 이미지 분류

  • 이미지 캡셔닝

  • 시각적 질의응답

  • 교차 모달 검색 등에서 높은 성능을 보였다.


주요 기법으로는 다음이 있다:

  • 대조 학습 기반 모델(CLIP 등): 이미지와 텍스트 임베딩을 정렬하고 다른 쌍은 분리함

  • 생성 기반 사전학습(SimVLM 등): 텍스트 프리픽스를 활용한 언어 생성 목표를 학습함

  • 하이브리드 모델(CoCa 등): 대조 + 생성 목표를 동시에 활용해 성능을 강화함


VLP의 성공은 영상, 오디오, 시계열 데이터뿐 아니라 의료 등 특수 도메인에서도 유사한 사전 학습 전략을 확산시키는 계기가 되었다. 본 연구에서는 VLP 전략을 센서 도메인에 확장하고,다양한 멀티모달 아키텍처를 통합한 범용 사전학습 프레임워크를 구현하여 확장 가능한 센서-언어 모델링을 가능하게 하였다.


구글은 이 모델들이 더 많은 데이터를 학습할수록 성능이 지속적으로 향상된다는 점도 강조했다. 또한 “앞으로는 신진대사 건강, 수면 분석 등 새로운 분야로 사전 학습 데이터를 확장할 계획이며, 소비자 건강 기기의 복잡한 현실을 더 잘 다루는 데 도움이 될 것”이라고 덧붙였다.



SensorLM이 열어갈 미래


이 기술이 갖는 잠재력은 단순히 사용자 경험을 개선하는 데 그치지 않는다. 디지털 헬스케어 전반의 패러다임을 바꿀 수 있는 전환점이 될 수 있다. 예컨대, 개인 맞춤형 헬스 코치처럼 웨어러블 기기가 상황을 분석해 사용자에게 설명하고 조언하는 형태로 발전할 수 있다. 의료 현장에서는 환자의 생체 반응을 더 정밀하게 해석하고, 임상 모니터링 도구로 활용할 수 있다.


구글은 앞으로 이 기술을 수면 분석, 신진대사 건강 등 다양한 영역으로 확장할 계획이다. 웨어러블 기기는 단순한 모니터링 기기를 넘어, 행동을 이해하고 설명하는 동반자로 진화할 가능성이 커지고 있다.


SensorLM은 웨어러블 기기가 단순히 ‘기록하는 기계’에서 ‘이해하는 기계’로 발전하고 있다는 신호다. 사용자의 맥락을 읽고, 반응을 해석하며, 자연어로 설명하는 기능은 웨어러블의 가능성을 한 차원 끌어올린다. 단순한 수치가 아닌 이해 가능한 언어로 건강을 말해주는 기술, 그것이 SensorLM이 향하고 있는 미래다.



더 커지는 흐름


Fitbit과 Pixel Watch를 모두 보유한 구글은 AI를 헬스케어 웨어러블에 적용하는 데 지속적인 관심을 보여 왔다. 올해 초, 구글은 2024년 'Made by Google' 행사에서 처음 발표한 Pixel Watch 3의 기능인 심박 상실 감지(Loss of Pulse Detection) 기능에 대해 FDA 승인을 획득했다.


이 기능은 적외선 및 적색광 센서, 그리고 움직임 감지 센서를 활용해 심박 정지를 감지한다. 인공지능 알고리즘은 이 상황을 판단하고 카운트다운을 시작하며, 사용자가 반응하지 않을 경우 응급 서비스에 자동 연락하고 사용자 상태와 위치 정보를 전송한다.


한편, 구글은 삼성과도 장기적인 협력 관계를 유지하고 있다. 삼성은 이달 초 ‘갤럭시 언팩’ 행사에서 최신 Galaxy Watch8 시리즈를 발표하며 새로운 건강 기능들을 소개했다.

삼성의 이번 신제품에는 수면 무호흡증 탐지, 수면 습관 가이드, 혈관 스트레스 모니터링, 세계 최초의 스마트워치용 항산화 지수(Antioxidant Index) 기능이 포함됐다.


コメント


© 2021 Copyright by Healthcare Innovator. All Rights Reserved

bottom of page