논문 제목: For a semiotic AI: Bridging computer vision and visual semiotics for computational observation of large scale facial image archives
소셜 미디어의 급속한 발전으로 우리는 전례 없는 양의 이미지를 생산하고 소비하는 디지털 세계에 살고 있습니다. 이러한 변화는 인간의 얼굴과 신체 이미지가 갖는 인지적, 감정적, 실용적 가치를 근본적으로 변화시키고 있습니다. 그러나 디지털 인문학 연구자들은 이러한 현상을 대규모로 연구할 수 있는 도구가 부족한 실정입니다. 이러한 배경에서 FRESCO(Face Representation in E-Societies through Computational Observation)가 탄생했습니다. FRESCO는 소셜 미디어 플랫폼의 이미지가 갖는 사회문화적 함의를 대규모로 탐구할 수 있는 혁신적인 프레임워크입니다. 이 글에서는 FRESCO의 핵심 개념, 구현 방식, 그리고 실험 결과를 살펴보며, 이 도구가 어떻게 시각적 기호학과 컴퓨터 비전을 결합하여 새로운 연구 가능성을 열어주는지 탐구해보고자 합니다.
초록 (Abstract): 컴퓨터 비전과 시각적 기호학의 융합
소셜 네트워크는 인간의 얼굴과 신체 이미지의 인지적, 감정적, 실용적 가치가 변화하고 있는 디지털 세계를 만들어내고 있습니다. 그러나 디지털 인문학 연구자들은 이러한 현상을 대규모로 연구하기 위한 도구가 부족한 실정입니다. 본 연구는 FRESCO(Face Representation in E-Societies through Computational Observation)를 소개합니다. 이는 소셜 미디어 플랫폼의 이미지가 갖는 사회문화적 함의를 대규모로 탐구하기 위해 설계된 프레임워크입니다. FRESCO는 최첨단 컴퓨터 비전 기술을 사용하여 이미지를 수치적, 범주적 변수로 분해하며, 이는 시각적 기호학의 원리와 일치합니다. 이 프레임워크는 이미지를 세 가지 수준에서 분석합니다: 선과 색상 같은 기본적인 시각적 특징을 포함하는 플라스틱 수준; 특정 개체나 개념을 표현하는 형상적 수준; 그리고 특히 관찰자의 시점 구성에 초점을 맞추는 발화 수준입니다. 이러한 수준들은 이미지 내의 더 깊은 서사 층위를 파악하기 위해 분석됩니다. 실험적 검증을 통해 FRESCO의 신뢰성과 유용성이 확인되었으며, 두 개의 공개 데이터셋에서 그 일관성과 정확성을 평가했습니다. 이어서 우리는 FRESCO 점수를 소개합니다. 이는 프레임워크의 출력에서 도출된 지표로, 이미지 내용의 유사성을 측정하는 신뢰할 수 있는 척도 역할을 합니다.
소개: 디지털 시대의 시각적 기호학
디지털 소셜 네트워크의 발달로 인류는 전례 없는 양의 이미지를 생산하고 소비하고 있습니다. 평균적인 소셜 미디어 사용자는 하루에 2시간 이상을 콘텐츠 생성과 스크롤링에 할애하며, 그 대부분은 시각적 형태입니다. Facebook, Instagram, Snapchat, Tinder 등의 플랫폼들은 인간의 얼굴과 신체 이미지가 갖는 인지적, 감정적, 실용적 가치를 변화시키는 새로운 디지털 세계를 만들어내고 있습니다.
그러나 디지털 인문학 연구자들은 이러한 현상을 대규모로 연구하기 위한 도구가 부족한 실정입니다. 텍스트 미디어 분석은 크게 발전했지만, 시각적 미디어 분석은 아직 뒤처져 있습니다. 기존의 플랫폼들은 디지털 인문학의 요구를 충족시키지 못하거나 저수준의 시각적 특징에만 초점을 맞추고 있습니다. FRESCO의 핵심 아이디어는 시각적 기호학의 원리와 최신 컴퓨터 비전 기술을 결합하여, 수백, 수천 장의 이미지를 분석할 수 있는 계산 플랫폼을 개발하는 것입니다. FRESCO는 확립된 이미지 처리 기술과 최신 기초 모델을 활용하여 시각적 기호학 학자들이 관련성이 있다고 여기는 특징들을 이미지에서 추출합니다.
사용된 기술 1: 구조적 시각 기호학의 계산적 구현
FRESCO는 구조적 시각 기호학의 원리를 계산적으로 구현합니다. 이는 크게 세 가지 수준으로 나뉩니다:
- 플라스틱 수준:
- 에이데틱 범주: 형태, 선, 윤곽, 크기, 대칭 등
- 색채 범주: 색상, 밝기, 채도, 질감
- 위상학적 범주: 공간 배치 (위/아래, 좌/우, 중앙/주변, 전경/배경)
- 형상적 수준:
- 주제, 인물, 객체, 장면, 설정
- 움직임, 행동, 감정
- 발화 수준:
- 관찰자의 시점 구성
- 카메라 위치, 시선 방향 등
FRESCO는 이러한 기호학적 개념들을 최신 컴퓨터 비전 기술과 매핑하여 구현합니다. 예를 들어, 객체 탐지, 의미론적 분할, 깊이 추정 등의 기술을 활용하여 위상학적 특징을 추출합니다.
사용된 기술 2: 최첨단 컴퓨터 비전 모델의 통합
FRESCO는 다양한 오픈소스 컴퓨터 비전 모델들을 통합하여 구현됩니다. 주요 모델들은 다음과 같습니다:
- 얼굴 탐지: RetinaFace, 얼굴 메쉬: MediaPipe, 신체 포즈: PifPaf, 머리 포즈: 6DRepNet, 시선 방향: 3DGazeNet
- 감정 추정: EmoNet, 얼굴 속성: FACER, 나이, 성별, 인종 추정: DeepFace, 깊이 추정, 객체 탐지, OCR 등: PRISMER
- 이미지 태깅: RAM++,장면 분류: VGG-Places365
이러한 모델들의 출력을 조합하고 기하학적 특성, 이미지 처리 방법과 결합하여 Section 4.1에서 설명한 정보를 추출합니다.
사용된 기술 3: FRESCO 유사도 점수
FRESCO 점수는 두 이미지의 유사성을 측정하는 새로운 지표입니다. 이는 플라스틱, 형상적, 발화 수준에서 이미지의 내용이 얼마나 유사한지를 추정합니다. 특징 기반 유사도 측정과는 달리, FRESCO 점수는 이미지의 어떤 측면이 가장 다른지 심층적으로 탐색할 수 있게 해 줍니다. FRESCO 점수는 이미지 전체와 관련된 특성(예: 색채 범주, 주제, 장소)과 개별 주체나 객체와 관련된 특성(예: 특정 인물의 특징, 감정, 포즈, 시선)을 모두 고려합니다. 이를 위해 복잡한 매핑 전략과 집계 방법을 사용합니다.
필요한 공식에 대한 설명
FRESCO에서 사용되는 주요 공식 중 하나는 중심성 비율(Centrality Ratio)입니다. 이는 객체나 인물이 이미지의 중앙에 얼마나 가까이 위치하는지를 나타냅니다:
Centrality Ratio = 1 - (Distance from center / Maximum possible distance) 여기서,
Distance from center: 객체 중심과 이미지 중심 사이의 유클리드 거리
Maximum possible distance: 이미지 중심에서 가장 먼 모서리까지의 거리
중심성 비율은 0(완전히 주변부)에서 1(정확히 중앙) 사이의 값을 가집니다. 이 값이 0.5보다 크면 객체가 중앙에 가깝다고 판단할 수 있습니다. 또 다른 중요한 측정은 얼굴/배경 비율입니다: Face/Background Ratio = Largest face area / Total image area
이 비율이 0.3보다 크면 해당 이미지를 초상화로 분류합니다.
결론: 시각적 기호학의 새로운 지평
FRESCO는 구조적 시각 기호학의 원리를 적용하여 대규모 이미지 아카이브 분석을 위한 상세한 계산 프레임워크를 개발했습니다. 이를 통해 기호학자들과 인문사회과학 학자들은 최신 컴퓨터 비전 기술, 특히 대규모 데이터셋에서 사전 훈련된 기초 모델의 힘을 활용할 수 있게 되었습니다. FRESCO는 시각적 기호학 분야에서 양적 방법론의 채택을 더욱 촉진할 것으로 기대됩니다. 또한 컴퓨터 비전 과학자들과 인문학 학자들 간의 학제 간 협력을 강화하는 데 기여할 것입니다. 현재 FRESCO 파이프라인의 기술적 특성에 초점을 맞추고 있지만, 향후 실제 이미지 컬렉션을 대상으로 한 사례 연구를 진행할 계획입니다. 또한 FRESCO를 확장하여 더 많은 특성을 계산하고, 이미지에 없지만 관련된 요소들을 식별하고 연결할 수 있도록 발전시킬 예정입니다. FRESCO는 소셜 미디어 이미지 분석뿐만 아니라 역사적 사진, 광고, 회화 등 다양한 유형의 이미지 아카이브에도 적용될 수 있는 잠재력을 가지고 있습니다. 이를 통해 우리는 디지털 시대의 시각 문화를 더욱 깊이 있게 이해할 수 있을 것입니다.
'논문 정리' 카테고리의 다른 글
[논문]엣지 디바이스를 위한 최적화된 저조도 이미지 향상 기술 (13) | 2024.09.10 |
---|---|
[논문]딥러닝 컴퓨터 비전 시스템에 대한 최신 광학 기반 물리적 적대적 공격 (5) | 2024.09.09 |
[논문]TensorFlow 기반 회전 객체 탐지의 새로운 지평 (3) | 2024.09.09 |
[논문]영화 흥행과 평점 예측: 데이터 마이닝의 힘 (4) | 2024.09.09 |
[논문]예측 분석과 데이터 마이닝을 통한 사기 탐지와 리스크 평가 개선 (9) | 2024.09.09 |