[Paper Review] Contrastive Vision-Language Pre-training with Limited Resources

17.6K subscribers

170 views

About
Share

Published On Sep 29, 2024

발표자 : 서울대학교 산업공학과 DSBA 연구실 석사과정 성시열 ([email protected])

1. 논문 제목 : Contrastive Vision-Language Pre-training with Limited Resources (ECCV 2022)

2. 원문 링크 : https://arxiv.org/abs/2112.09331

3. 인용 수 : 23회 (~2024.09.29)

4. 요약
- 제한된 데이터 자원, 제한된 컴퓨팅 자원에서 효율적인 방식으로 학습하는 CLIP Training Pipeline을 제안
* 공개적으로 접근 가능한 14M의 Academic Dataset을 활용함으로써, 재구현이 가능하도록 함.
* Multi-Source에서 수집된 데이터의 Dataset Bias 문제를 해결하고자, Debias Sampling 기법을 제안함.
* 접근 가능한 데이터셋의 부족한 양을 극복하고자, 데이터셋 증강기법인 Coin Flipping Mixup 기법을 제안함.
* 제한된 컴퓨팅 자원에서 Large Batch Size를 구현하고자, Decoupled Gradient Accumulation 기법을 제안함.
- 위 기법을 모두 적용하여 실험한 결과, 동일 자원 대비 최고 성능을 보였으며, 추가 수집 후 1억 개의 데이터로 학습한 결과, 기존 SOTA 방법론 대비 유사하거나 더 우수한 성능을 보임.

Published On Sep 29, 2024

Share/Embed

Video Link