텍스트로부터 영상을 생성하는 인공지능 기술 동향과 물류 및 제조 분야에 대한 응용 가능성

작성자 : 백승렬 울산과학기술원 인공지능대학원 교수 2023.12.21 게시

서론

시각처리 분야에서 텍스트 (text)로부터 영상을 생성해내는 알고리즘이 등장하여 디자이너들의 생계를 위협하고 있다. 본 고에서는 해당 알고리즘의 기술 동향과 물류 분야에서의 활용 가능성에 대하여 살펴보고자 한다.

GAN 알고리즘

텍스트로부터 영상을 생성하는 알고리즘은 2014년 GAN (generative adversarial network) [1]로 대표되는 심층 생성 모델 (deep generative model)의 등장으로부터 그 잠재력을 인정받기 시작하였다. GAN 알고리즘을 통해, 시각처리 연구자들은 보다 실제에 가까운 퀄리티의 영상을 생성할 수 있었으며 다양한 분야에서 GAN을 활용한 영상 생성이 시도되었다. 하지만 GAN 기반의 알고리즘은 mode collapse라는 문제점을 가지고 있었으며, 이 현상은 GAN 모델의 학습을 불완전하게 하여 좋은 퀄리티의 영상을 얻을 수 있음에도 불구하고, GAN 모델을 지속적으로 업데이트하는 노력을 기울이게 하였다. 최근 Diffusion model [2] 이 등장하여, 영상을 생성하는 작업에서GAN을 대체할 수 있는 방법론으로 급부상하고 있다. Diffusion model은 mode collapse 현상이 없이 학습이 안정적이며 GAN보다 생성된 영상의 퀄리티가 고품질이다. 속도가 느리고 리소스가 많이 필요하다는 단점이 있지만 지속적인 연구를 통해 속도를 향상시키고 적은 리소스로도 고품질의 영상을 생성하는 연구 결과들도 얻어지고 있다.

DALL-E 알고리즘

OpenAI 사의 DALL-E는 2021년 이러한 트렌드 속에 등장하였으며, 트랜스포머 (Transformer) 모델에 기반한 dVAE 구조의 딥러닝 학습을 통해 텍스트로부터 영상을 생성하는 웹 기반의 서비스를 시작하였다. 그림 1은 DALL-E를 발표한 [1] 논문에 제공된 Text로부터 영상을 생성한 결과 그림의 예시를 보여준다. 각 Column은 서로 다른 텍스트 프롬프트들로부터 생성된 영상들을 보여주며, Ours가 DALL-E로부터 생성된 알고리즘이고 DF-GAN과 DM-GAN은 다른 GAN 기반의 알고리즘을 활용한 생성 영상의 예시를 보여준다. DALL-E가 보다 텍스트 프롬프트에 맞는 영상들을 생성하고 있음을 보여준다.

이어 OpenAI에서는 2022년에 DALL-E 2를 발표하였으며 Diffusion model을 활용하지 않은 DALL-E에 비해, 앞서 언급했던 Diffusion model 기반의 기법을 추가적으로 활용하여 보다 고품질의 영상을 text로부터 생성하도록 하였다. 그림2는 DALLE-E 2로 생성된 영상의 예시를 DALL-E와 다른 알고리즘과의 비교를 통해 보여주고 있다. DALL-E 2는 unCLIP이라고도 불리어 그림에서는 unCLIP이라고 적힌 결과들이 DALL-E 2의 결과이다. DALL-E 2가 DALL-E 및 다른 알고리즘들에 비하여 보다 텍스트 프롬프트에 맞는 영상을 생상하고 있음을 관찰할 수 있다.

이어 OpenAI는 2023년 DALL-E 3를 발표하였는데, 이 모델은 최신 언어 모델로 텍스트를 해석하게 함으로서 긴 텍스트가 주어질 경우 그 중 일부 텍스트에 대한 영상으로의 반영이 이루어지지 못하는 프롬프트 팔로윙 (Prompt Following) 현상을 해결하고자 하였다. 그림3은 DALL-E 3의 생성 결과 영상인데, 보다 긴 텍스트 프롬프트에 대해서도 잘 반영하여 영상을 생성하고 있음을 확인할 수 있다.

그림1. DALL-E 의 결과 예시

[3] 논문

그림2. DALL-E 2의 결과 예시

[4] 논문

그림3. DALL-E 3의 결과

[5] 논문

물류 및 제조 분야에서의 응용 가능성

이러한 최신 기술의 발전은 추후 물류 및 제조 분야에 새로운 가능성을 가져올 것이라 예상된다. 예를 들어, 그림4는 DALL-E를 활용하여 “dangerous accidents in manufacturing factory” 라는 텍스트 프롬프트에 대해 생성된 영상 예시이다. 이러한 그림을 보고 공장 내 발생할 수 있는 위험한 사고에 대해 미리 예측해볼 수 있을 것이다. 생성된 그림에서 공장 내에 연기가 나거나 화재가 나는 등의 위험 상황이 그려져 있다. 인공지능이 공장에서 발생할 수 있는 위험 상황에 대해 어느 정도의 이해를 하고 있는 것으로 짐작할 수 있다.

그림5는 DALL-E를 활용하여 “drone delivery accidents”라는 텍스트 프롬프트에 대해 생성된 영상의 예시이다. 드론에서 연기가 나거나, 드론이 배달중인 짐을 놓치거나 하는 영상이 생성되었다. 인공지능 알고리즘이 실제 물류에 드론이 도입되는 상황을 이해하고 그 상황에서 발생할 수 있는 위험 상황까지 그림으로 표현한 예시이다.

본 고를 통해 텍스트 입력으로 영상을 생성하는 알고리즘의 최신 기술 동향을 알아보았고, 해당 알고리즘이 물류 및 제조 분야의 키워드에 대해서도 어느 정도의 이해가 있음을 살펴보았다. 아직은 매우 초기 단계의 알고리즘이기에 어떻게 실제 분야에 적용될지는 많은 고민이 필요할 것으로 사료되나, 향후 본 알고리즘이 보다 더 적극적으로 물류 및 제조 분야에서 활용되길 기대해본다.

그림4. "dangerous accidents in manufacturing factory" 프롬프트에 대한 영상 생성 결과

DALL-E 데모 사이트

그림5. "drone delivery accidents"에 대한 영상 생성 결과

DALL-E 데모 사이트

핵심단어	생성 영상 예시 DIFFUSION MODEL 물류 제조 분야 위험 상황 텍스트 영상 생성
자료출처	[1] Generative Adversarial Networks (NeurIPS 2014) [2] Diffusion Models Beat GANs on Image Synthesis (NeurIPS 2021) [3] Zero-shot text-to-image generation (PMLR 2021) [4] Hierarchical Text-Conditional Image Generation with CLIP Latents (ArXiv 2022) [5] Improving Image Generation with Better Captions (ArXiv 2023)
첨부파일

집필진