티스토리 뷰

목차



    반응형

    Open AI에서 새로운 동영상 모델 sara를 발표하였습니다. 아마도 기술의 점프가 있다면 지금일수도 있습니다. 영상의 혁명이라고 할만한 소개영상을 공개했는데요. Chat GPT를 통해서 AI의 혁명을 가지고 온 Open AI가 어떤 마법같은 모델을 보여줄지 흥미진진합니다. 

    open ai의 sora 화면

     

    Open AI는 오늘 텍스트 영상 모델인 소라(Sora)를 공개했습니다. 소라는 최대 1분 길이의 영상을 생성할 수 있으며 사용자 지시를 정확하게 반영하면서 시각적 질감을 유지합니다.

    소라는 실제 세계 이해 및 시뮬레이션 능력을 갖춘 모델 개발을 위한 토대 역할을 하며, 이는 인공지능 연구에서 중요한 발전 단계가 될 것으로 기대됩니다.

    소라의 핵심 기술

    • 확산 모델: 소라는 정적 잡음 이미지에서 시작하여 여러 단계에 걸쳐 잡음을 제거하면서 점차 영상을 생성합니다.
    • 전체 영상 또는 영상 확장: 소라는 전체 영상을 한 번에 생성하거나 생성된 영상을 확장하여 길게 만들 수 있습니다.
    • 트랜스포머 아키텍처: 텍스트 생성 모델 GPT와 유사하게 소라는 우수한 확장 성능을 제공하는 트랜스포머 아키텍처를 사용합니다.
    • 패치 기반 표현: 소라는 영상과 이미지를 작은 데이터 단위인 패치 컬렉션으로 표현합니다. 이는 GPT에서 토큰과 유사한 역할을 합니다. 데이터 표현 방식을 통일함으로써 이전보다 더 다양한 지속 시간, 해상도 및 종횡비의 시각 데이터로 확산 트랜스포머를 학습할 수 있습니다.
    • DALL-E 3 기술 활용: 소라는 DALL-E 3의 재캡션 기술을 사용하여 시각적 학습 데이터에 대한 매우 설명적인 캡션을 생성합니다. 결과적으로 모델은 사용자의 텍스트 지시를 생성된 영상에서 더욱 정확하게 반영할 수 있습니다.
    • 정지 이미지 및 기존 영상 활용: 소라는 텍스트 지시 외에도 기존 정지 이미지를 가져와 정확하고 세밀하게 애니메이션화된 영상을 생성할 수 있습니다. 또한 기존 영상을 확장하거나 누락된 프레임을 채울 수도 있습니다.

    소라의 한계 및 안전성

    현재 소라는 다음과 같은 한계를 가지고 있습니다.

    • 복잡한 장면의 물리적 현상 정확한 시뮬레이션
    • 특정 인과 관계 이해 부족 (예: 쿠키를 한 입 먹었는데 쿠키에 깨물린 자국이 없는 경우)
    • 공간적 세부 사항 혼동 (예: 좌우 혼동)
    • 시간에 따라 발생하는 이벤트 (예: 특정 카메라 이동 경로 추적)에 대한 정확한 설명 부족

    오픈에이는 소라를 안전하게 배포하기 위해 다음과 같은 노력을 하고 있습니다.

    • 적대적 테스터(red teamer) 참여: 잘못된 정보, 악용 콘텐츠, 편향 등의 영역 전문가들이 모델을 테스트합니다.
    • 오탐지 도구 개발: 소라가 생성한 영상인지 여부를 판별하는 감지 분류기를 포함합니다.
    • C2PA 메타데이터 활용: 향후 오픈에이 제품에 배포 시 C2PA 메타데이터 포함 예정
    • DALL-E 3 안전 방법 활용: 텍스트 분류기를 통해 악용적인 텍스트 프롬프트 차단 (극심한 폭력, 성적 콘텐츠, 증오 이미지, 유명인 초상권 위배, 타인 지식재산 등 요청)
    • 이미지 분류기를 통해 생성된 모든 영상 프레임 검토 및 사용 정책 위배 여부 확인
    • 정책입안자, 교육자, 예술가들과 협력하여 우려 사항 파악 및 긍정적인 활용 사례 발굴

    안전을 위한 광범위한 연구 및 테스트에도 불구하고, 소라가 어떤 유익한 방식으로 사용되거나 악용될지 완전히 예측할 수는 없습니다. 따라서 실제 사용을 통한 학습이 점차 안전한 인공지능 시스템을 만들고 출시하는 데 중요한 요소라고 판단합니다.

     

    https://openai.com/sora

    반응형