인공 지능

InstructIR: 사람의 지시에 따른 고품질 이미지 복원

게재

4 주 전

2024 년 4 월 2 일

이미지는 많은 내용을 전달할 수 있지만 모션 블러, 안개, 노이즈, 낮은 동적 범위와 같은 다양한 문제로 인해 손상될 수도 있습니다. 일반적으로 낮은 수준의 컴퓨터 비전 성능 저하라고 하는 이러한 문제는 열이나 비와 같은 어려운 환경 조건이나 카메라 자체의 한계로 인해 발생할 수 있습니다. 이미지 복원은 컴퓨터 비전의 핵심 과제를 나타내며, 이러한 품질 저하가 있는 이미지에서 고품질의 깨끗한 이미지를 복구하려고 노력합니다. 특정 이미지를 복원하기 위한 솔루션이 여러 개 있을 수 있으므로 이미지 복원은 복잡합니다. 일부 접근 방식은 노이즈 감소, 흐릿함 또는 안개 제거와 같은 특정 성능 저하를 목표로 합니다.

이러한 방법은 특정 문제에 대해 좋은 결과를 얻을 수 있지만 다양한 유형의 성능 저하를 일반화하는 데 어려움을 겪는 경우가 많습니다. 많은 프레임워크는 광범위한 이미지 복원 작업을 위해 일반 신경망을 사용하지만 이러한 네트워크는 각각 별도로 훈련됩니다. 각 유형의 저하에 대해 서로 다른 모델이 필요하기 때문에 이 접근 방식은 계산 비용과 시간이 많이 걸리므로 최근 개발에서는 올인원 복원 모델에 중점을 두고 있습니다. 이러한 모델은 여러 수준 및 유형의 성능 저하를 해결하는 단일 딥 블라인드 복원 모델을 활용하며 종종 성능 향상을 위해 성능 저하 관련 프롬프트 또는 안내 벡터를 사용합니다. All-In-One 모델은 일반적으로 유망한 결과를 보여주지만 여전히 반대의 문제로 인해 어려움을 겪고 있습니다.

InstructIR은 업계 최초의 획기적인 접근 방식을 나타냅니다. 이미지 복원 사람이 작성한 지침을 통해 복원 모델을 안내하도록 설계된 프레임워크입니다. 다양한 열화 유형을 고려하여 자연어 프롬프트를 처리하여 열화된 이미지에서 고품질 이미지를 복구할 수 있습니다. InstructIR은 저조도 이미지 제거, 노이즈 제거, 안개 제거, 흐림 제거 및 향상을 포함한 광범위한 이미지 복원 작업에 대한 성능의 새로운 표준을 설정합니다.

이 기사에서는 InstructIR 프레임워크를 심층적으로 다루는 것을 목표로 하며 프레임워크의 메커니즘, 방법론, 아키텍처를 살펴보고 최신 이미지 및 비디오 생성 프레임워크와 비교합니다. 그럼 시작해 보겠습니다.

InstructIR: 고품질 이미지 복원

이미지 복원은 품질 저하가 있는 이미지에서 고품질의 깨끗한 이미지를 복구하는 것을 목표로 하기 때문에 컴퓨터 비전의 근본적인 문제입니다. 낮은 수준의 컴퓨터 비전에서 저하(Degradation)는 모션 블러, 헤이즈, 노이즈, 낮은 동적 범위 등과 같은 이미지 내에서 관찰되는 불쾌한 효과를 나타내는 데 사용되는 용어입니다. 이미지 복원이 복잡한 역 과제인 이유는 이미지를 복원하는 데 여러 가지 솔루션이 있을 수 있기 때문입니다. 일부 프레임워크는 인스턴스 노이즈 감소 또는 이미지 노이즈 제거와 같은 특정 성능 저하에 중점을 두는 반면, 다른 프레임워크는 흐림 제거, 흐림 제거, 안개 제거 또는 안개 제거에 더 중점을 둘 수도 있습니다.

최근 딥러닝 방법은 기존 이미지 복원 방법에 비해 더 강력하고 일관된 성능을 보여주었습니다. 이러한 딥러닝 이미지 복원 모델은 Transformers와 Convolutional Neural Networks 기반의 신경망 사용을 제안합니다. 이러한 모델은 다양한 이미지 복원 작업을 위해 독립적으로 훈련될 수 있으며 로컬 및 글로벌 기능 상호 작용을 캡처하고 향상시켜 만족스럽고 일관된 성능을 제공하는 기능도 보유하고 있습니다. 이러한 방법 중 일부는 특정 유형의 성능 저하에 적절하게 작동할 수 있지만 일반적으로 다양한 유형의 성능 저하에 대해서는 잘 추정되지 않습니다. 또한 많은 기존 프레임워크가 다양한 이미지 복원 작업에 동일한 신경망을 사용하지만 모든 신경망 공식은 별도로 훈련됩니다. 따라서 생각할 수 있는 모든 저하에 대해 별도의 신경 모델을 사용하는 것은 실행 불가능하고 시간 소모적이라는 것이 분명합니다. 이것이 바로 최근 이미지 복원 프레임워크가 올인원 복원 프록시에 집중한 이유입니다.

올인원, 다중 저하 또는 다중 작업 이미지 복원 모델은 각 저하에 대해 독립적으로 모델을 훈련할 필요 없이 이미지의 여러 유형 및 수준 저하를 복원할 수 있기 때문에 컴퓨터 비전 분야에서 인기를 얻고 있습니다. . 올인원 이미지 복원 모델은 단일 딥 블라인드 이미지 복원 모델을 사용하여 다양한 유형과 수준의 이미지 저하를 해결합니다. 다양한 올인원 모델은 시각 장애인 모델이 저하된 이미지를 복원하도록 안내하는 다양한 접근 방식을 구현합니다. 예를 들어 저하를 분류하는 보조 모델이나 다차원 안내 벡터 또는 모델이 여러 유형의 저하를 복원하는 데 도움이 되는 프롬프트를 구현합니다. 영상.

즉, 지난 몇 년 동안 텍스트를 이미지로 생성하고 텍스트 기반 이미지 편집 작업을 위해 여러 프레임워크에 의해 구현되었기 때문에 텍스트 기반 이미지 조작에 도달했습니다. 이러한 모델은 종종 텍스트 프롬프트를 활용하여 작업이나 이미지를 설명합니다. 확산 기반 모델 해당 이미지를 생성합니다. InstructIR 프레임워크의 주요 영감은 입력 이미지의 텍스트 레이블, 설명 또는 캡션 대신 수행할 작업을 모델에 지시하는 사용자 지침을 사용하여 모델이 이미지를 편집할 수 있도록 하는 InstructPix2Pix 프레임워크입니다. 결과적으로 사용자는 샘플 이미지나 추가 이미지 설명을 제공할 필요 없이 자연스러운 텍스트를 사용하여 수행할 작업을 모델에 지시할 수 있습니다.

이러한 기본을 바탕으로 구축된 InstructIR 프레임워크는 인간이 작성한 지침을 사용하여 이미지 복원을 달성하고 역 문제를 해결하는 최초의 컴퓨터 비전 모델입니다. 자연어 프롬프트의 경우 InstructIR 모델은 저하된 이미지로부터 고품질 이미지를 복구할 수 있으며 여러 저하 유형도 고려할 수 있습니다. InstructIR 프레임워크는 이미지 제거, 노이즈 제거, 안개 제거, 흐림 제거 및 저조도 이미지 향상을 포함한 다양한 이미지 복원 작업에서 최첨단 성능을 제공할 수 있습니다. 학습된 안내 벡터 또는 프롬프트 임베딩을 사용하여 이미지 복원을 달성하는 기존 작업과 달리 InstructIR 프레임워크는 텍스트 형식의 원시 사용자 프롬프트를 사용합니다. InstructIR 프레임워크는 사람이 작성한 지침을 사용하여 이미지 복원을 일반화할 수 있으며 InstructIR에서 구현한 단일 올인원 모델은 이전 모델보다 더 많은 복원 작업을 포괄합니다. 다음 그림은 InstructIR 프레임워크의 다양한 복원 샘플을 보여줍니다.

InstructIR : 방법 및 아키텍처

InstructIR 프레임워크의 핵심은 텍스트 인코더와 이미지 모델로 구성됩니다. 모델은 U-Net 아키텍처를 이미지 모델로 따르는 효율적인 이미지 복원 모델인 NAFNet 프레임워크를 사용합니다. 또한 모델은 단일 모델을 사용하여 여러 작업을 성공적으로 학습하기 위해 작업 라우팅 기술을 구현합니다. 다음 그림은 InstructIR 프레임워크에 대한 교육 및 평가 접근 방식을 보여줍니다.

InstructPix2Pix 모델에서 영감을 얻은 InstructIR 프레임워크는 사용자가 추가 정보를 제공할 필요가 없기 때문에 인간이 작성한 지침을 제어 메커니즘으로 채택합니다. 이러한 지침은 사용자가 이미지의 품질 저하의 정확한 위치와 유형을 지적할 수 있도록 표현적이고 명확한 상호 작용 방법을 제공합니다. 또한 고정된 성능 저하 특정 프롬프트 대신 사용자 프롬프트를 사용하면 필요한 도메인 전문 지식이 부족한 사용자도 사용할 수 있으므로 모델의 유용성과 적용이 향상됩니다. InstructIR 프레임워크에 다양한 프롬프트를 이해할 수 있는 기능을 갖추기 위해 이 모델은 대규모 언어 모델인 GPT-4를 사용하여 다양한 요청을 생성하고 필터링 프로세스 후에 모호하고 불분명한 프롬프트를 제거합니다.

텍스트 인코더

텍스트 인코더는 언어 모델에서 사용자 프롬프트를 텍스트 임베딩 또는 고정 크기 벡터 표현에 매핑하는 데 사용됩니다. 전통적으로 텍스트 인코더는 클립 모델 CLIP 프레임워크는 시각적 프롬프트에서 탁월하기 때문에 텍스트 기반 이미지 생성과 사용자 프롬프트를 인코딩하기 위한 텍스트 기반 이미지 조작 모델에 필수적인 구성 요소입니다. 그러나 대부분의 경우 사용자는 시각적 콘텐츠가 거의 또는 전혀 없는 성능 저하 기능을 요청하므로 효율성을 크게 저하시키므로 이러한 작업에 대형 CLIP 인코더를 쓸모 없게 만듭니다. 이 문제를 해결하기 위해 InstructIR 프레임워크는 의미 있는 임베딩 공간에서 문장을 인코딩하도록 훈련된 텍스트 기반 문장 인코더를 선택합니다. 문장 인코더는 수백만 개의 예에 대해 사전 훈련되어 있지만 기존 CLIP 기반 텍스트 인코더에 비해 컴팩트하고 효율적이며 다양한 사용자 프롬프트의 의미를 인코딩하는 기능을 갖추고 있습니다.

텍스트 안내

InstructIR 프레임워크의 주요 측면은 이미지 모델에 대한 제어 메커니즘으로 인코딩된 명령을 구현하는 것입니다. 이를 기반으로 하고 많은 작업 학습을 위한 작업 라우팅에서 영감을 받은 InstructIR 프레임워크는 모델 내에서 작업별 변환을 가능하게 하는 Instruction Construction Block(ICB)을 제안합니다. 기존 작업 라우팅은 작업별 바이너리 마스크를 채널 기능에 적용합니다. 그러나 InstructIR 프레임워크는 성능 저하를 알지 못하므로 이 기술은 직접 구현되지 않습니다. 또한, 이미지 특징 및 인코딩된 명령의 경우 InstructIR 프레임워크는 작업 라우팅을 적용하고 Sigmoid 함수를 사용하여 활성화된 선형 레이어를 사용하여 마스크를 생성하여 텍스트 임베딩에 따라 가중치 세트를 생성하여 당 c차원을 얻습니다. 채널 바이너리 마스크. 이 모델은 NAFBlock을 사용하여 조절된 기능을 더욱 향상시키고 NAFBlock 및 Instruction Conditioned Block을 사용하여 인코더 블록과 디코더 블록 모두에서 기능을 조절합니다.

InstructIR 프레임워크는 신경망 필터를 명시적으로 조정하지 않지만 마스크를 사용하면 모델이 이미지 명령 및 정보를 기반으로 가장 관련성이 높은 채널을 선택할 수 있습니다.

InstructIR: 구현 및 결과

InstructIR 모델은 엔드투엔드 학습이 가능하며 이미지 모델에는 사전 학습이 필요하지 않습니다. 훈련이 필요한 것은 텍스트 임베딩 투영 및 분류 헤드뿐입니다. 텍스트 인코더는 일반 목적의 문장 인코딩을 위해 대량의 지도 및 비지도 데이터에 대해 사전 훈련된 BERT와 유사한 인코더인 BGE 인코더를 사용하여 초기화됩니다. InstructIR 프레임워크는 NAFNet 모델을 이미지 모델로 사용하며 NAFNet의 아키텍처는 각 레벨에서 다양한 블록 수를 갖는 4레벨 인코더 디코더로 구성됩니다. 이 모델은 또한 인코더와 디코더 사이에 4개의 중간 블록을 추가하여 기능을 더욱 향상시킵니다. 또한 건너뛰기 연결을 연결하는 대신 디코더는 추가를 구현하고 InstructIR 모델은 인코더와 디코더에서만 작업 라우팅을 위해 ICB 또는 명령 조건 블록만 구현합니다. 계속해서 InstructIR 모델은 복원된 이미지와 실제 깨끗한 이미지 간의 손실을 사용하여 최적화되고 교차 엔트로피 손실은 텍스트 인코더의 의도 분류 헤드에 사용됩니다. InstructIR 모델은 배치 크기가 32이고 거의 5에포크에 대해 학습률이 4e-500인 AdamW 최적화 프로그램을 사용하고 코사인 어닐링 학습률 감소도 구현합니다. InstructIR 프레임워크의 이미지 모델은 16만 개의 매개변수로 구성되고 학습된 텍스트 투영 매개변수는 100만 개에 불과하므로 InstructIR 프레임워크는 표준 GPU에서 쉽게 훈련될 수 있으므로 계산 비용이 절감되고 적용성이 높아집니다.

다중 저하 결과

여러 성능 저하 및 다중 작업 복원을 위해 InstructIR 프레임워크는 두 가지 초기 설정을 정의합니다.

안개 제거, 소음 제거, 배수와 같은 성능 저하 문제를 해결하기 위한 3가지 성능 저하 모델용 XNUMXD입니다.
5가지 성능 저하 모델용 XNUMXD는 이미지 노이즈 제거, 저조도 향상, 안개 제거, 노이즈 제거, 배수 제거 등의 성능 저하 문제를 해결합니다.

5D 모델의 성능은 다음 표에 나타나며, 이를 최신 영상 복원 및 올인원 모델과 비교합니다.

관찰할 수 있듯이 간단한 이미지 모델과 16만 개의 매개변수를 갖춘 InstructIR 프레임워크는 지침 기반 지침 덕분에 3가지 서로 다른 이미지 복원 작업을 성공적으로 처리하고 경쟁력 있는 결과를 제공할 수 있습니다. 다음 표는 XNUMXD 모델에서 프레임워크의 성능을 보여주며, 그 결과는 위의 결과와 유사합니다.

InstructIR 프레임워크의 주요 특징은 명령 기반 이미지 복원이며, 다음 그림은 주어진 작업에 대한 광범위한 명령을 이해하는 InstructIR 모델의 놀라운 능력을 보여줍니다. 또한 적대적 지시의 경우 InstructIR 모델은 강제되지 않은 ID를 수행합니다.

최종 생각

이미지 복원은 품질 저하가 있는 이미지에서 고품질의 깨끗한 이미지를 복구하는 것을 목표로 하기 때문에 컴퓨터 비전의 근본적인 문제입니다. 낮은 수준의 컴퓨터 비전에서 저하(Degradation)는 모션 블러, 헤이즈, 노이즈, 낮은 동적 범위 등과 같은 이미지 내에서 관찰되는 불쾌한 효과를 나타내는 데 사용되는 용어입니다. 이 기사에서는 사람이 작성한 지침을 사용하여 이미지 복원 모델을 안내하는 것을 목표로 하는 세계 최초의 이미지 복원 프레임워크인 InstructIR에 대해 설명했습니다. 자연어 프롬프트의 경우 InstructIR 모델은 저하된 이미지로부터 고품질 이미지를 복구할 수 있으며 여러 저하 유형도 고려할 수 있습니다. InstructIR 프레임워크는 이미지 제거, 노이즈 제거, 안개 제거, 흐림 제거 및 저조도 이미지 향상을 포함한 다양한 이미지 복원 작업에서 최첨단 성능을 제공할 수 있습니다.