Study Note

📄 paper

SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions

13 분 소요

대규모 “지시 조정” 언어 모델들(즉, 지시에 응답하도록 미세 조정된 모델들)은 새로운 작업에 대해 제로샷으로 일반화하는 뛰어난 능력을 보여주었다. 그럼에도 불구하고 종종 양, 다양성, 그리고 창의성이 제한된 인간이 작성한 지시 데이터에 크게 의존한다. 이러한 상황은 조정된 모델의...

OpenAI Sora: Video generation models as world simulators

5 분 소요

본 기술 문서는 비디오 데이터에 대한 대규모 생성 모델 학습을 탐구한다. 구체적으로 다양한 기간, 해상도 및 종횡비의 비디오 및 이미지에 대해 텍스트 조건부 확산 모델을 공동으로 학습한다. 본 연구는 비디오 및 이미지 잠재 코드의 시공간 패치에서 작동하는 변환기 아키텍처를 활용한다...

BEiT-3: Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

5 분 소요

언어, 비전, 그리고 멀티모달 사전학습의 큰 융합이 등장하고 있다. 본 논문에서는 비전 및 비전-언어 작업 모두에서 최고의 전이 성능을 달성하는 범용 멀티모달 기반 모델 BEiT-3를 소개한다. 구체적으로 백본 아키텍처, 사전학습 작업, 그리고 모델 스케일링 업의 세 가지 측면에서...

LoRA: Low-Rank Adaptation of Large Language Models

15 분 소요

자연어 처리의 중요한 패러다임에는 일반 도메인 데이터에서 대규모 사전 학습과 특정 작업이나 도메인에의 적응이 포함된다. 더 큰 모델을 사전 학습할수록 모든 모델 매개변수를 재학습하는 전체 미세 조정은 실행하기 어려워진다. GPT-3 175B를 예로 들면, 175B 매개변수 각각을 ...

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

15 분 소요

대규모 사전 학습된 언어 모델은 그들의 매개 변수에 사실적 지식을 저장하고, 다운스트림 NLP 작업에 미세 조정될 때 최첨단 결과를 달성하는 것으로 나타난다. 그러나 지식 집약적 작업에서 정확한 지식 접근 및 조작 능력이 여전히 제한되어 있어서 이러한 작업에서의 성능은 작업 특화 ...

ReAct: Synergizing Reasoning and Acting in Language Models

11 분 소요

대규모 언어 모델(LLMs)은 언어 이해와 상호작용적 의사결정 작업 전반에 걸쳐 인상적인 능력을 보여왔지만, 추론(예: 사고의 연쇄 유도)과 행동(예: 행동 계획 생성) 능력은 주로 별개의 주제로 연구되어 왔다. 본 논문에서는 추론 흔적과 작업 특화 행동을 교차하여 생성함으로써 둘...

CoT: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

10 분 소요

생각의 연쇄(chain of thought)-중간 추론 단계들의 일련의 시리즈—를 생성하는 방법이 대규모 언어 모델이 복잡한 추론을 수행하는 능력을 크게 향상시키는 방법을 탐구한다. 특히, 본 논문은 충분히 큰 언어 모델에서 이러한 추론 능력이 생각의 연쇄 유도(chain-of-t...

X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

15 분 소요

비전 언어 사전 학습은 대량의 데이터로부터 비전과 언어 간의 정렬을 학습하는 것을 목표로 한다. 기존의 대부분의 방법들은 이미지-텍스트 정렬만을 학습하지만, 일부 다른 방법들은 사전 학습된 객체 감지기를 활용하여 객체 수준에서 비전 언어 정렬을 활용한다. 본 논문에서는 다중 정밀도...

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

13 분 소요

대규모 언어 모델(LLMs)의 기하급수적 성장은 멀티모달 AGI 시스템에 대한 수많은 가능성을 열어주었다. 그러나 비전 및 비전-언어 기반 모델의 발전, 멀티모달 AGI의 중요한 요소로서, LLMs의 발전 속도를 따라가지 못하고 있다. 이 연구에서는 대규모 비전-언어 기반 모델(I...

ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

13 분 소요

사전 학습된 표현은 많은 NLP 및 인지 작업에 있어 중요해지고 있다. NLP에서의 표현 학습은 인간의 주석 없이 원시 텍스트에서 학습으로 전환되었지만, 시각 및 시각-언어 표현은 여전히 비용이 많이 들거나 전문 지식을 요구하는 큐레이팅된 학습 데이터 세트에 크게 의존한다. 시각 ...

CLIP: Learning Transferable Visual Models From Natural Language Supervision

11 분 소요

State-of-the-art 컴퓨터 비전 시스템은 사전에 정해진 객체 카테고리를 예측하도록 학습된다. 이 제한된 형태의 지도는 일반성과 사용성을 제한한다. 왜냐하면 다른 시각적 개념을 명시하기 위해 추가적인 레이블이 필요하기 때문이다. 이미지에 대한 원시 텍스트로부터 직접 학습하...

Llama 2: Open Foundation and Fine-Tuned Chat Models

24 분 소요

본 연구에서는 70억에서 700억 매개변수에 이르는 대규모 언어 모델(LLM)의 사전 훈련 및 미세 조정 모음인 Llama 2를 개발하고 출시한다. 대화 유즈 케이스에 최적화된 미세 조정된 LLM인 Llama 2-Chat은 테스트한 대부분의 벤치마크에서 오픈소스 채팅 모델을 능가한...

LLaMA: Open and Efficient Foundation Language Models

12 분 소요

본 논문은 7B에서 65B 매개변수에 이르는 기초 언어 모델들의 집합인 LLaMA를 소개한다. 본 연구에서는 수조 개의 토큰으로 모델을 학습시켰으며, 공개적으로 사용 가능한 데이터셋만을 사용하여 최신 모델을 학습시킬 수 있음을 보여준다. 특히, LLaMA-13B는 대부분의 벤치마크...

What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

11 분 소요

최근 몇 년 동안 Scene Text Recognition(STR) 모델에 대한 많은 새로운 제안이 도입되었다. 기존 연구들은 기술의 경계를 넓혔다고 주장하지만, 학습 및 평가 데이터셋의 일관성 없는 선택으로 인해 전체적이고 공정한 비교가 대부분 누락되었다. 본 논문은 세 가지 주...

TextFuseNet: Scene Text Detection with Richer Fused Features

7 분 소요

자연 장면에서 임의 형태의 텍스트를 탐지하는 것은 매우 도전적인 작업이다. 기존의 텍스트 탐지 방법들이 제한된 특징 표현을 기반으로 텍스트를 인식하는 것과 달리, 이 연구에서는 더 풍부한 특징을 융합하여 텍스트 탐지를 수행하는 새로운 프레임워크인 TextFuseNet을 제안한다. ...

Soft Teacher: End-to-End Semi-Supervised Object Detection with Soft Teacher

9 분 소요

본 논문은 이전의 복잡한 다단계 방법과 다르게 처음부터 끝까지 하나의 과정으로 이루어진 준지도학습 기반 객체 탐지 접근법을 제시한다. 이 방법은 커리큘럼 동안 점차적으로 가상 레이블의 품질을 향상시키며, 점점 더 정확해진 가상 레이블은 다시 객체 탐지 학습에 이점을 제공한다. 이 ...

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

11 분 소요

이 논문은 컴퓨터 비전을 위한 범용 백본으로서 기능할 수 있는 새로운 비전 트랜스포머인 Swin Transformer를 소개한다. 언어와 비전 사이의 차이점, 예를 들어 시각적 엔티티의 규모 변화가 크고 이미지 내 픽셀의 해상도가 텍스트 내 단어에 비해 높은 점 등으로 인해 트랜스...

Mask R-CNN

9 분 소요

본 논문은 객체 인스턴스 분할을 위한 개념적으로 간단하고, 유연하며, 일반적인 프레임워크를 제시한다. 본 논문의 접근 방식은 이미지 내 객체를 효율적으로 탐지하는 동시에 각 인스턴스에 대한 고품질 분할 마스크를 생성한다. Mask R-CNN이라고 불리는 이 방법은 기존의 bound...

U-Net: Convolutional Networks for Biomedical Image Segmentation

4 분 소요

깊은 네트워크의 성공적인 학습에는 수천 개의 주석이 달린 학습 샘플이 필요하다는 것에 대해 대체로 동의한다. 본 논문에서는 사용 가능한 주석이 달린 샘플을 보다 효율적으로 사용하기 위해 데이터 증강에 크게 의존하는 네트워크 및 학습 전략을 제시한다. 이 아키텍처는 맥락을 포착하기 ...

맨 위로 이동 ↑

💡 etc.

맨 위로 이동 ↑