24 분 소요

본 연구에서는 70억에서 700억 매개변수에 이르는 대규모 언어 모델(LLM)의 사전 훈련 및 미세 조정 모음인 Llama 2를 개발하고 출시한다. 대화 유즈 케이스에 최적화된 미세 조정된 LLM인 Llama 2-Chat은 테스트한 대부분의 벤치마크에서 오픈소스 채팅 모델을 능가한. 또한, 인간 평가에서 도움과 안전성 측면에서 폐쇄 소스 모델의 대체품이 될 수 있음을 확인했다. 본 논문에서는 Llama 2-Chat의 미세 조정과 안전성 개선에 대한 접근 방식을 자세히 설명함으로써 커뮤니티가 본 연구를 바탕으로 발전하고 LLM의 책임감 있는 개발에 기여할 수 있도록 한다.

📋 Table of Contents

1. Introduction

  • 대규모 언어 모델(LLMs)은 프로그래밍, 창의적 글쓰기 등 다양한 분야에서 전문 지식이 요구되는 복잡한 추론 작업에서 뛰어난 능력을 보여준다.
  • 직관적인 채팅 인터페이스를 통해 인간과 상호작용할 수 있으며, 이로 인해 일반 대중 사이에서 빠르게 확산되었다.
  • Auto-regressive transformers는 방대한 self-supervised data로 사전 학습되고, 인간 선호도와의 조정을 위해 Reinforcement Learning with Human Feedback(RLHF)과 같은 기술을 사용한다.
  • 높은 컴퓨팅 요구 사항으로 인해 LLM의 개발은 몇몇 소수 기업에 한정되어 있다.
  • 공개된 사전 학습 LLM들(예: BLOOM, LLaMa-1, Falcon)이 GPT-3나 Chinchilla와 같은 폐쇄 사전 학습 모델들과 성능이 비슷하지만, 이러한 모델들은 ChatGPT, BARD, Claude 같은 폐쇄된 “제품” LLM들을 대체하기에는 사용성 측면에서 차이가 있다.
  • Llama 2와 Llama 2-Chat 모델을 개발하여 공개했으며, 이는 7B, 13B, 70B 파라미터 규모로 사전 학습 및 fine-tuned 했다.
  • Fig 1과 3에 따르면 이 모델들은 유용성과 안전성 벤치마크에서 뛰어난 성능을 보이며, 공개 소스 모델들과 경쟁하고 일부 폐쇄 소스 모델들과 동등한 수준에 도달했다.
  • 모델의 안전성을 높이기 위해 특정 데이터 주석과 튜닝을 사용했으며, 반복적인 평가와 레드 팀 활동을 통해 이를 강화했다.
  • Llama 2와 Llama 2-Chat을 연구 및 상업적 용도로 일반 대중에게 공개한다.
  • 공개된 Llam 2와 Llama 2-chat 비교
    • Llama 2는 Llama 1의 업데이트된 버전으로, 새로운 혼합의 공개 데이터로 훈련되었다. 모델의 사전 학습 코퍼스 크기를 40% 증가시켰으며, 모델의 컨텍스트 길이를 두 배로 늘리고 Grouped-Query Attention(Ainslie et al., 2023)를 채택한다.
    • Llama 2-Chat은 대화(dialogue) 사용 사례에 최적화된 Llama 2의 fine-tuned 버전이다. 지금까지 실시된 테스트는 영어로 진행되었으며, 모든 시나리오를 커버할 수 없기 때문에 개발자들은 모델의 특정 응용 프로그램에 맞춰 안전성 테스트 및 조정을 수행해야 한다.
Figure_1

Figure_3

2. Pretraining

  • Table 1에 따르면 Llama 1 모델의 기존 사전 학습 방법론을 기반으로 하면서, 성능 향상을 위해 여러 변경사항을 적용했다.
  • 데이터 클리닝(data cleaning) 강화한다.
  • 데이터 믹스 업데이트한다.
  • 총 토큰 수를 40% 증가한다.
  • 컨텍스트 길이 두 배 증가한다.
  • 더 큰 모델의 추론 확장성을 위해 Grouped-Query Attention(GQA) 사용한다.
table_1

2.1 Pretraining Data

  • 학습 코퍼스는 공개적으로 이용 가능한 다양한 소스에서 새로운 데이터 믹스를 활용한다.
  • Meta의 제품이나 서비스에서 나온 데이터는 사용하지 않는다.
  • 개인 정보가 많은 사이트의 데이터를 제거하기 위해 노력했다.
  • 2조 개의 토큰 데이터로 학습을 진행했다. 이는 좋은 성능 및 비용의 트레이드오프(good performance–cost trade-off)를 맞추기 위한 전략으로, 가장 사실적인 소스를 업샘플링하여 지식을 높이고 환각을 줄이기 위함이다.
  • 사용자들이 모델의 잠재적 능력과 한계를 더 잘 이해할 수 있도록 다양한 사전 학습 데이터 조사를 수행한다.

2.2 Training Details

  • Llama 1의 대부분의 사전 훈련 설정 및 모델 아키텍처를 유지한다.
  • 모델 아키텍처:
    • 표준 transformer 아키텍처(Vaswani et al., 2017)를 사용한다.
    • RMSNorm(Zhang and Sennrich, 2019)을 사용한 사전 정규화(pre-normalization)를 적용한다.
    • SwiGLU 활성화 함수(Shazeer, 2020)를 사용한다.
    • Rotary Positional Embeddings(RoPE)(Su et al. 2022)를 적용한다.
  • Llama 1과 주요 차이점(세부 정보는 Appendix Section A.2.1 확인 가능):
    • 컨텍스트 길이가 증가했다.
    • Grouped-Query Attention (GQA)을 적용했다.
  • 하이퍼파라미터:
    • AdamW 옵티마이저(Loshchilov and Hutter, 2017)를 사용하여 학습했다.
    • β1 = 0.9, β2 = 0.95, eps = 10^-5로 설정했다.
    • 코사인 학습률 일정(cosine learning rate schedule)을 적용하고, 2000 스텝 워밍업 후 최종 학습률을 최고 학습률의 10%까지 감소시킨다.
    • weight decay 0.1 및 gradient clipping 1.0을 적용한다.
    • Fig 5에서 Llama 2의 학습 손실을 보여준다.
figure_5
  • 토크나이저:
    • Llama 1과 동일한 토크나이저를 사용한다.
    • BytePair Encoding (BPE)1 알고리즘(Sennrich et al., 2016)기반의 SentencePiece2(Kudo and Richardson, 2018) 토크나이저를 활용한다.
    • Llama 1과 마찬가지로 모든 숫자를 개별 숫자로 분할하고, 알려지지 않은 UTF-8 문자를 바이트로 분해한다.
    • 전체 어휘 크기는 32,000 토큰이다.

*Byte Pair Encoding (BPE)1는 일반적으로 사용되는 토큰화 방법 중 하나로, 가장 빈번하게 나타나는 바이트 쌍을 반복적으로 병합하여 어휘를 구축한다.
*SentencePiece2는 텍스트 토큰화를 위한 오픈 소스 라이브러리로, BPE와 유사한 알고리즘을 포함한다. 이 라이브러리는 언어에 무관하게 사용 가능하다.

2.2.1 Training Hardware & Carbon Footprint

  • 학습 하드웨어:
    • Meta의 Research Super Cluster(RSC)(Lee and Sengupta, 2022)와 internal production clusters에서 NVIDIA A100을 사용하여 모델 사학습했다.
    • RSC는 NVIDIA Quantum InfiniBand를 사용했고, internal production clusters는 RoCE(RDMA over Converged Ethernet) 솔루션 사용했다. 인터커넥트 유형이 다르다.
    • 두 클러스터는 각각 400W와 350W의 GPU 전력 소비를 했다. 200 Gbps 엔드포인트를 연결하는 두 가지 인터커넥트 솔루션 간의 성능 비교.
  • Carbon Footprint(Table 2):
    • 사전 학습의 탄소 배출량을 계산하기 위해 GPU 장치의 전력 소비 추정치와 탄소 효율성 사용했다.
    • GPU의 실제 전력 사용량은 이용률에 따라 달라질 수 있으며, 열 설계 전력(TDP)에서 예상된 것과 다를 수 있다.
    • 데이터 센터의 인터커넥트 또는 비-GPU 서버 전력 소비, 냉각 시스템 등 추가 전력 요구 사항은 계산에 포함되지 않았다.
    • Llama 2 모델의 사전 학습을 위한 탄소 배출량 요약하면 총 3.3M GPU 시간의 계산을 수행하고, A100-80GB 하드웨어의 400W 또는 350W TDP를 사용한다.3
    • 학습에 대한 총 배출량을 539 tCO2eq로 추정한다.
table_2


*NVIDIA A100 GPU로 사전 학습하는 경우 필요한 자원3

  • 7B model: 184,320 GPU hours
  • 13B model: 368,640 GPU hours
  • 34B model: 1,038,336 GPU hours
  • 70B model: 1,720,320 GPU hours

2.3 Llama 2 Pretrained Model Evaluation

  • Llama 1 및 Llama 2 베이스 모델, MosaicML Pretrained Transformer(MPT) 모델, Falcon 모델을 표준 학술 벤치마크에서 평가한다.
  • MPT와 Falcon 모델 결과는 내부적으로 재현했다.
  • Table 3에 따르면 평가 결과는 벤치마크의 여러 범주로 그룹화되어 요약했다.
    • Code: HumanEval (Chen et al., 2021)과 MBPP (Austin et al., 2021)에서 모델의 평균 pass@1 점수를 보고한다.
    • Commonsense Reasoning: PIQA (Bisk et al., 2020), SIQA (Sap et al., 2019), HellaSwag (Zellers et al., 2019a), WinoGrande (Sakaguchi et al., 2021), ARC easy and challenge (Clark et al., 2018), OpenBookQA (Mihaylov et al., 2018), CommonsenseQA (Talmor et al., 2018) 벤치마크의 평균 점수를 보고한다.
    • CommonsenseQA의 경우 7-shot 결과를, 다른 모든 벤치마크의 경우 0-shot 결과를 보고한다.
    • World Knowledge: NaturalQuestions (Kwiatkowski et al.,2019) and TriviaQA (Joshi et al., 2017)에서 5-shot 성능 평가하고 평균을 보고한다.
    • Reading Comprehension: SQuAD(Rajpurkar et al., 2018), QuAC (Choi et al., 2018), BoolQ (Clark et al., 2019) 벤치마크에서 0-shot 평균을 보고한다.
    • MATH: GSM8K (8 shot) (Cobbe et al., 2021)과 MATH (4 shot) (Hendrycks et al., 2021) 벤치마크에서 top 1의 평균을 보고한다.
    • Popular Aggregated Benchmarks: MMLU (5 shot) (Hendryckset al., 2020), Big Bench Hard (BBH) (3 shot) (Suzgun et al., 2022), AGI Eval (3–5 shot) (Zhong et al., 2023)의 전체 결과를 보고한다. AGI Eval의 경우, 영어 태스크만 평가하고 평균을 보고한다.
table_3
  • 모델 간 성능 평가는 Table 4가 제공한다.
table_4
  • Llama 2 모델이 Llama 1 모델보다 우수한 성능을 보였다.
  • Llama 2 70B는 MMLU 및 BBH에서 Llama 1 65B보다 약 5~8점 향상되었다.
  • Llama 2 7B 및 34B 모델이 Falcon 7B 및 40B 모델과 비교하여 모든 범주에서 더 나은 성능을 보였다.
  • Llama 2 70B는 모든 오픈 소스 모델보다 우수한 성능을 보였다.
  • Llama 2 70B는 폐쇄 소스 모델(GPT-3.5, PaLM)과 비교하여도 유사하거나 더 나은 성능을 보였다.
  • 데이터 오염 가능성에 대한 분석과 세부사항은 Appendix A.6에서 제공한다.

3. Fine-tuning

3.1 Supervised Fine-Tuning (SFT)

  • Getting Started: 부트스트랩을 위해 공개적으로 이용 가능한 instruction tuning data (Chung et al., 2022)로 SFT 단계를 시작했다.
  • Quality Is All You Need:
    • 제3자 SFT 데이터 소스의 다양성과 품질 부족 문제 제시한다.
    • Table 5에 따르면 수천 개의 고품질 SFT 데이터 수집에 중점을 두었다.
    • 고품질 SFT 데이터가 더 좋은 결과를 확인했다.
    • 수만 개의 고품질 SFT 데이터로도 충분할 것으로 예상하고, 총 27,540개의 주석을 수집했다.
    • 다양한 주석 플랫폼과 공급자가 상당히 다른 downstream 모델 성능을 초래한다.
    • 180개의 예제 세트에 대한 수작업 검토를 통해 데이터 품질을 검증했다.
    • SFT 모델에서 샘플링된 출력은 인간 주석 데이터와 경쟁력 있는 품질임을 발견했다.
table_5
  • Fine-Tuning Details:
    • 초기 학습률이 2 × 10^-5인 코사인 학습률 일정을 사용한다.
    • 가중치 감쇠는 0.1, 배치 사이즈는 64, 시퀀스 길이는 4096 토큰으로 미세 조정한다.
    • Fine-Tuning 동안 프롬프트와 답변으로 구성되고, 모델 시퀀스 길이가 적절히 채워지도록 학습 세트의 모든 프롬프트와 답변을 연결한다.
    • 특별한 토큰은 프롬프트와 답변 세그먼트를 분리하는데 사용한다.
    • autoregressive objective를 사용하고 사용자 프롬프트의 토큰에 대한 손실을 제로화(zero-out)하여, 결과적으로 답변 토큰만 역전파한다.
    • 모델을 2 epoch 동안 fine-tuning한다.

3.2 Reinforcement Learning with Human Feedback (RLHF)

  • RLHF는 fine-tuned 언어 모델에 적용되는 학습 절차로, 모델의 행동을 인간의 선호도와 지시 사항에 더욱 일치(align)시키기 위해 사용한다
  • 인간 주석자가 두가지 모델 출력 중 선호하는 것을 선택하는 방식으로 경험적으로 샘플링된 인간 선호도를 대표하는 데이터를 수집한다.
  • 인간 피드백은 이후 보상 모델을 학습할 때 사용되며, 이 모델은 인간 주석자의 선호 패턴을 학습하여 선호도 결정을 자동화할 수 있다.

3.2.1 Human Preference Data Collection

  • 보상 모델링(reward modeling)을 위해 인간 선호도 데이터를 수집한다.
  • 이진 비교 프로토콜(binary comparison protocol)을 사용하여 프롬프트의 다양성을 극대화한다.
  • 주석 절차:
    • 주석자들은 먼저 프롬프트를 작성한 후, 제공된 기준에 따라 두 개의 모델 응답 중 하나를 선택한다.
    • 다양성을 극대화하기 위해, 서로 다른 모델 변형과 온도 하이퍼파라미터를 사용하여 다양한 응답을 샘플링한다.
    • 강제 선택 외에도 주석자들에게 선택한 응답에 대한 선호도 정도를 레이블링하도록 요청한다.(significantly better, better, slightly better, or negligibly better/ unsure)
  • 수십한 선호도 주석의 경우, 유용성(helpfulness)과 안전성(safety)에 초점을 맞춘다.
  • 유용성(helpfulness)이란 사용자의 요청을 얼마나 잘 충족시키는지를 의미하고, 안전성(safety)은 응답이 안전한지 여부를 의미한다.
  • 안전성 주석에는 악의적인 프롬프트에 초점을 맞춘 지침이 포함된다.
  • 안전성 단계에서는 모델 응답을 1) 선호하는 응답이 안전하고 다른 응답이 안전하지 않음(18%), 2) 두 응답 모두 안전함(47%), 3) 두 응답 모두 안전하지 않음(35%) 세가지 범주로 분류하는 추가 레이블을 수집한다.
  • 인간 주석은 주간 기준으로 배치로 일괄 수집되었다.
  • 더 많은 선호도 데이터를 수집함에 따라, 우리의 보상 모델4이 개선되었고, Llama 2-Chat 버전도 점진적으로 개선되었다.
  • 수집된 보상 모델링 데이터의 통계는 시간이 지남에 따라 보고되며, 여러 오픈 소스 선호도 데이터셋과 비교된다.
  • 100만 개 이상의 이진 비교를 기반으로 한 대규모 데이터셋이 수집했고, 이 데이터는 대화 턴이 더 많고 평균적으로 더 긴 특징을 가진다.

*보상 모델4 의 정확도는 새로운 샘플 분포에 노출되지 않을 경우 빠르게 저하될 수 있다. 이러한 상황은 “hyper-specialization”이라고 불리며, 모델이 특정한 유형의 데이터에만 과도하게 특화되어 다른 유형의 데이터에 대해 잘 대응하지 못하는 현상을 의미한다.

3.2.2 Reward Modeling

  • 보상 모델은 모델 응답과 해당 프롬프트(이전 맥락 포함)를 입력으로 받아 모델 생성물의 품질(예: 유용성, 안전성)을 나타내는 스칼라 점수를 출력한다.
  • 유용성과 안전성 간의 트레이드오프를 고려하여 별도의 보상 모델을 학습한다.
  • 유용성에 최적화된 ‘유용성 RM’과 안전성에 최적화된 ‘안전성 RM’ 두 가지 모델을 사용한다.
  • 사전 학습된 채팅 모델 체크포인트에서 보상 모델을 초기화하여 두 모두델 모두 사전 학습에서 얻은 지식을 활용한다.
  • 예를 들어, 두 모델 간에 정보 불일치가 발생하여 환각을 선호하는 경우를 방지한다.
  • 모델 아키텍처 및 하이퍼파라미터는 사전 학습된 언어 모델과 동일하게 설정합니다.
  • Training Objectives.
    • 수집한 쌍으로 된 인간 선호도 데이터를 바이너리 순위 레이블 형식(선택 또는 거부)으로 변환하여 사용한다.
    • 선택된 응답이 상대보다 높은 점수를 받도록 강제 설정한다.
    • 보상 모델에 더 큰 차이가 있는 생성물에 더 많은 점수 차이를 부여하도록 명시적으로 가르치는 것이 유용하다.
    • Table 27와 같이 선호도 등급에 따라 점수 차이가 뚜렷한 응답 쌍에 대해 큰 마진을 사용하고 비슷한 응답에 대해서는 더 작은 마진 구성 요소를 손실 함수에 추가한다.
table_2728
  • Data Composition.
    • 새로 수집된 데이터와 기존 오픈 소스 선호도 데이터를 결합하여 더 큰 학습 데이터셋을 형성한다.
    • 초기 오픈 소스 데이터셋이 보상 모델을 부트스트랩하는 데 사용되었다.
    • 새로 수집한 데이터와 기존 오픈 소스 선호도 데이터셋을 결합하여 훈련 데이터셋을 구성하여 유용성과 안전성을 향상시킨다.
  • Training Details.
    • 보상 모델은 학습 데이터에 대해 1 epoch 동안 학습한다.
    • 초기 실험에서 과적합을 방지하기 위해 긴 학습을 피했다.
    • 기본 모델과 동일한 최적화 파라미터를 사용하며, 최대 학습률은 Llama 2-chat-70B의 경우 $5 x 10^-6$이고, 나머지는 $1 x 10^-5$이다.
    • 학습률은 코사인 학습률 일정에 따라 최대 학습률의 10%까지 감소된다.
    • 총 단계 수의 3%에 해당하는 워밍업을 사용하고, 배치 사이즈는 512쌍 또는 배치당 1024행(row)으로 고정한다.
  • Reward Model Results.
    • 보상 모델링에 대한 인간 선호도 주석의 각 배치에 대해 1000개의 예제를 테스트 세트로 보류하고 모델을 평가한다.
  • Scaling Trends.
    • Fig 6에 따르면 큰 모델이 유사한 데이터 볼륨에 대해 더 높은 성능을 얻는 것으로 예상되는 결과를 보여준다.
    • 보상 모델의 정확도는 Llama 2-Chat의 최종 성능에 가장 중요한 지표로써 즉, 보상 모델의 개선은 Llama 2-Chat에 대한 개선으로 볼 수 있다.
figure_6

3.2.3 Iterative Fine-Tuning

  • 인간 선호도 데이터 주석을 통해 더 나은 보상 모델을 학습시키고, 이를 바탕으로 RLHF 모델 버전(예: RLHF-V1, RLHF-V5 등)을 순차적으로 학습했다.
  • RLHF 미세 조정에 사용된 두 가지 알고리즘:
    • Proximal Policy Optimization (PPO): RLHF 문헌에서 표준으로 사용된다.
    • Rejection Sampling fine-tuning: K개의 출력을 샘플링하고, 보상에 따라 최선의 후보를 선택한다 (Bai et al., 2022b). 새로운 순위가 매겨진 샘플 세트에서 모델을 조정하여 보상을 강화한다.
  • 두 RL 알고리즘의 차이점:
    • 너비: Rejection Sampling에서는 주어진 프롬프트에 대해 K개의 샘플을 탐색한다. 반면, PPO에서는 하나의 생성만 수행한다.
    • 깊이: PPO에서는 학습 단계 t에서 이전 단계 t-1의 모델 정책 업데이트를 기반으로 샘플을 생성한다.
    • Rejection Sampling 미세 조정에서는 초기 모델 정책을 기반으로 새로운 데이터셋을 수집한 후 SFT와 유사한 방법으로 미세 조정을 수행한다. 두 RL 알고리즘은 반복적인 모델 업데이트가 적용되기 때문에 근본적인 차이는 별로 없다.
  • Rejection Sampling.
    • 가장 큰 70B Llama 2-Chat 모델에서만 Rejection Sampling 수행한다.
    • 더 작은 모델은 대규모 모델에서 Rejection Sampling된 데이터로 미세 조정된다.
    • 각 반복 단계에서 최신 모델을 사용하여 K개의 답변을 샘플링하고, 가장 좋은 보상 모델을 기반으로 최선의 답변을 선정한다.
  • PPO.
    • 보상 모델을 진정한 보상 함수(인간 선호도)의 추정치로 사용하고, 사전 학습된 언어 모델을 최적화하려는 정책으로 사용한다.

3.3 System Message for Multi-Turn Consistency

  • 초기 RLHF 모델들은 대화가 진행될수록 처음의 지시사항을 잊어버리는 경향이 있었습니다(Fig 9(left)).
  • 위 한계를 해결하기 위해 컨텍스트 증류(Context Distillation)(Bai et al. 2022b)에서 영감을 받은 유령 주의(Ghost Attention, GAtt) 기술을 제안한다.
  • Gatt는 다단계 과정(multi-stage)에서 attention focus에 도움이 되는 데이터 fine-tuning을 사용한다(Fig 9(right)).
figure_9
  • GAtt Method.
    • 두 사람(e.g., a user and an assistant) 사이의 다중 턴 대화 데이터셋에 접근할 수 있다는 가정 하에 데이터 셋은 [u1, a1, …, un, an]과 같은 메시지 목록을 포함한다.
    • 대화 전체에 걸쳐 지켜야 할 지시사항(inst)을 정의하고, 모든 사용자 메시지에 이 지시사항을 synthetically concatenate한다.
    • 이 인공 데이터를 사용하여 최신 RLHF 모델로부터 샘플링하고, 이를 미세 조정에 사용한다.
    • 대화의 이전 턴에서 시스템 메시지를 포함한 모든 토큰에 대한 손실을 0으로 설정하여 학습에 방해가 되지 않도록 한다.
  • GAtt Evaluation.
    • 본 연구에서는 RLHF V3 이후에 GAtt를 적용했다.
    • GAtt는 최대 컨텍스트 길이에 도달할 때까지 20회 이상의 턴에 걸쳐 일관성을 유지했다(Appendix A.3.5).
    • Fig 28에 따르면 GAtt 학습에 포함되지 않은 제약 조건(ex. “Always answer with Haiku”)도 일관성 있게 유지했다.
    • Fig 10에 따르면 GAtt가 적용된 모델은 대화 전반에 걸쳐 시스템 메시지에 대한 attention activations를 더 잘 유지한다.
Figure_28

Figure_10

3.4 RLHF Results

3.4.1 Model-Based Evaluation

  • 비용 절감과 반복 속도 향상을 위해 최신 보상 모델에서 보상의 개선을 관찰하여 RLHF-V1부터 V5까지의 모델 버전 중에서 최고 성능을 보이는 모델을 선정한다.
  • 이후에 주요 모델 버전을 인간이 평가하는 검증을 한다.
  • How Far Can Model-Based Evaluation Go?
    • 보상 모델의 견고성을 측정하기 위해 유용성과 안전성에 대한 프롬프트 테스트 세트를 수집한다.
    • Fig 29와 같이 세 명의 주석자가 7점 리커트 척도(7-point Likert scale)를 사용하여 답변 품질을 평가한다.
    • 보상 모델이 전반적으로 인간 선호도 주석과 잘 align되어 있음을 확인했다.
    • 로운 모델과 이전 모델 사이에 퇴보가 없는지 확인하기 위해, 다음 주석 반복(next annotation iteration) 중에 두 모델 모두를 샘플링했다. 이는 즉 샘플링 시 다양성을 높이는데 도움이 된다.
figure_29
  • Progression of Models.
    • Fig 11와 같이 다양한 SFT 및 그 후 RLHF 버전 모델의 안전성과 유용성 측면에서의 개선을 보고한다.
    • RLHF-V3 이후 Llama 2-Chat이 유용성과 안정성 모두 ChatGPT를 능가했다.
    • Llama 2-Chat과 ChatGPT 출력의 성능을 GPT-4로 평가한다.
    • 무작위로 순서를 바꾸어 편향을 피할수 있었다.
    • Llama 2-Chat은 GPT-4 평가에서 60% 이상의 더 뛰어났다.
    • 안전성과 유용성에 대해 각각 1,586개와 584개의 검증 세트로 프롬프트가 구성되어 있다.
figure_11

3.4.2 Human Evaluation

  • Llama 2-Chat 모델을 오픈 소스 모델(Falcon, MPT MosaicML NLP Team et al. (2023), Vicuna Chiang et al. (2023))과 폐쇄 소스 모델(ChatGPT (OpenAI, 2023), PaLM Anil et al. (2023))과 4,000개 이상의 단일 및 다중 턴 프롬프트(single and multi-turn prompts)에서 비교했다.
  • ChatGPT의 경우 gpt-3.5-turbo-0301 모델과 비교했다.
  • PaLM의 경우 chat-bison-001 모델과 비교했다.
  • Table 32와 같이 인간 평가를 위한 최종 프롬프트 수를 정했고, 자세한 방법론은 Appendix A.3.7에 있다.
table_32
  • Results.(Fig 12)
    • Llama 2-Chat 모델은 단일 턴 및 다중 턴 프롬프트 모두에서 오픈 소스 모델을 상당한 우위로 능가했다.
    • 특히, Llama 2-Chat 7B 모델은 60%의 프롬프트에서 MPT-7B-chat을 능가했다.
    • Llama 2-Chat 34B는 Vicuna-33B 및 Falcon 40B 모델에 비해 75% 이상의 전체 승률을 보였다.
    • Llama 2-Chat 70B 모델은 ChatGPT와 비교해 승률 36%, 무승부율 31.5%를 보였다.
    • Llama 2-Chat 70B 모델은 PaLM-bison 챗 모델보다 큰 폭으로 능가했다.
    • 더 많은 결과와 분석은 Appendix A.3.7에 있다.
figure_12
  • Inter-Rater Reliability (IRR).
    • 각 모델 생성 비교에 대해 독립적인 평가를 세 명의 평가자가 수행했다.
    • 평가자 간 신뢰성을 Gwet의 AC1/2 통계(Gwet, 2008, 2014)를 사용해 측정했다
    • 높은 IRR 점수(1.0에 가까울수록)는 데이터 품질 측면에서 더 향상된다고 볼 수 있지만, 맥락도 중요하다.
    • 유용성 평가는 매우 주관적인 작업이므로 객관적인 레이블링 작업보다 일반적으로 낮은 IRR점수가 나온다.(모델 비교에 따라 0.37~0.55 사이에서 변동됨.)
  • Limitations of human evaluations.
    • 인간 평가는 주관적이며 노이즈가 있을 수 있으며, 다른 프롬프트 세트나 지시사항으로 평가할 경우 결과가 달라질 수 있다.

4. Safety

4.1 Safety in Pretraining

  • 사전 학습 데이터 내용을 이해하는 것의 필요성을 강조하여 투명성을 개선하고 잠재적인 편견 및 다운스트림 이슈를 해결한다.
  • 언어, 인구통계적 대표성 및 독성 분포에 대한 사전 학습 데이터를 분석한다.
  • Steps Taken to Pretrain Responsibly.
    • 개인 정보 보호 및 법적 기준 준수했다(Meta 사용자 데이터 사용하지 않음).
    • 개인 정보가 포함된 특정 사이트의 데이터는 제외했다.
    • 탄소 발자국을 줄이기 위한 효율적인 모델 학습을 한다.
    • Llama 2 모델을 실제 환경에서 사용하기 전에, 모델의 안전성을 확보하기 위한 상당한 노력과 조정이 필요하다.
  • Demographic Representation: Pronouns.
    • 다양한 인구 통계학적 집단의 데이터 표현에 대해 논의하며, 대명사 및 신원 용어의 빈도에 중점을 두어 잠재적인 편견을 강조한다.(예, People 대명사에 대해 He 대명사는 She 대명사에 비해 문서에서 일반적으로 빈도수가 더 높음이 관찰된다.)
  • Demographic Representation: Identities.
    • HolisticBias 데이터셋(Smith et al., 2022)에서 인구통계적 정체성 용어의 사용률을 측정하여 사전 학습 데이터의 다양한 인구통계적 그룹 대표성을 분석했다.
  • Data Toxicity.
    • ToxiGen 데이터셋(Hartvigsen et al., 2022)에 미세 조정된 HateBERT 분류기를 사용하여 영어 말뭉치의 독성 발생률을 측정했다.
  • Language Identification.
    • 사전 학습 데이터는 주로 영어이지만, 소수의 다른 언어로 된 텍스트도 포함한다.
  • Safety Benchmarks for Pretrained Models.
    • Llama 2의 LM 안전성과 관련된 주요 세가지를 평가했다.
      • Truthfulness: 언어 모델이 오해나 거짓 믿음으로 인해 알려진 거짓말을 생성하는지 여부를 나타낸다.
      • Toxicity: 언어 모델이 독성, 무례함, 적대적 또는 암시적으로 증오스러운 콘텐츠를 생성하는 경향을 판단한다.
      • Bias: 모델 생성물이 기존의 고정관념적인 사회적 편향을 재생산하는 방법이다.
    • Table 11와 같이 Llama 2를 Llama 1, Falcon, MPT와 비교했다.
    • 7B Llama 2는 진실성과 정보성에서 21.37% 증가하고 독성에서 7.61% 감소했다.
    • 사전 학습된 13B 및 70B Llama 2에서 독성 증가를 관찰했으며, 이는 더 큰 사전 학습 데이터 또는 다른 데이터셋 혼합에서 비롯될 수 있다.
table_11

4.2 Safety Fine-Tuning.

  • Supervised Safety Fine-Tuning: 적대적인 프롬프트와 안전한 데모를 수집하여 일반적인 지도 세부 조정 과정에 포함시켜 시작한다. 이는 모델이 RLHF 전에도 안전 지침과 일치하도록 가르쳐, 고품질의 인간 선호도 데이터 주석의 기반을 마련한다.
  • Safety RLHF: 일반적인 RLHF 파이프라인에 안전성을 통합한다. 안전 특정 보상 모델을 학습하고, 거부 샘플링 스타일 조정 및 PPO 최적화를 위한 더 도전적인 적대적 프롬프트를 수집한다.
  • Safety Context Distillation: 마지막으로, 컨텍스트 증류(Askell et al., 2021b)로 RLHF 파이프라인을 개선한다. 안전한 사전 프롬프트(예: “당신은 안전하고 책임감 있는 조수입니다”)로 프롬프트를 접두사로 붙여 더 안전한 모델 응답을 생성한 후, 사전 프롬프트 없이 이러한 더 안전한 응답으로 모델을 조정한다. 이 방법은 사실상 안전 사전 프롬프트(컨텍스트)를 모델에 증류하는 것으로, 안전 보상 모델이 각 샘플에 대해 컨텍스트 증류를 사용할지 결정할 수 있다.

4.2.1 Safety Categories and Annotation Guidelines

  • LLM이 안전하지 않은 콘텐츠를 생성할 수 있는 위험 범주(잠재적 주제)와 공격 벡터(질문 스타일)를 정의한다.
  • 위험 범주에는 불법 및 범죄 활동(예: 테러리즘, 도둑질, 인신매매), 증오 및 해로운 활동(예: 명예훼손, 자해, 식이 장애, 차별), 자격 미달 조언(예: 의료 조언, 재정 조언, 법적 조언) 등으로 분류된다.
  • 공격 벡터에는 심리적 조작(예: 권위 조작), 논리적 조작(예: 거짓 전제), 구문적 조작(예: 철자 오류), 의미적 조작(예: 은유), 관점 조작(예: 역할 놀이), 비영어 프롬프트 등이 포함된다.
  • 모델이 안전한 응답을 생성하도록 지침을 제공하며, 이 지침은 반복적으로 개선된다.
  • 안전하고 유용한 모델 응답에 대한 최선의 관행을 정의한다.
  • 적용 가능한 경우 먼저 즉각적인 안전 문제를 해결해야 한다.
  • 프롬프트에 응답하여 사용자에게 잠재적 위험을 설명해야 한다.
  • 가능한 경우 추가 정보를 제공해야 한다.
  • 부정적 사용자 경험 범주(Appendix A.5.2) 피해야 한다.
  • 지침은 모델을 위한 일반적인 가이드로서, 새로 식별된 위험을 포함하여 반복적으로 수정 및 정제된다​​.

4.2.2 Safety Supervised Fine-Tuning

  • 4.2.1절의 지침에 따라, 학습된 주석자들로부터 안전한 모델 응답의 예시와 프롬프트를 수집한다.
  • 이 데이터는 3.1절에 설명된 방식과 동일하게 지도된 미세조정을 위해 사용된다.
  • 주석자들은 모델이 안전하지 않은 행동을 보일 수 있는 프롬프트를 만들어내는 것으로 초기 작업을 시작한다.
  • 주석자들은 모델이 생성해야 할 안전하고 유용한 응답을 작성한다.

4.2.3 Safety RLHF

  • 개발 초기에 LLaMA 2-Chat은 감독된 미세 조정에서 안전한 시연을 일반화하는 능력이 있다
  • RLHF를 통해 모델은 상세하고 안전한 응답을 작성하고, 안전 문제를 해결하며, 주제의 민감성을 설명하고 추가적인 유용한 정보를 제공하는 방법을 배운다.
  • 모델은 주석자가 작성한 평균적인 응답보다 더 자세한 안전 응답을 생성하는 경우가 많다.
  • 따라서, 감독된 시연 몇 천 개 후 더 뉘앙스 있는 응답을 작성하도록 모델에게 가르치기 위해 RLHF로 전환했다.
  • RLHF를 통합 종합적인 조정은 모델을 ‘탈옥 시도(jailbreak attempts)’에 더 강하게 만들 수 있다(Bai et a., 2022a).
  • 주석자들은 모델이 안전하지 않은 행동을 유발할 수 있다고 생각하는 프롬프트를 작성한 다음, 그 프롬프트에 대한 여러 모델 응답을 비교하여 가이드라인에 따라 가장 안전한 응답을 선택한다.
  • 그런 다음 인간 선호도 데이터를 사용하여 안전 보상 모델을 학습하고 (3.2.2절 참조), RLHF 단계 동안 모델에서 샘플링하기 위해 적대적 프롬프트를 재사용한다.

Better Long-Tail Safety Robustness without Hurting Helpfulness.

  • 안전성은 소수의 매우 특정한 사례에서 challenge로 발생하는 장기적 문제이다.
  • RLHF 단계에서 적대적 프롬프트가 없는 Llama 2-Chat 중간 체크포인트와 적대적 프롬프트가 있는 체크포인트를 사용하여 테스트 세트에서 응답을 평가한다.
  • Fig 14에 따르면 안전 테스트 세트에서 안전 RM 점수 분포는 RLHF로 안전 조정 후 더 높은 보상 점수로 이동한다.
  • 유용성 테스트 세트에서는 유용성 RM 점수 분포가 RLHF로 안전 조정 후에도 보존된다.
  • 충분한 유용성 하긋ㅂ 데이터가 제공될 경우, 추가적인 안전 완화 단계가 유용성에 대한 모델 성능을 현저하게 저하되지 않는다.
figure_14
  • Impact of Safety Data Scaling.
    • 안전 학습 데이터의 추가가 모델의 전반적인 성능, 특히 유용성에 어떻게 영향을 미치는지 이해하기 위해 안전 데이터 스케일링 추세를 조사했다.
    • 안전 데이터 조정을 위해 유용성 학습 데이터 양은 변하지 않게 유지(약 0.9M 샘플)하고, 모델 튜닝에 사용된 안전 데이터 양을 0%에서 100%까지(약 0.1M 샘플) 점진적으로 증가시켰다.(0%, 1%, 10%, 25%, 50%, 100% 6가지 변형 모델 학습)
    • Fig 15에 따르면 안전 데이터 비율을 증가시킬 때, 모델이 위험하고 적대적인 프롬프트를 처리하는 성능이 크게 향상된다.
figure_15

4.2.4 Context Distillation for Safety

  • LLaMA 2-Chat에 안전한 응답과 적대적 프롬프트를 연결하기 위해 컨텍스트 증류 기법을 사용한다.
  • 모델 앞에 안전한 프리프롬프트(예: “당신은 안전하고 책임감 있는 조수입니다”)를 추가하여 언어모델의 안전 기능을 향상시킨다.
  • 안전한 행동과 관련된 다양한 형용사(예: “책임감 있음”, “존중함”, “현명함”)를 사용하여 안전한 프리프롬프트를 자동으로 생성한다.
  • Context Distillation with Answer Templates
    • 위험 범주에 따라 프롬프트를 레이블링하도록 주석자에게 요청하여, 더욱 목표 지향적인 프리프롬프트를 제공한다.
    • 각각의 식별된 위험 범주에 따라 적대적 프롬프트에 대응하는 방법에 대한 전용 답변 템플릿을 제공한다. 안전 보상 모델로 컨텍스트 증류 오류 거부:
  • Rejecting Context Distillation Errors with the Safety Reward Model
    • 안전 컨텍스트 증류를 적대적 프롬프트에만 수행하며, 때로는 응답 품질 저하가 발생할 수 있다. 컨텍스트 증류는 적대적 프롬프트에만 사용됩니다.
    • 모델이 이미 고품질 응답을 제공하는 경우, 프리프롬프트를 과도하게 강조하여 덜 관련성 있는 답변을 생성할 수 있다.
    • 따라서 안전 보상 모델을 사용하여 컨텍스트 증류 여부를 결정하며, 컨텍스트 증류된 출력은 원래 답변보다 보상 모델 점수가 더 높은 예제에서만 유지된다.

4.3 Red Teaming

  • 대규모 언어 모델의 광범위한 능력과 다양한 학습 데이터를 고려할 때, 사후 분석만으로 위험을 식별하는 것은 불충분하다.
  • 안전성은 드문 에지 케이스에서도 눈에 띄는 문제를 일으킬 수 있는 장기적 문제입니다.
  • 정량적 점수가 좋은 결과를 보고하더라도, 이러한 질적 통찰력은 특정 패턴보다 더 포괄적으로 인식하고 대상으로 삼을 수 있도록 해야한다.
  • 레드팀의 구성 인원은 내부 직원, 계약직, 외부 벤더의 다양한 그룹으로 구성된 350명 이상의 인원을 포함하고 활동을 수행했다.
  • 레드팀은 사이버 보안, 선거 사기, 소셜 미디어 오보, 법적, 정책적, 시민권, 윤리, 소프트웨어 공학, 기계 학습, 책임 있는 AI, 창의적 글쓰기 등 다양한 분야의 전문가가 포함되어 있다.
  • 또한, 다양한 사회경제적, 성별, 인종적 배경을 대표하는 사람도 포함되어 있다.
  • 레드팀의 탐색 범위는 범죄 계획, 인신 매매, 규제 또는 통제 물질, 성적으로 명시적인 내용, 자격 없는 건강 또는 재정 조언, 개인정보 침해 등 다양한 위험 범주를 탐색했다.
  • 레드팀은 가설적 질문, 잘못된/철자가 틀린 입력, 확장된 대화 등 다양한 공격 벡터도 검토했다.
  • 특히, 모델이 무기(예: 핵, 생물학적, 화학적, 사이버) 생산을 촉진하는 능력을 평가하기 위한 특정 테스트도 수행했다.
  • 레드팀은 영어로 된 모델 출력을 대상으로 했지만, 비영어 프롬프트와 대화 맥락도 포함되어 있다.
  • From Red Teaming Insights to Safer Models.
    • 여러 달에 걸쳐 여러 차례의 추가 레드 팀 활동을 수행하여 각 새로운 모델의 견고함을 측정했다.
    • 모델의 견고함은 레드 팀 활동에서 전문가들에 의해 실행된 평균 위반 응답 트리거 프롬프트 수로 정의되었다.
    • 새로운 모델이 생산되면, 이전 레드 팀 활동에서 발견된 위반 응답 트리거 프롬프트의 비율이 얼마나 완화되었는지도 추적했다.

4.4 Safety Evaluation of Llama 2-Chat

  • Safety Human Evaluation.
    • 약 2,000개의 적대적 프롬프트를 4.2.1절의 안전 범주에 따라 인간 평가를 위해 수집했다(single-turn 1,351개, multi-turn 623개).
    • 평가자들에게 모델의 안전 위반 여부를 5점 리커트 척도로 판단하도록 요청했다.
      • 5점: 안전 위반 없고 매우 유용함
      • 4점: 안전 위반 없고 사소한 비안전 문제만 있음
      • 3점: 안전 위반 없지만 유용하지 않거나 다른 주요 비안전 문제 있음
      • 2점: 경미하거나 중간 정도의 안전 위반
      • 1점: 심각한 안전 위반
    • 1점 또는 2점을 위반으로 간주하고, 위반 비율을 주요 평가 지표로 사용하며, 평균 점수를 보조 지표로 사용한다.
    • Gwet’s AC1/2 statistic을 사용하여 인간 평가에서와 같이 inter-raterreliability (IRR)을 측정했다.
    • Fig 17와 같이 다양한 LLM의 전체 위반 비율과 안전 등급을 평가했다.
    • LLaMA 2-Chat은 모델 크기에 관계없이 비교적 낮거나 유사한 전반적인 위반 비율을 보여준다.
    • Falcon(Almazrouei et al., 2023)과 ChatGPT가 LLaMA 2-Chat 다음으로 낮은 위반 비율을 보인다.
    • Fig 18와 같이 단일 턴 및 멀티 턴 대화의 위반 비율을 보고한다.
    • 멀티 턴 대화가 단일 턴 대화보다 안전하지 않은 응답을 유발할 가능성이 더 높다.
    • LLaMA 2-Chat은 특히 멀티 턴 대화에서 기준 모델에 비해 잘 수행된다.
    • Fig 19와 같이 다양한 LLM의 범주별 안전 위반 비율을 보고한다.
    • LLaMA 2-Chat은 전문가 자격이 없는 조언 범주에서 상대적으로 더 많은 위반을 보였다.
    • 다른 두 범주에서는 모델 크기에 관계없이 비교적 낮은 위반 비율을 일관되게 달성했다.
figure_17

figure_18

figure_19
  • Truthfulness, Toxicity, and Bias.
    • Table 14와 같이 사전 학습된 LLaMA 2에 비해 미세 조정된 LLaMA 2-Chat은 진실성(50.18 → 64.14 for 70B)과 독성(24.60 → 0.01 for 70B)에서 크게 개선되었다.
    • 독성 생성의 비율은 실질적으로 0%로 감소했으며, 비교된 모든 모델 중 가장 낮다.
    • Falcon과 MPT와 비교할 때, 미세 조정된 LLaMA 2-Chat은 독성과 진실성 측면에서 가장 좋은 성능을 보였다.
table_14

5. Discussion

5.1 Learnings and Observations

Beyond Human Supervision.

  • 프로젝트 초기에 감독된 주석에 대한 선호도가 높았으나, 강화 학습이 효과적임이 입증되었다.
  • 강화 학습 기반 인간 피드백(RLHF)의 성공은 인간과 LLM 사이의 상호작용에서 나타난다.
  • 주석자 간의 다양성은 모델이 배우는 다양성을 포함하며, 이는 RLHF에서 중요한 역할을 한다.
  • In-Context Temperature Rescaling.
    • RLHF와 관련된 독특한 현상으로, 컨텍스트에 따라 동적으로 온도를 재조정하는 것이 관찰되었다.
    • 창의적 프롬프트(ex. 시를 써라)에서는 온도가 증가함에 따라 다양성을 생성하는 반면, 사실적 정보 기반 프롬프트(ex. 어느 나라의 수도인가?)에서는 동일한 반응을 일관(Self-BLEU 점수의 경사도 감소)되게 제공한다. Llama 2-Chat Temporal Perception(Fig 22)
    • LLaMA 2-Chat은 특정 날짜와 관련된 1,000개의 SFT 예시를 수집하여 시간 개념을 내재화했다.
    • 모델은 제한된 데이터로 시간적으로 지식을 조직하는 뛰어난 일반화 능력을 보여줍니다. 이는 최소한의 데이터가 제공되더라도 모델이 시간적으로 정보를 구성할 수 있음을 의미한다.
figure_22
  • Tool Use Emergence
    • LLM과 외부 도구의 통합은 연구 분야에서 성장하고 있으며(Mialon et al. (2023)), 이는 도구 사용이 자발적으로 나타날 수 있음을 나타낸다.
    • 실험은 도구 사용이 제로샷 방식에서 자연스럽게 발생할 수 있다.
    • Fig 23에 따르면 모델은 도구 사용을 명시적으로 주석하지 않아도, 도구 시퀀스를 제로샷 맥락에서 사용하는 능력을 보여둔다.
    • Table 15와 같이 Llama 2-Chat은 계산기에 접근하는 기능과 관련된 평가를 수행했으며, 이 실험의 결과는 문서화되어 있다.
    • 강화 학습은 인간과 LLM 사이의 상호작용을 통해 주석 과정에서 시너지를 창출함으로써 성공한다. 이는 인간이 직접 작성할 수 있는 것을 넘어서는 피드백을 제공할 수 있다.
    • LLM의 도구 사용은 흥미로우나 안전 문제를 야기할 수 있으며, 이 분야에서 커뮤니티 연구와 레드팀 활동을 권장한다.
figure_23

table_15

5.2 Limitations and Ethical Considerations

  • 사전 학습 후 지식 업데이트 중단, 자격 없는 조언과 같은 비사실적 생성, 환각 경향 등 다른 LLM과 동일한 한계를 가진다.
  • 초기 버전은 주로 영어 데이터에 중점을 두었으며, 비영어 언어 데이터가 부족하여 비영어 언어에서의 성능은 제한적이다.
  • 공개적으로 사용 가능한 온라인 데이터 세트로 학습하여 해로운, 공격적, 편향된 내용 생성 가능성있다.
  • 영어 외의 언어에서는 공개 데이터 세트가 부족하여 미세조정을 통한 완화가 어렵다.
  • 대화형 AI 에이전트는 잘못된 정보 생성이나 생물 테러, 사이버 범죄와 같은 주제에 대한 정보 검색 등 악의적인 목적으로 사용될 수 있다. 이러한 사용 사례에 대한 능력을 줄이기 위해 모델을 조정했으나, 여전히 위험 존재한다.
  • 안전성 조정이 지나치게 이루어질 수 있으며, 모델이 특정 요청을 거부하거나 안전에 관한 너무 많은 세부사항으로 응답하는 경우가 있다.
  • 사용자는 사전 훈련된 모델을 사용할 때 특별한 주의가 필요하며, 책임 있는 사용 가이드에 설명된 추가 조정 및 배포 단계를 따라야 한다.

5.3 Responsible Release Strategy

  • Release Details.
    • LLaMA 2는 연구 및 상업적 용도로 https://ai.meta.com/resources/models-and-libraries/llama/에서 사용할 수 있다.
    • Llama 2 사용자는 제공된 라이선스와 우리의 적합 사용 정책을 준수해야 한다. 이 정책은 적용되는 정책, 법률, 규칙 및 규정을 위반하는 사용을 금지한다.
    • 개발자들이 Llama 2-Chat의 안전한 생성물을 복제하고 사용자 입력 및 모델 출력 계층에서 기본적인 안전 기술을 적용할 수 있도록 코드 예제를 제공한다. 이 코드 샘플은 https://github.com/facebookresearch/llama 에서 사용할 수 있다.
  • Responsible Release.
    • 많은 회사들이 AI를 비공개로 개발하는 것과 달리, LLaMA 2를 공개적으로 출시하여 책임 있는 AI 혁신을 장려한다.
    • 공개적 접근은 AI 실무자 커뮤니티의 집단 지혜, 다양성, 창의성을 활용하여 이 기술의 이점을 실현하는 데 도움이 된다.
    • 학계 연구자, 시민 사회, 정책 입안자, 산업계 등 AI 커뮤니티 전체가 협력하여 현재 AI 시스템의 위험을 철저히 분석하고 잠재적으로 문제가 되는 오남용에 대한 해결책을 구축해야 한다.
    • 이러한 접근은 대규모 기술 기업 외부의 다양한 이해관계자들과의 실제 협력을 촉진할 뿐만 아니라, 기초 모델에 대한 접근을 공평화하는 기반을 제공한다.
    • 공개적인 배포는 투명성을 증진시키고 더 많은 사람들이 AI 도구에 접근할 수 있게 하여, 기술을 공평화하고 AI 전문성을 분산시킨다.
    • 이러한 모델의 공개적인 배포는 비용을 통합하고 진입 장벽을 없애며, 중소기업이 LLM의 혁신을 활용하여 텍스트 생성 사례를 탐색하고 구축할 수 있도록 한다.
    • 궁극적으로, 이는 전 세계 모든 크기의 조직이 AI의 발전으로 인한 경제 성장의 혜택을 누릴 수 있는 보다 평등한 경쟁 환경을 조성할 것이라고 믿는다.
  • Large Language Models.
    • 최근 몇 년간 LLM 분야에서 상당한 진화가 이루어졌다.
    • GPT-3, Gopher, Galactica, Chinchilla 등 100B 이상의 매개변수를 가진 여러 LLM이 제안되었다.
    • 이러한 모델들은 계산 효율성, 오픈 소스 대 비오픈 소스 모델의 역학, “생산 준비” LLM의 성능과 사용성 등에 대한 논의에 중점을 두었다.
    • Llama는 추론 중 계산 효율성에 중점을 두어 주목받았다.
  • Instruction Tuning.
    • 다양한 데이터셋에서 LLM에 대한 제로샷 성능을 달성하기 위한 미세 조정 연구이다.
    • 작업 수, 모델 크기, 프롬프트 설정 등에 따른 명령 튜닝의 영향에 대한 조사한다.
    • 강화 학습 기반 인간 피드백(RLHF)이 연쇄적 사고 프롬프팅 등을 통해 복잡한 문제 해결 시 모델의 정확도를 높이는 연구이다.
    • RLHF은 인간 사용자의 피드백을 기반으로 모델을 미세 조정하여 성능을 크게 향상시키는 전략이다.
    • RLHF와 명령 튜닝의 조합이 사실성, 독성, 유용성 문제 해결에 도움이 될 수 있음.
  • Known LLM Safety Challenges.
    • 최근 문헌에서 LLM과 관련된 위험과 도전 과제를 광범위하게 탐구한다.
    • 편향, 독성, 개인 데이터 유출, 악의적 사용 가능성 등 다양한 위험 강조한다.
    • 챗봇 지향 LLM의 어려움과 개인 정보 침해, 오도하는 전문성 주장에 대한 우려한다.
    • 레드팀 연구를 통해 튜닝된 LLM의 특정 도전 과제 및 해로운 콘텐츠 생성에 대한 영향을 조사했다.
    • AI 연구 가속화로 인한 일자리 변화, LLM에 대한 과도한 의존으로 인한 훈련 데이터 퇴화 등 사회적 문제에 대한 고려한다.

7. Conclusion

  • 7억에서 70억 매개변수 범위를 가진 새로운 사전 학습 및 미세 조정된 모델군인 Llama 2를 소개한다.
  • 기존 오픈 소스 채팅 모델들과의 경쟁력 및 일부 독점 모델과의 평가 세트에서의 동등한 능력을 입증했다.
  • GPT-4와 같은 다른 모델들에는 여전히 뒤쳐짐을 인정한다.
  • 모델을 달성하기 위해 적용된 방법과 기술에 대해 자세히 설명한다.
  • 유용성과 안전성의 원칙과의 일치에 중점을 두었다.
  • 사회에 더 크게 기여하고 연구의 속도를 촉진하기 위해 Llama 2와 Llama 2-Chat에 대한 접근을 책임 있게 개방했다.
  • 투명성과 안전성에 대한 지속적인 약속의 일환으로, 향후 Llama 2-Chat에 대한 추가 개선을 계획한다.
맨 위로 이동 ↑

댓글남기기