곧 GPT-4 공개 예정
cloudhwang
Issue
0
753
2023.03.15 14:51
GPT-3.5에 이르러 다양한 멀티미디어도 학습했기 때문에,
최근 AI 모델링의 트렌드인
멀티모달(Multimodal/텍스트를 포함한 다양한 정보 포함)에서 상당한 성과가 나올 가능성이 높다.
심지어 희소모델(Sparse Model)을 통해 더 낮은 비용으로 더 큰 성과를 낼 수 있다는 전망도 우세하다.
RLHF(Reinforcement Learning from Human Feedback)의 극적인 진화도 점친다.
RLHF는 방대한 언어 데이터베이스에서 고품질의 데이터만 따로 추출해 학습시키는 SFT(Supervised fine-tuning step)를 1단계로 삼는다.
일종의 맞춤형 학습을 위한 정지작업으로 볼 수 있다.
2단계는 정제된 데이터에서 사람이 직접 질문을 던지며 옳은 대답을 골라내는 보상 모델(reward model)로 구성된다.
질문과 답을 반복하며 옳은 답을 했을 때에 가중치를 주는 방식이다.
마지막 3단계는 실제 구동을 전제로 결과물의 정확성을 높이는 PPO(Proximal Policy Optimization)알고리즘이다.