*Multimode_learning
멀티모달
심지어 희소모델(Sparse Model)을 통해 더 낮은 비용으로 더 큰 성과를 낼 수 있다는전망도 우세하다.
RLHF(Reinforcement Learning from Human Feedback)의 극적인진화도 점친다.
RLHF는 방대한 언어 데이터베이스에서 고품질의 데이터만 따로 추출해 학습시키는 SFT(Supervised fine-tuning step)를 1단계로삼는다.
일종의 맞춤형 학습을 위한 정지작업으로 볼 수 있다.
2단계는 정제된 데이터에서 사람이 직접 질문을 던지며 옳은 대답을 골라내는 보상 모델(reward model)로 구성된다.
질문과 답을 반복하며 옳은 답을 했을 때에 가중치를 주는 방식이다.
마지막 3단계는 실제 구동을 전제로 결과물의 정확성을 높이는 PPO(Proximal Policy Optimization)알고리즘이다.