ChatGPT 특징 - Try Again 다른 답변
답변이 마음에 들지 않으면 Try Again 버튼으로 다른 답변을 요청할 수 있으며, 현재 답에 대해 긍정 또는 부정으로 평가할 수 있음
가능한 한 답변을 제공하려고 노력하나, 정치 색, 헤이트 스피치, 선정성등 사회통념상 논란이나 거부감이 들어간 답변은 거부하는 경우가 상당히 많음.
기본적으로 간단한 개념에 대한 설명을 요청할 수 있으며, 특정 개념들에 대한 비교, 공통점, 차이점 등을 요청할 수도 있음.
ChatGPT는 GPT-3.5 위에 지도 학습과 강화 학습을 사용하여 미세 조정되었습니다. 두 접근 방식 모두 모델의 성능을 향상시키기 위해 인간 트레이너를 사용했습니다. 지도 학습의 경우 모델에는 트레이너가 사용자와 AI 비서의 양쪽을 모두 연주하는 대화가 제공되었습니다. 강화 단계에서 인간 트레이너는 먼저 모델이 이전 대화에서 만든 응답의 순위를 매겼습니다. 이 순위는 '보상 모델'을 만드는 데 사용되었으며, 모델은 PPO(근접 정책 최적화)의 여러 반복을 사용하여 더욱 미세 조정되었습니다. 근접 정책 최적화 알고리즘은 신뢰 지역 정책 최적화 알고리즘에 비용 효율적인 이점을 제공합니다. 그들은 더 빠른 성능으로 계산 비용이 많이 드는 많은 작업을 무효화합니다. 모델은 Azure의 슈퍼컴퓨팅 인프라에 대해 Microsoft와 협력하여 학습되었습니다.
또한 OpenAI는 ChatGPT 사용자로부터 ChatGPT를 추가로 훈련하고 미세 조정하는 데 사용할 수 있는 데이터를 계속 수집합니다. 사용자는 ChatGPT에서 받은 응답에 찬성 또는 반대표를 던질 수 있습니다. 찬성 또는 반대 투표 시 추가 피드백으로 텍스트 필드를 채울 수도 있습니다.