GPT-3 ( Generative Pre-trained Transformer 3 )은 2020년에 출시된 자동 회귀 언어 모델

cloudhwang 0 1002 2020.11.06 13:25

GPT-3 ( Generative Pre-trained Transformer 3 )은 2020년에 출시된 자동 회귀 언어 모델로 딥 러닝 을 사용하여 사람과 유사한 텍스트를 생성합니다. 초기 텍스트를 프롬프트로 지정하면 프롬프트를 계속하는 텍스트를 생성합니다.

이 아키텍처는 2048 토큰 길이의 컨텍스트와 전례 없는 1,750억 개의 매개변수 크기를 가진 디코더 전용 변환기 네트워크 로 , 저장하는 데 800GB가 필요합니다. 모델은 생성 사전 훈련을 사용하여 훈련되었습니다. 이전 토큰을 기반으로 다음 토큰이 무엇인지 예측하도록 훈련됩니다. 이 모델은 많은 작업에서 강력한 제로샷 및 퓨샷 학습을 보여주었습니다. 저자는 자연어 처리(NLP)의 언어 이해 성능이 "레이블이 지정되지 않은 다양한 텍스트 코퍼스에 대한 언어 모델의 생성적 사전 훈련 후 차별적각 특정 작업에 대한 미세 조정." 이것은 사람의 감독 과 시간 집약적인 수동 라벨링 의 필요성을 제거했습니다 .

샌프란시스코에 소재한 인공지능 연구소 인 OpenAI 에서 만든 GPT-2 의 후속 모델인 GPT 시리즈의 3세대 언어 예측 모델입니다 . 2020년 5월에 도입되어 2020년 7월 현재 베타 테스트 중인 GPT-3 [4] 는 사전 훈련된 언어 표현의 자연어 처리 (NLP) 시스템 트렌드의 일부입니다 .

GPT-3에 의해 생성된 텍스트의 품질은 너무 높아서 사람이 작성했는지 여부를 판단하기 어려울 수 있으며 이점과 위험이 모두 있습니다. [5] 31명의 OpenAI 연구원 및 엔지니어가 2020년 5월 28일 GPT-3을 소개하는 원본 논문을 발표했습니다. 그들의 논문에서 그들은 GPT-3의 잠재적 위험에 대해 경고하고 위험을 완화하기 위한 연구를 촉구했습니다. : 34 호주의 철학자인 David Chalmers 는 GPT-3를 "지금까지 생산된 가장 흥미롭고 중요한 AI 시스템 중 하나"라고 설명했습니다. The New York Times의 2022년 4월 리뷰에서는 GPT-3의 기능이 인간과 동등한 유창함으로 독창적인 산문을 작성할 수 있다고 설명했습니다.

Microsoft 는 2020년 9월 22일에 GPT-3의 "독점적" 사용을 허가했다고 발표했습니다. 다른 사람들은 여전히 공개 API를 사용하여 출력을 받을 수 있지만 Microsoft만이 GPT-3의 기본 모델에 액세스할 수 있습니다.

배경

추가 정보: GPT-2 배경

The Economist 에 따르면 개선된 알고리즘, 강력한 컴퓨터 및 디지털화된 데이터의 증가는 기계 학습 의 혁명을 불러일으켰으며 2010년대에는 언어 조작을 포함한 "작업의 급속한 개선"을 가져온 새로운 기술을 사용했습니다. 소프트웨어 모델은 " 뇌의 신경 구조에 느슨하게 기반한 구조"에서 수천 또는 수백만 개의 예제를 사용하여 학습하도록 훈련됩니다 . 자연어 처리 (NLP)에 사용되는 아키텍처 중 하나 는 2017년에 처음 소개된 트랜스포머 라는 딥 러닝 모델을 기반으로 하는 신경망 입니다. GPT-n 모델은 Transformer 기반 딥러닝 신경망 아키텍처입니다. 텍스트 입력을 처리, 마이닝, 구성, 연결 및 대조하고 질문에 올바르게 대답할 수 있는 NLP 시스템이 많이 있습니다.

2018년 6월 11일, OpenAI 연구원과 엔지니어는 데이터 세트 를 통해 방대하고 다양한 텍스트 코퍼스 로 사전 훈련될 수 있는 생성 모델 (언어 모델, 인공 지능 시스템)에 대한 원본 논문을 게시했습니다 . 훈련 (GP). [2] 저자는 자연어 처리(NLP)의 언어 이해 성능이 "레이블이 지정되지 않은 다양한 텍스트 코퍼스에 대한 언어 모델의 생성 사전 훈련 후 차별적 미세 조정 " 프로세스를 통해 GPT-n에서 어떻게 개선되었는지 설명했습니다. 각 특정 작업에 대해." 이것은 사람의 감독 과 시간 집약적인 수작업 라벨링 의 필요성을 없앴습니다 .

2020년 2월 Microsoft는 "170억 개의 매개변수로 게시된 가장 큰 언어 모델"이라고 주장하는 T-NLG(Turing Natural Language Generation)를 도입했습니다. 텍스트 요약 및 질문 답변 을 포함하는 다양한 작업에서 다른 언어 모델보다 더 나은 성능을 보였습니다 .

교육 및 기능

GPT-3이 작성한 교육학 에 대한 샘플 학생 에세이

"학습 스타일"의 구성은 학습 스타일이 형성되는 과정을 설명하지 못하기 때문에 문제가 있습니다. 어떤 학생들은 특정한 경험을 했기 때문에 특정한 학습 스타일을 개발할 수 있습니다. 다른 사람들은 자신의 학습 요구에 적합하지 않은 학습 환경에 적응하려고 노력함으로써 특정 학습 스타일을 개발할 수 있습니다. 궁극적으로 우리는 학습 스타일과 환경 및 개인적 요인 사이의 상호 작용을 이해하고 이러한 요소가 우리가 학습하는 방법과 우리가 경험하는 학습의 종류를 어떻게 형성하는지 이해해야 합니다.

– Mike Sharples 가 생성한 텍스트

2020년 5월 28일, OpenAI의 31명의 엔지니어 및 연구원 그룹이 arXiv 프리프린트에서 3세대 "최첨단 언어 모델"인 GPT-3의 개발에 대해 설명했습니다. [ 팀은 GPT-3의 용량을 이전 모델인 GPT-2보다 2배 이상 증가시켜 [14] GPT-3를 현재까지 가장 큰 희소하지 않은 언어 모델로 만들었습니다. (희소 모델에서는 많은 매개변수 가 상수 값으로 설정되어 있기 때문에 총 매개변수가 더 많아도 의미 있는 정보가 적습니다.) [1] : 14 [3] GPT-3는 구조적으로 전임자, [1]더 큰 정확도는 증가된 용량과 더 많은 수의 매개 변수에 기인합니다. [15] GPT-3의 용량은 당시 알려진 차세대 NLP 모델인 Microsoft의 Turing NLG보다 10배 더 큽니다. [5]

GPT-3에 대한 가중 사전 교육 데이터 세트의 60%는 4,100억 바이트 쌍으로 인코딩된 토큰 으로 구성된 필터링된 Common Crawl 버전에서 가져옵니다. [1] : 9 기타 소스는 가중 총계의 22%를 나타내는 WebText2의 190억 토큰, 8%를 나타내는 Books1의 120억 토큰, 8%를 나타내는 Books2의 550억 토큰, 3%를 나타내는 Wikipedia의 30억 토큰입니다. [1] : 9 GPT-3는 수천억 개의 단어로 훈련되었으며 CSS, JSX, Python 등으로 코딩할 수도 있습니다. [4]

GPT-3 훈련 데이터

데이터세트 # 토큰

교육 내 비율

일반 크롤링 4100억 60%

웹텍스트2 190억 22%

책1 120억 8%

책2 550억 8%

위키백과 30억 3%

GPT-3의 훈련 데이터는 모든 것을 포괄하므로 별도의 언어 작업에 대한 추가 훈련이 필요하지 않습니다. [4] 훈련 데이터에는 가끔 유독한 언어가 포함되어 있으며 GPT-3는 훈련 데이터를 모방한 결과 때때로 유독한 언어를 생성합니다. 워싱턴 대학의 연구에 따르면 GPT-3는 GPT-2 및 CTRL 의 유사한 자연어 처리 모델과 비슷한 독성 수준의 독성 언어를 생성하는 것으로 나타났습니다 . OpenAI는 GPT-3에서 생성되는 독성 언어의 양을 제한하기 위해 여러 가지 전략을 구현했습니다. 결과적으로 GPT-3는 이전 모델인 GPT-1에 비해 덜 유독한 언어를 생성했지만, 전적으로 Wikipedia 데이터로 학습된 언어 모델인 CTRL Wiki에 비해 더 많은 세대와 더 높은 독성 언어를 생성했습니다.

2020년 6월 11일, OpenAI 는 OpenAI가 이 새로운 기술의 "강점과 한계를 탐색"하는 데 도움이 되는 사용자 친화적인 GPT-3 API("기계 학습 도구 세트")에 대한 액세스를 요청할 수 있다고 발표했습니다. [17] [18] 초대장은 이 API가 일반적인 단일 사용 사례 대신 거의 "모든 영어 작업"을 완료할 수 있는 범용 "텍스트 입력, 텍스트 출력" 인터페이스를 갖는 방법을 설명했습니다. [17] OpenAI GPT-3 API의 비공개 초기 릴리스에 액세스할 수 있었던 한 사용자에 따르면 GPT-3는 몇 가지 간단한 프롬프트만으로 "놀라울 정도로 일관된 텍스트"를 작성하는 데 "엄청나게 능숙"했습니다. [19]초기 실험에서 80명의 미국 피험자들에게 ~200단어의 짧은 기사가 인간에 의해 쓰여졌는지 또는 GPT-3에 의해 쓰여졌는지 판단하도록 요청받았습니다. 참가자들은 시간의 52%를 정확하게 판단했으며 무작위 추측보다 약간 더 잘했습니다.

2021년 11월 18일, OpenAI는 API에 대한 액세스가 제한되지 않도록 충분한 안전 장치가 구현되었다고 발표했습니다. [20] OpenAI는 개발자에게 OpenAI의 콘텐츠 정책을 준수하는 데 도움이 되는 콘텐츠 조정 도구를 제공했습니다. [21] 2022년 1월 27일, OpenAI는 통칭 InstructGPT라고 하는 최신 GPT-3 언어 모델이 이제 API 에서 사용되는 기본 언어 모델이라고 발표했습니다 . OpenAI에 따르면 InstructGPT는 지침을 더 잘 따르고, 더 적은 구성 사실을 생성하고, 다소 덜 유해한 콘텐츠를 생성하여 사용자 의도에 더 잘 부합하는 콘텐츠를 생성했습니다.

GPT-3는 "인간 평가자가 인간이 작성한 기사와 구별하기 어려운 뉴스 기사를 생성"할 수 있기 때문에 [5] GPT-3는 "언어 모델의 유익한 적용과 유해한 적용을 모두 발전시킬 수 있는 잠재력"을 가지고 있습니다. [1] : 34 2020년 5월 28일자 논문에서 연구원 들은 "잘못된 정보, 스팸 , 피싱 , 법률 및 정부 프로세스 남용 , 사기성 학술 에세이 쓰기 및 사회 공학 프리텍스팅 ". [1] 저자는 다음과 같은 연구를 요구하기 위해 이러한 위험에 주의를 기울입니다.위험 완화 .

GPT-3는 제로샷 , 퓨샷, 원샷 학습 을 수행할 수 있습니다 .

2022년 6월, Almira Osmanovic Thunström은 GPT-3가 자신에 대한 기사의 주요 저자이며 출판을 위해 제출했으며 검토 완료를 기다리는 동안 사전 출판되었다고 썼습니다.

GPT-3.5

2022년 3월 15일에 OpenAI는 "text-davinci-003" 및 "code-davinci-002"라는 이름으로 편집 및 삽입 기능이 있는 API에서 GPT-3 및 Codex 의 새 버전을 사용할 수 있게 했습니다. [26] 이 모델은 이전 버전보다 더 능력이 있는 것으로 설명되었으며 2021년 6월까지 데이터에 대해 교육을 받았습니다. 2022년 11월 30일에 OpenAI는 이러한 모델을 "GPT-3.5" 시리즈에 속하는 것으로 언급하기 시작했습니다 . GPT-3.5 시리즈의 모델을 미세 조정한 ChatGPT 를 출시 했다.

리셉션

애플리케이션

GPT-3, 특히 Codex 모델 은 다양한 코드 편집기 및 IDE에서 사용할 수 있는 코드 완성 및 생성 소프트웨어인 GitHub Copilot 의 기반입니다 .

GPT-3은 기존 언어를 형식적인 컴퓨터 코드로 변환하기 위해 특정 Microsoft 제품에서 사용됩니다.

GPT-3은 CodexDB 에서 SQL 처리를 위한 쿼리별 코드를 생성하는 데 사용되었습니다.

GPT-3는 Jason Rohrer 가 "프로젝트 12월"이라는 복고풍 테마의 챗봇 프로젝트에서 사용했습니다. 이 프로젝트는 온라인에서 액세스할 수 있으며 사용자가 GPT-3 기술을 사용하여 여러 AI와 대화할 수 있도록 합니다.

GPT-3는 The Guardian 에서 AI가 인간에게 무해하다는 기사를 작성하는 데 사용되었습니다. 그것은 몇 가지 아이디어를 얻었고 궁극적으로 하나의 기사로 병합된 8개의 다른 에세이를 작성했습니다. [

GPT-3는 텍스트 기반 어드벤처 게임을 생성하는 AI Dungeon 에서 사용되었습니다. 나중에 OpenAI가 생성된 콘텐츠에 대한 정책을 변경한 후 경쟁 모델로 대체되었습니다. [37] [38]

GPT-3는 마케터 및 비즈니스 소유자를 위한 AI 카피라이팅 앱인 Copy.ai에서 사용됩니다.

GPT-3는 마케터와 편집자를 지원하도록 설계된 콘텐츠 생성기인 Jasper.ai에서 사용됩니다.

GPT-3는 콘텐츠 제작 앱인 Hypotenuse AI에 사용되며 마케터와 비즈니스를 위한 사실적인 콘텐츠 작성을 위한 자체 독점 기술과 결합됩니다.

2022 Drexel University 연구에서는 GPT-3 기반 시스템을 사용하여 알츠하이머병의 초기 징후를 선별할 수 있다고 제안했습니다 .

리뷰

2020년 7월 The New York Times 리뷰 에서 Farhad Manjoo 는 컴퓨터 코드, 시, 산문을 생성하는 GPT-3의 능력이 "놀라움", "으스스함", "겸손함"일 뿐만 아니라 " 조금 무섭다"

Daily Nous 는 GPT-3에 대해 9명의 철학자가 쓴 일련의 기사를 발표했습니다. 호주 철학자 David Chalmers 는 GPT-3를 "지금까지 생산된 가장 흥미롭고 중요한 AI 시스템 중 하나"라고 설명했습니다.

Wired 의 한 리뷰에서는 GPT-3가 " 실리콘 밸리 전체에 오한을 유발하고 있다"고 말했습니다.

National Law Review 는 GPT-3가 OpenAI와 다른 사람들이 "이 모든 권한에 대한 유용한 응용 프로그램"을 찾는 동시에 "보다 일반적인 지능 을 향한 작업"을 계속하면서 "더 큰 프로세스에서 인상적인 단계"라고 말했습니다.

딥 러닝 평론가 게리 마커스 (Gary Marcus ) 가 공동으로 작성한 MIT 기술 리뷰( MIT Technology Review ) 의 기사는 [49] GPT-3의 "세상에 대한 이해력이 종종 심각하게 빗나갔기 때문에 그것이 말하는 것을 진정으로 신뢰할 수 없다는 것을 의미합니다."라고 말했습니다. 저자 에 따르면 GPT-3는 각 단어의 의미를 이해하지 못한 채 단어 간의 관계를 모델링합니다.

페이스북 AI 연구실 책임자인 제롬 페센티( Jerome Pesenti)는 GPT-3가 "안전하지 않다"고 말하며 유태인 , 여성, 흑인, 홀로 코스트 . [51]

프랑스의 의료 기술 전문 스타트업인 Nabla는 GPT-3를 의료용 챗봇으로 테스트 했지만 OpenAI 자체는 이러한 사용에 대해 경고했습니다. 예상대로 GPT-3는 몇 가지 한계를 보였다. 예를 들어, 정신 건강 문제에 대한 GPT-3 응답을 테스트하는 동안 AI는 시뮬레이션 환자에게 자살을 권고했습니다.

Noam Chomsky 는 GPT-3의 과학적 가치에 대한 회의론을 다음과 같이 표현했습니다. ...] 아마도 어떤 목적에는 유용할 수 있지만 일반적으로 언어나 인지에 대해서는 아무것도 알려주지 않는 것 같습니다." [53]

Luciano Floridi 와 Massimo Chiriatti 는 "양호하고 의미 있는 인공물의 값싼 생산"의 위험을 강조했습니다.

OpenAI의 Sam Altman은 자신이 "GPT-3 과대 광고"라고 부르는 것을 비판하면서 GPT-3가 "심각한 약점을 가지고 있으며 때로는 매우 어리석은 실수를 저지른다... AI가 세상을 바꿀 것이지만 GPT-3는 아주 초기 단계에 불과합니다. ."

비판

GPT-3의 빌더인 OpenAI 는 처음에 2015년에 비영리 단체로 설립되었습니다. 2019년 OpenAI는 OpenAI의 이전 오픈 소스 관행을 깨고 GPT-3의 전구체 모델을 공개적으로 발표하지 않았습니다. 가짜뉴스 영속화. OpenAI는 결국 원래 모델 크기의 8%인 GPT-2 버전을 출시했습니다. 같은 해에 OpenAI는 영리 회사로 구조 조정되었습니다 . [58]2020년에 Microsoft는 OpenAI에 수십억 달러를 투자한 후 Microsoft의 제품 및 서비스에 대한 GPT-3의 독점 라이선스를 보유했다고 발표했습니다. 이 계약은 OpenAI가 공개 API를 제공하도록 허용하여 사용자가 GPT-3에 텍스트를 보내 모델의 출력을 받을 수 있도록 하지만 Microsoft만이 GPT-3의 소스 코드에 액세스할 수 있습니다.

GPT-3와 같은 대형 언어 모델은 2021년 팀닛 게브루 와 에밀리 M. 벤더 가 공동 집필한 논문에 자세히 설명된 모델 교육 및 저장이 환경에 미치는 영향에 대해 Google의 AI 윤리 연구원 몇 명으로부터 비판을 받았습니다. .

성장하는 [ 언제? ] GPT-3 및 기타 언어 생성기를 기반으로 하는 자동화된 쓰기 기술의 사용은 학문적 무결성에 대한 우려를 제기했으며 [60] 대학과 학교가 표절과 같은 학업 부정행위를 구성하는 요소를 측정하는 방법에 대한 이해 관계를 높였습니다.

GPT는 12년 동안 6천만 개의 도메인에서 스크랩한 저작권이 있는 기사, 인터넷 게시물, 웹 페이지 및 책의 집합체인 Common Crawl 데이터 세트의 데이터로 구축되었습니다. TechCrunch 는 이 교육 데이터에 BBC, The New York Times , Reddit , 온라인 서적 전문 등의 저작권이 있는 자료가 포함되어 있다고 보고합니다 . 미국 특허청(USPTO) 의 2019년 인공 지능 혁신을 위한 지적 재산권 보호에 대한 의견 요청에 대한 응답에서 OpenAI는 "현재 법에 따라 [GPT 모델과 같은] AI 시스템을 교육하는 것은 공정 사용 을 구성 합니다 ."판례법 , OpenAI 및 우리와 같은 다른 AI 개발자는 상당한 법적 불확실성과 규정 준수 비용에 직면해 있습니다."