NLP (Natural language processing 자연어처리)

cloudhwang 0 770 2020.03.01 20:40

자연어 처리 ( NLP )는 컴퓨터와 인간 언어 간의 상호 작용, 특히 대량의 자연어 데이터 를 처리하고 분석하도록 컴퓨터를 프로그래밍하는 방법과 관련된 언어학 , 컴퓨터 과학 및 인공 지능 의 학제 간 하위 분야입니다.

목표는 문서에 포함된 언어의 문맥적 뉘앙스를 포함하여 문서 내용을 "이해"할 수 있는 컴퓨터입니다 . 그런 다음 이 기술은 문서에 포함된 정보와 통찰력을 정확하게 추출하고 문서 자체를 분류하고 구성할 수 있습니다.

자연어 처리의 문제는 종종 음성 인식 , 자연어 이해 및 자연어 생성 과 관련됩니다 .

연혁

자연어 처리의 역사

자연어 처리는 1950년대에 시작되었습니다. 이미 1950년에 Alan Turing 은 " Computing Machinery and Intelligence " 라는 제목의 기사를 발표 했는데 당시에는 인공 지능과 별개의 문제로 표현되지 않았지만 현재 Turing 테스트 라고 불리는 것을 지능의 기준으로 제안했습니다 . 제안된 테스트에는 자동 해석 및 자연어 생성과 관련된 작업이 포함됩니다.

기호 NLP(1950년대 – 1990년대 초반)

기호 NLP의 전제는 John Searle 의 중국어 방 실험 에 의해 잘 요약됩니다 . 규칙 모음(예: 질문과 일치하는 답변이 있는 중국어 숙어집)이 주어지면 컴퓨터는 다음을 통해 자연어 이해(또는 기타 NLP 작업)를 에뮬레이션합니다. 이러한 규칙을 직면하는 데이터에 적용합니다.

1950년대 : 1954년 조지타운 실험 에서는 60개 이상의 러시아어 문장을 영어로 완전 자동 번역 하는 작업이 포함되었습니다. 저자는 3~5년 안에 기계 번역이 문제를 해결할 것이라고 주장했습니다. 그러나 실제 진행은 훨씬 더디었고, 1966년 ALPAC 보고서 에서 10년 간의 연구가 기대치를 충족시키지 못했다는 사실이 밝혀진 후 기계 번역에 대한 자금 지원이 크게 줄었습니다. 최초의 통계적 기계 번역 시스템이 개발된 1980년대 후반까지 기계 번역에 대한 추가 연구는 거의 수행되지 않았습니다.

1960년대 : 1960년대에 개발된 일부 주목할만한 성공적인 자연어 처리 시스템은 제한된 어휘를 사용 하여 제한된 " 블록 세계 " 에서 작동하는 자연어 시스템인 SHRDLU 와 1964년에서 1966년 사이 에 Joseph Weizenbaum 이 작성한 Rogerian 심리 치료사 의 시뮬레이션인 ELIZA 입니다. ELIZA는 인간의 생각이나 감정에 대한 정보를 거의 사용하지 않고 때때로 놀랍도록 인간과 같은 상호 작용을 제공했습니다. "환자"가 매우 작은 지식 기반을 초과하면 ELIZA는 일반적인 응답을 제공할 수 있습니다. 예를 들어 "머리가 아프다"에 대해 "왜 머리가 아프다고 하시나요?"로 응답합니다.

1970년대 : 1970년대에 많은 프로그래머들이 실제 정보를 컴퓨터가 이해할 수 있는 데이터로 구조화한 "개념적 온톨로지 "를 작성하기 시작했습니다. 예는 MARGIE(Schank, 1975), SAM(Cullingford, 1978), PAM(Wilensky, 1978), TaleSpin(Meehan, 1976), QUALM(Lehnert, 1977), Politics(Carbonell, 1979) 및 Plot Units(Lehnert 1981)입니다. ). 이 기간 동안 첫 번째 채터봇 이 작성되었습니다(예: PARRY ).

1980년대 : 1980년대와 1990년대 초반은 NLP에서 상징적 방법의 전성기를 맞았습니다. 시간의 초점 영역에는 규칙 기반 구문 분석(예: 생성 문법 의 전산 운영화로서의 HPSG 개발 ), 형태학(예: 2단계 형태 [3] ), 의미론(예: Lesk 알고리즘 ), 참조에 대한 연구가 포함되었습니다. (예: 센터링 이론 [4] 내 ) 및 자연 언어 이해의 다른 영역(예: 수사 구조 이론 ). Racter 및 Jabberwacky 와 함께 채터봇 개발과 같은 다른 연구 라인이 계속되었습니다.. 중요한 발전(결국 1990년대에 통계적 전환으로 이어짐)은 이 기간에 정량적 평가의 중요성이 높아졌다는 것입니다. [5]

통계 NLP(1990~2010년대)

1980년대까지 대부분의 자연어 처리 시스템은 손으로 쓴 복잡한 규칙 세트를 기반으로 했습니다. 그러나 1980년대 후반부터 언어 처리를 위한 기계 학습 알고리즘이 도입되면서 자연어 처리에 혁명이 일어났습니다. 이는 계산 능력의 꾸준한 증가( 무어의 법칙 참조)와 촘스키 의 언어학 이론(예: 변환 문법 ) 의 지배력이 점진적으로 감소 했기 때문 입니다. 언어 처리에. [6]

1990년대 : NLP의 통계적 방법에 대한 주목할만한 초기 성공 중 다수는 특히 IBM Research에서의 작업으로 인해 기계 번역 분야에서 발생했습니다. 이러한 시스템은 캐나다 의회 와 유럽 연합 에서 제작한 기존의 다국어 텍스트 코퍼스 를 활용할 수 있었습니다.모든 정부 절차를 해당 정부 시스템의 모든 공식 언어로 번역하도록 요구하는 법률의 결과입니다. 그러나 대부분의 다른 시스템은 이러한 시스템에서 구현되는 작업을 위해 특별히 개발된 말뭉치에 의존했으며, 이는 이러한 시스템의 성공에 주요 제한 사항이었습니다. 그 결과 제한된 양의 데이터에서 보다 효과적으로 학습하는 방법에 대한 많은 연구가 진행되었습니다.

2000년대 : 웹의 성장과 함께 1990년대 중반 이후 사용 가능한 원시(주석 없는) 언어 데이터의 양이 증가했습니다. 따라서 연구는 비지도 학습 알고리즘과 준지도 학습 알고리즘에 점점 더 초점 을 맞추고 있습니다 . 이러한 알고리즘은 원하는 답변으로 직접 주석을 달지 않은 데이터에서 또는 주석이 달린 데이터와 주석이 없는 데이터의 조합을 사용하여 학습할 수 있습니다. 일반적으로 이 작업은 지도 학습 보다 훨씬 어려우며 일반적으로 주어진 양의 입력 데이터에 대해 덜 정확한 결과를 생성합니다. 그러나 사용 가능한 엄청난 양의 주석이 없는 데이터( 월드 와이드 웹 의 전체 콘텐츠 포함)가 있습니다.), 사용된 알고리즘 이 실용적일 만큼 충분히 낮은 시간 복잡도 를 갖는 경우 종종 열등한 결과를 보완할 수 있습니다.

신경 NLP(현재)

2010년대에는 자연어 처리 분야에서 대표 학습 과 심층 신경망 방식의 기계 학습 방법이 널리 보급되었습니다. 이러한 인기는 부분적으로 그러한 기술 이 언어 모델링 및 구문 분석과 같은 많은 자연 언어 작업에서 최첨단 결과를 달성할 수 있음을 보여주는 결과가 쏟아져 나왔기 때문입니다. 이것은 의학 및 의료 분야에서 점점 더 중요해지고 있습니다. NLP는 전자 건강 기록 의 노트와 텍스트를 분석하는 데 도움이 됩니다 .

방법: 규칙, 통계, 신경망

초기에 많은 언어 처리 시스템은 사전 조회와 결합된 일련의 규칙을 직접 코딩하는 상징적 방법으로 설계되었습니다. [ 13] [14] 스테밍 .

기계 학습 알고리즘을 기반으로 하는 최신 시스템 은 수작업 규칙에 비해 많은 이점이 있습니다.

기계 학습 중에 사용되는 학습 절차는 가장 일반적인 경우에 자동으로 초점을 맞추는 반면, 규칙을 직접 작성할 때는 노력을 기울여야 하는 곳이 전혀 명확하지 않은 경우가 많습니다.

자동 학습 절차는 익숙하지 않은 입력(예: 이전에 본 적이 없는 단어 또는 구조 포함) 및 잘못된 입력(예: 철자가 틀린 단어 또는 실수로 생략된 단어)에 대해 강력한 모델을 생성하기 위해 통계적 추론 알고리즘을 사용할 수 있습니다. 일반적으로 손으로 쓴 규칙으로 이러한 입력을 적절하게 처리하거나 더 일반적으로 부드러운 결정을 내리는 손으로 쓴 규칙 시스템을 만드는 것은 매우 어렵고 오류가 발생하기 쉽고 시간이 많이 걸립니다.

자동으로 규칙을 학습하는 시스템은 단순히 더 많은 입력 데이터를 제공함으로써 더 정확해질 수 있습니다. 그러나 손으로 쓴 규칙에 기반한 시스템은 규칙의 복잡성을 증가시켜야만 더 정확하게 만들 수 있으며 이는 훨씬 더 어려운 작업입니다. 특히 손으로 쓴 규칙에 기반한 시스템의 복잡성에는 한계가 있으며, 이를 넘어서면 시스템은 점점 더 관리하기 어려워집니다. 그러나 기계 학습 시스템에 입력할 더 많은 데이터를 생성하려면 일반적으로 주석 프로세스의 복잡성이 크게 증가하지 않고 작업 시간이 그에 따라 증가해야 합니다.

NLP 연구에서 기계 학습의 인기에도 불구하고 상징적 방법은 여전히 일반적으로 사용됩니다(2020).

Apertium 시스템에서 제공하는 저자원 언어의 기계 번역과 같이 기계 학습 방법을 성공적으로 적용하기에 훈련 데이터의 양이 충분하지 않은 경우 ,

NLP 파이프라인에서 사전 처리(예: 토큰화 ) 또는

예를 들어 구문 분석에서 지식을 추출 하기 위해 NLP 파이프라인의 출력을 후처리 및 변환합니다 .

통계적 방법

1980년대 후반과 1990년대 중반 소위 "통계 혁명" 이후로 많은 자연어 처리 연구는 기계 학습에 크게 의존해 왔습니다. 기계 학습 패러다임은 통계적 추론 을 사용하여 일반적인 실제 사례 의 대규모 말뭉치 ( 말뭉치 의 복수형 은 인간 또는 컴퓨터 주석이 있는 문서 집합임) 분석을 통해 이러한 규칙을 자동으로 학습하도록 요구합니다.

다양한 클래스의 기계 학습 알고리즘이 자연어 처리 작업에 적용되었습니다. 이러한 알고리즘은 입력 데이터에서 생성된 많은 "특징" 집합을 입력으로 사용합니다. 그러나 연구는 점점 더 각 입력 기능에 실제 값 가중치를 첨부 하여 부드럽고 확률 적인 결정을 내리는 통계 모델 에 초점을 맞추고 있습니다(예: 음성과 같은 일반적으로 복잡한 값 임베딩 및 신경망도 제 안됨 ). [18]). 이러한 모델은 하나가 아닌 다양한 가능한 답변의 상대적 확실성을 표현할 수 있다는 장점이 있으며, 이러한 모델이 더 큰 시스템의 구성 요소로 포함될 때 더 신뢰할 수 있는 결과를 생성합니다.

결정 트리 와 같이 가장 초기에 사용된 기계 학습 알고리즘 중 일부는 기존의 손으로 쓴 규칙과 유사한 어려운 if-then 규칙 시스템을 생성했습니다. 그러나 품사 태깅 은 숨겨진 Markov 모델 을 자연어 처리에 사용하는 방법을 소개했으며 점점 더 연구는 입력을 구성하는 기능에 실제 가치 가중치를 부여하여 부드럽고 확률적인 결정을 내리는 통계 모델에 집중하고 있습니다. 데이터. 많은 음성 인식 이 기반이 되는 캐시 언어 모델현재 의존하는 시스템은 이러한 통계 모델의 예입니다. 이러한 모델은 일반적으로 익숙하지 않은 입력, 특히 오류가 포함된 입력(실제 데이터의 경우 매우 일반적임)이 제공될 때 더 견고하며 여러 하위 작업으로 구성된 더 큰 시스템에 통합될 때 더 신뢰할 수 있는 결과를 생성합니다.

신경 전환 이후 NLP 연구의 통계적 방법은 대부분 신경망으로 대체되었습니다. 그러나 통계적 해석 가능성과 투명성이 요구되는 상황에서는 계속 관련성이 있습니다.

신경망

추가 정보: 인공 신경망

통계적 방법의 주요 단점은 정교한 기능 엔지니어링이 필요하다는 것입니다. 2015년부터 [19] 이 분야는 통계적 방법을 크게 포기하고 기계 학습을 위한 신경망 으로 전환했습니다. 널리 사용되는 기술에는 단어 임베딩 사용이 포함됩니다.단어의 의미론적 속성을 캡처하고 별도의 중간 작업(예: 품사 태깅 및 종속성)의 파이프라인에 의존하는 대신 상위 수준 작업(예: 질문 응답)의 종단 간 학습 증가 파싱). 일부 영역에서 이러한 변화는 NLP 시스템이 설계되는 방식에 상당한 변화를 수반하여 심층 신경망 기반 접근 방식이 통계적 자연어 처리와 구별되는 새로운 패러다임으로 간주될 수 있습니다. 예를 들어 신경망 기계 번역 (NMT)이라는 용어는 기계 번역에 대한 딥 러닝 기반 접근 방식이 시퀀스 간 변환 을 직접 학습한다는 사실을 강조하여통계적 기계 번역 (SMT).

일반적인 NLP 작업

다음은 자연어 처리에서 가장 일반적으로 연구되는 작업 목록입니다. 이러한 작업 중 일부는 직접적인 실제 응용 프로그램이 있는 반면 다른 작업은 더 일반적으로 더 큰 작업을 해결하는 데 사용되는 하위 작업으로 사용됩니다.

자연어 처리 작업은 밀접하게 얽혀 있지만 편의를 위해 범주로 세분할 수 있습니다. 대략적인 구분은 아래와 같습니다.

텍스트 및 음성 처리

광학 문자 인식 (OCR)

인쇄된 텍스트를 나타내는 이미지가 주어지면 해당 텍스트를 결정합니다.

음성 인식

말하는 사람 또는 사람들의 사운드 클립이 주어지면 연설의 텍스트 표현을 결정하십시오. 이는 텍스트 음성 변환 의 반대이며 구어적으로 " AI-완전 "(위 참조) 이라고 하는 매우 어려운 문제 중 하나입니다 . 자연어 에서는 연속되는 단어 사이에 중단이 거의 없으므로 음성 분할 은 음성 인식의 필수 하위 작업입니다(아래 참조). 대부분의 구어에서 연속 문자를 나타내는 소리는 동시 조음 이라는 과정에서 서로 혼합되므로 아날로그 신호 의 변환은불연속 문자로 변환하는 것은 매우 어려운 프로세스일 수 있습니다. 또한 동일한 언어의 단어가 서로 다른 억양을 가진 사람들에 의해 사용된다는 점을 감안할 때 음성 인식 소프트웨어는 텍스트 등가물 측면에서 다양한 입력을 서로 동일한 것으로 인식할 수 있어야 합니다.

음성 세분화

사람이나 사람들이 말하는 소리 클립이 주어지면 단어로 분리합니다. 음성 인식 의 하위 작업 이며 일반적으로 함께 그룹화됩니다.

텍스트 음성 변환

텍스트가 주어지면 해당 단위를 변환하고 음성 표현을 생성합니다. 시각 장애인을 돕기 위해 텍스트 음성 변환을 사용할 수 있습니다. [20]

단어 세분화 ( 토큰화 )

연속된 텍스트 덩어리를 별도의 단어로 분리합니다. English 와 같은 언어의 경우 단어가 일반적으로 공백으로 구분되기 때문에 이것은 매우 사소한 일입니다. 그러나 중국어 , 일본어 , 태국어 와 같은 일부 문어 는 이러한 방식으로 단어 경계를 표시하지 않으며 이러한 언어에서 텍스트 분할은 해당 언어의 단어의 어휘 및 형태 에 대한 지식을 필요로 하는 중요한 작업 입니다. 때때로 이 프로세스는 데이터 마이닝에서 BOW( Bag of Words ) 생성과 같은 경우에도 사용됩니다.

형태학적 분석

원형화

굴절 어미만 제거하고 기본형이라고도 하는 단어의 기본 사전 형식을 반환하는 작업입니다. 원형 복원은 단어를 정규화된 형식으로 줄이는 또 다른 기술입니다. 그러나 이 경우 변환은 실제로 사전을 사용하여 단어를 실제 형식에 매핑합니다. [21]

형태학적 세분화

개별 형태소 로 단어를 분리 하고 형태소의 클래스를 식별합니다. 이 작업의 어려움은 고려 중인 언어의 형태학 ( 즉 , 단어 구조)의 복잡성에 따라 크게 달라집니다 . 영어 는 매우 간단한 어형, 특히 굴절 형태 를 가지고 있으므로 이 작업을 완전히 무시하고 단어의 가능한 모든 형태(예: "열다, 열다, 열다, 열다")를 별도의 단어로 모델링하는 것이 종종 가능합니다. 터키어 또는 Meitei 와 같은 언어 에서 [22] 고도로 응집 된그러나 인도어는 각 사전 항목에 수천 개의 가능한 단어 형식이 있기 때문에 이러한 접근 방식은 불가능합니다.

품사 태깅

주어진 문장에서 각 단어 의 품사 (POS)를 결정합니다. 많은 단어, 특히 일반적인 단어는 여러 품사 역할을 할 수 있습니다. 예를 들어, "book"은 명사 ("the book on the table") 또는 동사 ("to book a flight")일 수 있습니다. "세트"는 명사, 동사 또는 형용사 가 될 수 있습니다 . 그리고 "out"은 적어도 5개의 서로 다른 품사 중 하나일 수 있습니다.

스테밍

굴절된(또는 때때로 파생된) 단어를 기본 형식으로 줄이는 프로세스입니다(예: "close"는 "closed", "closing", "close", "closer" 등의 어근이 됩니다). 어간 추출은 표제어 추출과 유사한 결과를 생성하지만 사전이 아닌 규칙에 근거하여 수행합니다.

구문 분석

문법 귀납 [23]

언어의 구문을 설명하는 공식 문법 을 생성 합니다.

문장 분리 (" 문장 경계 명확화 " 라고도 함 )

텍스트 덩어리가 주어지면 문장 경계를 찾으십시오. 문장 경계는 종종 마침표 나 다른 구두점 으로 표시 되지만, 이러한 동일한 문자는 다른 용도로 사용될 수 있습니다(예: 약어 표시 ).

파싱

주어진 문장 의 구문 분석 트리 (문법 분석)를 결정합니다 . 자연 언어 의 문법 은 모호 하고 일반적인 문장에는 여러 가지 분석 이 가능합니다. 아마도 놀랍게도 일반적인 문장의 경우 수천 개의 잠재적인 구문 분석이 있을 수 있습니다(대부분은 인간에게 완전히 무의미하게 보일 것입니다). 구문 분석에는 두 가지 주요 유형이 있습니다: 종속성 구문 분석 및 구성 요소 구문 분석 . 종속성 구문 분석은 문장의 단어 사이의 관계에 초점을 맞추는 반면(주 목적어 및 술어와 같은 항목 표시) 구성요소 구문 분석은 확률적 문맥 자유 문법 (PCFG) 을 사용하여 구문 분석 트리를 구축하는 데 중점을 둡니다.확률론적 문법 ).

어휘 의미론(문맥에 있는 개별 단어의)

어휘 의미론

문맥에서 개별 단어의 계산적 의미는 무엇입니까?

분포 의미론

데이터에서 의미론적 표현을 어떻게 배울 수 있습니까?

개체명 인식 (NER)

텍스트 스트림이 주어지면 사람이나 장소와 같은 적절한 이름에 매핑되는 텍스트의 항목과 이러한 각 이름의 유형(예: 사람, 위치, 조직)을 결정합니다. 대문자 는 영어와 같은 언어에서 명명된 엔터티를 인식하는 데 도움이 될 수 있지만 이 정보는 명명된 엔터티 의 유형을 결정하는 데 도움이 되지 않으며 어떤 경우에도 종종 부정확하거나 불충분합니다. 예를 들어 문장의 첫 글자도 대문자로 표시되며 명명된 엔터티는 종종 여러 단어에 걸쳐 있으며 그 중 일부만 대문자로 표시됩니다. 또한 비서구 문자로 된 다른 많은 언어(예: 중국어 또는 아랍어 ))에는 대문자가 전혀 없으며, 대문자가 있는 언어도 이름을 구별하기 위해 일관되게 대문자를 사용하지 않을 수 있습니다. 예를 들어 독일어 는 이름 여부에 관계없이 모든 명사 를 대문자로 표시하고 프랑스어 와 스페인어 는 형용사 역할을 하는 이름을 대문자로 표시하지 않습니다 .

감성 분석 ( 멀티모달 감성 분석 참조 )

일반적으로 일련의 문서에서 주관적인 정보를 추출하고 종종 온라인 리뷰를 사용하여 특정 개체에 대한 "극성"을 결정합니다. 특히 마케팅을 위해 소셜 미디어에서 여론의 동향을 파악하는 데 유용합니다.

용어 추출

용어 추출의 목표는 주어진 말뭉치에서 관련 용어를 자동으로 추출하는 것입니다.

단어 의미 명확화 (WSD)

많은 단어에는 하나 이상의 의미 가 있습니다 . 문맥에서 가장 의미 있는 의미를 선택해야 합니다. 이 문제의 경우 일반적으로 사전이나 WordNet 과 같은 온라인 리소스에서 단어 및 관련 단어 의미 목록이 제공됩니다 .

엔티티 연결

많은 단어(일반적으로 고유명사)는 명명된 개체 를 나타냅니다 . 여기서 우리는 문맥에서 참조되는 엔티티(유명한 개인, 위치, 회사 등)를 선택해야 합니다.

관계적 의미론(개별 문장의 의미론)

관계 추출

텍스트 덩어리가 주어지면 명명된 엔터티 간의 관계를 식별합니다(예: 누가 누구와 결혼했는지).

시맨틱 파싱

텍스트 조각(일반적으로 문장)이 주어지면 그래프(예: AMR 구문 분석 ) 또는 논리적 형식주의(예: DRT 구문 분석 )에 따라 의미론의 형식적 표현을 생성합니다. 이 챌린지는 일반적으로 의미론(예: 의미론적 역할 레이블 지정, 단어 의미 명확화)의 몇 가지 기본 NLP 작업의 측면을 포함하며 본격적인 담화 분석(예: 담화 분석, 상호 참조, 아래 자연어 이해 참조) 을 포함하도록 확장될 수 있습니다. .

의미론적 역할 라벨링 (아래 암시적 의미론적 역할 라벨링 참조)

단일 문장이 주어졌을 때 의미론적 술어(예: 언어 프레임 )를 식별하고 명확하게 한 다음 프레임 요소( 의미론적 역할 )를 식별하고 분류합니다.

담화(개별 문장을 넘어선 의미론)

공동 참조 해상도

문장이나 더 큰 텍스트 덩어리가 주어지면 어떤 단어("멘션")가 동일한 개체("엔티티")를 참조하는지 결정합니다. Anaphora 해결 은 이 작업의 특정 예이며 특히 대명사 를 참조하는 명사 또는 이름과 일치시키는 것과 관련이 있습니다. 상호 참조 해결의 보다 일반적인 작업에는 참조 표현 을 포함하는 소위 "브리징 관계"를 식별하는 것도 포함됩니다 . 예를 들어 "그는 앞문을 통해 요한의 집에 들어갔다"와 같은 문장에서 "앞문"은 지시 표현이며, 연결 관계는 언급되는 문이 요한의 앞문이라는 사실이다. '

담론 분석

이 루브릭에는 여러 관련 작업이 포함되어 있습니다. 하나의 작업은 담화 구문 분석, 즉 연결된 텍스트의 담화 구조, 즉 문장 간의 담화 관계의 특성(예: 정교화, 설명, 대조)을 식별하는 것입니다. 또 다른 가능한 작업은 텍스트 덩어리(예: 예-아니오 질문, 내용 질문, 진술, 주장 등)에서 화행을 인식 하고 분류하는 것 입니다.

암시적 시맨틱 역할 레이블 지정

단일 문장이 주어지면 현재 문장에서 의미론적 술어(예: 언어 프레임 )와 명시적 의미론적 역할을 식별하고 명확하게 합니다(위의 의미론적 역할 레이블 지정 참조). 그런 다음 현재 문장에서 명시적으로 구현되지 않은 의미론적 역할을 식별하고 텍스트의 다른 곳에서 명시적으로 구현된 인수와 지정되지 않은 인수로 분류하고 로컬 텍스트에 대해 전자를 해결합니다. 밀접하게 관련된 작업은 아나포라 해상도 제로, 즉 pro-drop 언어 에 대한 상호 참조 해상도의 확장입니다 .

텍스트 함의 인식

두 개의 텍스트 조각이 주어지면 하나가 참이면 다른 하나가 다른 하나를 수반하는지, 다른 하나가 부정을 수반하는지 또는 다른 하나가 참 또는 거짓이 되도록 허용하는지 확인하십시오.

주제 세분화 및 인식

텍스트 덩어리가 주어지면 이를 각각 주제에 대한 세그먼트로 분리하고 세그먼트의 주제를 식별합니다.

인수 마이닝

인수 마이닝의 목표는 컴퓨터 프로그램의 도움을 받아 자연어 텍스트 에서 인수 구조를 자동으로 추출하고 식별하는 것 입니다. [25] 이러한 논증 구조에는 담화 내에서 전제, 결론, 논증 도식 , 주 논증과 부 논증 또는 주 논증과 반론 간의 관계가 포함된다. [26] [27]

상위 수준 NLP 애플리케이션

자동 요약 (텍스트 요약)

텍스트 덩어리의 읽을 수 있는 요약을 생성합니다. 연구 논문, 신문의 금융 섹션 기사와 같이 알려진 유형의 텍스트 요약을 제공하는 데 자주 사용됩니다.

문법 오류 수정

문법 오류 감지 및 수정에는 모든 수준의 언어 분석(음운론/철자법, 형태론, 구문, 의미론, 화용론)에 대한 광범위한 문제가 포함됩니다. 문법 오류 수정은 영어를 제2 언어로 사용하거나 습득하는 수억 명의 사람들에게 영향을 미치기 때문에 영향력이 있습니다. 따라서 2011년부터 많은 공유 작업의 대상이 되었습니다. 맞춤법, 형태, 구문 및 의미론의 특정 측면에 관한 한, 그리고 다음과 같은 강력한 신경 언어 모델의 개발로 인해 GPT-2 로 , 이것은 현재(2019년) 대부분 해결된 문제로 간주될 수 있으며 다양한 상용 응용 프로그램으로 판매되고 있습니다.

기계 번역 (MT)

한 인간 언어에서 다른 인간 언어로 텍스트를 자동으로 번역합니다. 이것은 가장 어려운 문제 중 하나이며 구어적으로 " AI-완전 "이라고 하는 문제 클래스의 구성원입니다. 즉, 인간이 소유한 모든 다양한 유형의 지식(문법, 의미론, 실제 세계에 대한 사실 등 .) 제대로 해결하려면.

자연어 이해 (NLU)

텍스트 덩어리 를 컴퓨터 프로그램이 조작 하기 쉬운 1차 논리 구조 와 같은 보다 공식적인 표현으로 변환합니다. 자연어 이해는 일반적으로 자연어 개념의 조직화된 표기법의 형태를 취하는 자연어 표현에서 파생될 수 있는 여러 가능한 의미론에서 의도된 의미론을 식별하는 것을 포함합니다. 언어 메타모델과 온톨로지의 도입과 생성은 효율적이지만 실증적인 해결책입니다. 폐쇄 세계 가정 (CWA) 대 개방 세계 가정과 같은 암시적 가정과의 혼동 없이 자연 언어 의미 체계를 명시적으로 형식화, 또는 주관적 Yes/No 대 객관적 True/False는 의미 공식화의 기반 구축을 위해 예상됩니다.

자연어 생성 (NLG):

컴퓨터 데이터베이스 또는 시맨틱 의도의 정보를 읽을 수 있는 인간 언어로 변환합니다.

도서 세대

NLP 고유의 작업이 아니라 자연어 생성 및 기타 NLP 작업의 확장은 본격적인 책을 만드는 것입니다. 최초의 기계 생성 책은 1984년에 규칙 기반 시스템에 의해 만들어졌습니다(Racter, The policeman's beard is half-constructed ). [32] 신경망에 의해 처음 출판된 작업은 2018년에 출판되었으며 , 소설로 판매되는 1 the Road 에는 6천만 단어가 포함되어 있습니다. 이 두 시스템은 기본적으로 정교하지만 무의미한(의미 없는) 언어 모델 입니다. 최초의 기계 생성 과학 책은 2019년에 출판되었습니다(Beta Writer, Lithium-Ion Batteries , Springer, Cham). Racter 및 1 the Road 와 달리, 이것은 사실적 지식과 텍스트 요약을 기반으로 합니다.

문서 AI

Document AI 플랫폼은 NLP 기술 위에 위치하여 인공 지능, 기계 학습 또는 NLP에 대한 사전 경험이 없는 사용자가 다양한 문서 유형에서 필요한 특정 데이터를 추출하도록 컴퓨터를 빠르게 훈련할 수 있습니다. NLP 기반 Document AI를 사용하면 비기술 팀이 예를 들어 변호사, 비즈니스 분석가, 회계사 등 문서에 숨겨진 정보에 빠르게 액세스할 수 있습니다. [34]

대화 관리

인간과 대화하기 위한 컴퓨터 시스템.

질의응답

인간 언어 질문이 주어지면 대답을 결정하십시오. 일반적인 질문에는 구체적인 정답(예: "캐나다의 수도는 무엇입니까?")이 있지만 때로는 개방형 질문(예: "인생의 의미는 무엇입니까?")도 고려됩니다.

텍스트를 이미지로 생성

이미지에 대한 설명이 주어지면 설명과 일치하는 이미지를 생성합니다. [35]

텍스트-장면 생성

장면에 대한 설명이 주어지면 장면의 3D 모델 을 생성합니다. [36] [37]

텍스트 투 비디오

비디오에 대한 설명이 주어지면 설명과 일치하는 비디오를 생성합니다. [38] [39]

일반적인 경향과 (가능한) 미래 방향

해당 분야의 오랜 추세를 기반으로 NLP의 향후 방향을 추정할 수 있습니다. 2020년 현재 CoNLL Shared Tasks의 오랜 시리즈 주제 중 세 가지 추세를 관찰할 수 있습니다. [40]

점점 더 추상화되는 자연 언어의 "인지적" 측면에 대한 관심(1999–2001: 얕은 구문 분석, 2002–03: 명명된 엔터티 인식, 2006–09/2017–18: 종속 구문, 2004–05/2008–09 의미론적 역할 레이블 지정, 2011-12 공동 참조, 2015-16: 담화 파싱, 2019: 의미론적 파싱).

다국어에 대한 관심 증가 및 잠재적으로 다양한 양식(1999년 이후 영어, 2002년 이후 스페인어, 네덜란드어, 2003년 이후 독일어, 2006년 이후 불가리아어, 덴마크어, 일본어, 포르투갈어, 슬로베니아어, 스웨덴어, 터키어, 바스크어, 카탈로니아어, 중국어, 그리스어, 헝가리어 , 2007년 이후 이탈리아어, 터키어, 2009년 이후 체코어, 2012년 이후 아랍어, 2017년: 40개 이상의 언어, 2018년: 60개 이상/100개 이상의 언어)

상징적 표현 제거(약하게 감독된 방법, 표현 학습 및 종단간 시스템에 대한 규칙 기반 과잉 감독)

인지

대부분의 상위 수준 NLP 응용 프로그램에는 지능적인 동작과 자연어의 명백한 이해를 에뮬레이트하는 측면이 포함됩니다. 보다 광범위하게 말하면 인지 행동의 점점 더 발전하는 측면의 기술적 조작화는 NLP의 발달 궤적 중 하나를 나타냅니다(위의 CoNLL 공유 작업 간의 추세 참조).

인지 란 "사고, 경험, 감각을 통해 지식과 이해를 습득하는 정신적 활동 또는 과정"을 의미합니다. 인지 과학 은 마음과 그 과정에 대한 학제 간 과학적 연구입니다. 인지 언어학 은 심리학과 언어학의 지식과 연구를 결합한 언어학의 학제 간 분야입니다. 특히 기호 NLP 시대 에는 전산언어학 분야가 인지연구와 긴밀한 관계를 유지하였다.

예를 들어 George Lakoff 는 인지 언어학 의 발견과 함께 인지 과학의 관점을 통해 자연어 처리(NLP) 알고리즘을 구축하는 방법론을 제공합니다. [44] 두 가지 정의 측면이 있습니다.

저자의 의도에 대한 아이디어를 제공하는 "하나의 아이디어를 다른 아이디어로 이해하는 것"으로 Lakoff가 설명하는 개념적 은유 이론을 적용합니다 . 예 를 들어 영어 단어 big 을 고려하십시오 . 비교("그것은 큰 나무다")에 사용될 때 저자의 의도는 나무가 다른 나무나 저자의 경험에 비해 물리적으로 크다는 것을 암시하는 것입니다. 은유적으로 사용될 때("내일은 큰 날입니다") 중요성 을 암시하려는 저자의 의도 . "She is a big person"과 같은 다른 용도의 의도는 추가 정보 없이 사람과 인지 NLP 알고리즘 모두에게 다소 모호하게 남을 것입니다.

예를 들어 확률론적 문맥 자유 문법 (PCFG) 을 통해 분석 중인 텍스트의 전후에 제시된 정보를 기반으로 단어, 구, 문장 또는 텍스트 조각에 상대적인 의미 측정을 할당합니다 . 이러한 알고리즘에 대한 수학 방정식은 미국 특허 9269353 에 제시되어 있습니다 .

RMM 은 의미의 상대적 척도입니다.

토큰 은 텍스트, 문장, 구 또는 단어의 블록입니다.

N 은 분석 중인 토큰의 수입니다.

PMM 은 말뭉치를 기반으로 한 의미의 가능한 척도입니다.

d 는 N-1 토큰 시퀀스에 따른 토큰의 위치입니다.

PF 는 언어별 확률 함수입니다.

인지 언어학과의 관계는 NLP의 역사적 유산의 일부이지만 1990년대 통계 전환 이후 자주 다루어지지 않았습니다. 그럼에도 불구하고 기술적으로 운용 가능한 프레임워크를 향한 인지 모델을 개발하기 위한 접근법은 다양한 프레임워크, 예를 들어 인지 문법, [46] 기능 문법, [47] 구성 문법, [48] 전산 심리 언어학 및 인지 신경 과학(예: ACT-R ), 그러나 주류 NLP( ACL 의 주요 회의 [49] 에 대한 존재로 측정)에서 제한적인 이해가 있습니다. 보다 최근에는 인지 NLP의 아이디어가 성취를 위한 접근 방식으로 되살아났습니다.예를 들어 "인지 AI"라는 개념 하에서 설명 가능성 . 마찬가지로 인지 NLP의 아이디어는 신경 모델 다중 모드 NLP에 내재되어 있습니다 ( 비록 명시적으로 만들어지는 경우는 거의 없음).