본문 바로가기

[NLP] 한국어 자연어 처리 NLP :: KoNLP

Python/기타 2020. 2. 27.

반응형

KoNLP

- 형태소 단위로 형태소 토큰화 수행

 

 

1. Okt

 

morphs : 형태소 추출

from konlpy.tag import Okt  

text = "들은 적 있어 지구가 생긴 후에 말야, 지금껏 말야. 한번도 같은 날씨였었던 적 없었대. 꼭 널 닮았어. 처음 만난 그날부터 매일 다르게 예쁜 걸. 말할래 내일도, 만날까 우리 또. 이렇게 eye 2 eye, 너를 좋아해 eye 2 eye."

okt=Okt()  
okt.morphs(text)

['들은', '적', '있어', '지구', '가', '생긴', '후', '에', '말', '야', ',', '지금껏', '말', '야', '.', '한번', '도', '같은', '날씨', '였었던', '적', '없었대', '.', '꼭', '널', '닮았어', '.', '처음', '만난', '그날', '부터', '매일', '다르게', '예쁜', '걸', '.', '말', '할래', '내일', '도', ',', '만날까', '우리', '또', '.', '이렇게', 'eye', '2', 'eye', ',', '너', '를', '좋아해', 'eye', '2', 'eye', '.']

 

 

 

pos : 품사태깅 (Part of speech tagging)

okt.pos(text)

[('들은', 'Verb'), ('적', 'Noun'), ('있어', 'Adjective'), ('지구', 'Noun'), ('가', 'Josa'), ('생긴', 'Verb'), ('후', 'Noun'), ('에', 'Josa'), ('말', 'Noun'), ('야', 'Josa'), (',', 'Punctuation'), ('지금껏', 'Noun'), ('말', 'Noun'), ('야', 'Josa'), ('.', 'Punctuation'), ('한번', 'Noun'), ('도', 'Josa'), ('같은', 'Adjective'), ('날씨', 'Noun'), ('였었던', 'Verb'), ('적', 'Noun'), ('없었대', 'Adjective'), ('.', 'Punctuation'), ('꼭', 'Noun'), ('널', 'Noun'), ('닮았어', 'Verb'), ('.', 'Punctuation'), ('처음', 'Noun'), ('만난', 'Noun'), ('그날', 'Noun'), ('부터', 'Josa'), ('매일', 'Noun'), ('다르게', 'Adjective'), ('예쁜', 'Adjective'), ('걸', 'Noun'), ('.', 'Punctuation'), ('말', 'Noun'), ('할래', 'Verb'), ('내일', 'Noun'), ('도', 'Josa'), (',', 'Punctuation'), ('만날까', 'Verb'), ('우리', 'Noun'), ('또', 'Noun'), ('.', 'Punctuation'), ('이렇게', 'Adverb'), ('eye', 'Alpha'), ('2', 'Number'), ('eye', 'Alpha'), (',', 'Punctuation'), ('너', 'Noun'), ('를', 'Josa'), ('좋아해', 'Adjective'), ('eye', 'Alpha'), ('2', 'Number'), ('eye', 'Alpha'), ('.', 'Punctuation')]

 

 

nouns : 명사 추출

okt.nouns(text)

['적', '지구', '후', '말', '지금껏', '말', '한번', '날씨', '적', '꼭', '널', '처음', '만난', '그날', '매일', '걸', '말', '내일', '우리', '또', '너']

 

 


2. kkma

 

morphs : 형태소 추출

from konlpy.tag import Kkma  

text = "밤 하늘을 빛내는 별은 너를 떠오르게 해. 어두웠던 나의 하늘을 비춰준 건 너였어. 밤 하늘을 빛내는 별은 너를 닮은 것 같아. 겉잡을 수 없이 커져만 가는 내 맘을 알긴 할까. 바라 볼 수록 더, 보고 싶어 지나봐. 다가 가려 할수록 멀어지는 건 가봐. 닿을 듯 말 듯."

kkma=Kkma()  
kkma.morphs(text)

['밤', '하늘', '을', '빛내', '는', '별', '은', '너', '를', '떠오르', '게', '하', '어', '.', '어둡', '었', '더', 'ㄴ', '나의', '하늘', '을', '비추', '어', '주', 'ㄴ', '것', '은', '너', '이', '었', '어', '.', '밤', '하늘', '을', '빛내', '는', '별', '은', '너', '를', '닮', '은', '것', '같', '아', '.', '겉잡', '을', '수', '없이', '커지', '어', '만', '갈', '는', '내', '맘', '을', '알', '기', '는', '하', 'ㄹ까', '.', '바라', '볼', '수록', '더', ',', '보', '고', '싶', '어', '지', '나봐', '.', '다그', '아', '가리', '어', '하', 'ㄹ수록', '멀', '어', '지', '는', '건', '가보', '아', '.', '닿', '을', '듯', '말', 'ㄹ', '듯', '.']

 

 

pos : 품사태깅 (Part of speech tagging)

kkma.pos(text)

[('밤', 'NNG'), ('하늘', 'NNG'), ('을', 'JKO'), ('빛내', 'VV'), ('는', 'ETD'), ('별', 'NNG'), ('은', 'JX'), ('너', 'NP'), ('를', 'JKO'), ('떠오르', 'VV'), ('게', 'ECD'), ('하', 'VV'), ('어', 'ECS'), ('.', 'SF'), ('어둡', 'VV'), ('었', 'EPT'), ('더', 'EPT'), ('ㄴ', 'ETD'), ('나의', 'NNG'), ('하늘', 'NNG'), ('을', 'JKO'), ('비추', 'VV'), ('어', 'ECS'), ('주', 'VXV'), ('ㄴ', 'ETD'), ('것', 'NNB'), ('은', 'JKS'), ('너', 'NP'), ('이', 'VCP'), ('었', 'EPT'), ('어', 'EFN'), ('.', 'SF'), ('밤', 'NNG'), ('하늘', 'NNG'), ('을', 'JKO'), ('빛내', 'VV'), ('는', 'ETD'), ('별', 'NNG'), ('은', 'JX'), ('너', 'NP'), ('를', 'JKO'), ('닮', 'VV'), ('은', 'ETD'), ('것', 'NNB'), ('같', 'VA'), ('아', 'ECD'), ('.', 'SF'), ('겉잡', 'VV'), ('을', 'ETD'), ('수', 'NNB'), ('없이', 'MAG'), ('커지', 'VV'), ('어', 'ECS'), ('만', 'JX'), ('갈', 'VV'), ('는', 'ETD'), ('내', 'NP'), ('맘', 'NNG'), ('을', 'JKO'), ('알', 'VV'), ('기', 'ETN'), ('는', 'JKS'), ('하', 'VV'), ('ㄹ까', 'EFQ'), ('.', 'SF'), ('바라', 'NNG'), ('볼', 'NNG'), ('수록', 'NNG'), ('더', 'MAG'), (',', 'SP'), ('보', 'VV'), ('고', 'ECE'), ('싶', 'VXA'), ('어', 'ECD'), ('지', 'NNG'), ('나봐', 'UN'), ('.', 'SF'), ('다그', 'VV'), ('아', 'ECS'), ('가리', 'VV'), ('어', 'ECS'), ('하', 'VV'), ('ㄹ수록', 'ECD'), ('멀', 'VA'), ('어', 'ECD'), ('지', 'VXV'), ('는', 'ETD'), ('건', 'NNM'), ('가보', 'VV'), ('아', 'ECS'), ('.', 'SF'), ('닿', 'VA'), ('을', 'ETD'), ('듯', 'NNB'), ('말', 'VV'), ('ㄹ', 'ETD'), ('듯', 'NNB'), ('.', 'SF')]

 

 

nouns : 명사 추출

kkma.nouns(text)

['밤', '하늘', '별', '너', '나의', '수', '내', '맘', '바라', '볼', '수록', '지', '지나봐', '나봐', '건', '듯']

 

 

 

 

Reference

728x90

Comments