Atom => 형태소(形態素, 영어: morpheme)는 언어학에서 의미가 있는 가장 작은 말의 단위이다.
코퍼스(영어:corpus) 말뭉치는 언어학에서 주로 구조를 이루고 있는 텍스트 집합이다.
임베딩(embedding)은 변환한 벡터들이 위치한 공간이다.
1. Preprocessing : kr-Report_2018.txt 를 읽는다. => 객체화(Dataframe, Str)
2. Tokenization => 문자열(string)을 다차원 백터(vector)로 변환 (문=>str, 자열=>vector( _ ))
3. Token Embedding =>
4. Document Embedding =>
모든 것은 요소다. / 단위 = 요소
| 구조 | 설명 |
|---|---|
| 코퍼스(말뭉치) | 구조를 이루는 텍스트의 집합(토큰의단위로나눈) |
| 텍스트 | word와 sentence로 이루어진것 |
| 토큰 | 텍스트를 분할하는 단위 |
| 워드 | 스페이스나 띄어쓰기를 기준 |
| 문장(센텐스) | 마침표를 기준으로 |
| 형태소 | 의미가 있는 Word |
| 임베딩 | |
| 단락 | \n |
코퍼스-원초적인 말자체
텍스트-현재 쓰고있는 텍스트(글자)
센텐스 -
워드 - 조사 어미가 없다
형태소 - 조사 어미가 있다