코퍼스/텍스트/워드/센텐스/형태소 정의

Atom => 형태소(形態素, 영어: morpheme)는 언어학에서 의미가 있는 가장 작은 말의 단위이다.
코퍼스(영어:corpus) 말뭉치는 언어학에서 주로 구조를 이루고 있는 텍스트 집합이다.
임베딩(embedding)은 변환한 벡터들이 위치한 공간이다.
1. Preprocessing : kr-Report_2018.txt 를 읽는다. => 객체화(Dataframe, Str)
2. Tokenization => 문자열(string)을 다차원 백터(vector)로 변환 (문=>str, 자열=>vector( _ ))
3. Token Embedding =>
4. Document Embedding =>

코퍼스(말뭉치) 자체는 Interval이며, 아톰(형태소)로 분할한다.

<csv~~>Matrix ⇒ <코퍼스>Vector로 한줄로 쭉 나열하는것을 Stream⇒

모든 것은 요소다. / 단위 = 요소

구조 설명
코퍼스(말뭉치) 구조를 이루는 텍스트의 집합(토큰의단위로나눈)
텍스트 word와 sentence로 이루어진것
토큰 텍스트를 분할하는 단위
워드 스페이스나 띄어쓰기를 기준
문장(센텐스) 마침표를 기준으로
형태소 의미가 있는 Word
임베딩
단락 \n

코퍼스-원초적인 말자체

텍스트-현재 쓰고있는 텍스트(글자)

센텐스 -

워드 - 조사 어미가 없다

형태소 - 조사 어미가 있다

https://wikidocs.net/21698

1. 텍스트마이닝-비정형 ⇒ 1순서

2. 데이터 마이닝-정형 ⇒ 2순서