Chinese (Simplified) English Italian Japanese Korean Portuguese Spanish
데이터 마이닝 공부하기
본문 바로가기
The. Note/개발&계발

데이터 마이닝 공부하기

by 오늘의 TIP 2023. 2. 25.
반응형

 

 

대부분 대학의 데이터 마이닝 개론 수업이 있다. 빅 데이터에 대해서 알기 위해서는 데이터에 대한 이해가 필요하다. 데이터의 종류는 숫자 데이터, 이진 데이터, 명목 데이터, 이산/연속형 데이터가 있다. 용어는 어려워 보일 수 있지만 조금만 알고 나면 정말 이해하기 쉽다. 깊이 있게는 아니더라도 꽤 많은 부분을 다방면으로 알아야 하는 데이터에 살펴보겠다.

 

 

데이터 이해하기

데이터는 중고등학교 시절에 배운 내용이다. 기본적인 평균, 중위값, 최빈값, 표준편차, 사분위수와 같은 기초 통계들의 개념과 각 기초 통계들이 어떤 상황에서 쓰여야 데이터를 잘 요약, 표출할 수 있는지 알아야 한다.명목 데이터 : 사물의 기호나 이름과 같은 데이터이진 데이터 : 0과 1로 이루어진 데이터순서 데이터 : 상중하 처럼 등급이나 계급이 있는 데이터숫자 데이터 : 절대 영점을 가지고 있으면 비율척도 데이터, 없으면 등간 척도 데이터이산/연속 데이터 : 정수형이면 이산 데이터, 연속형이면 연속형 데이터

반응형

데이터 전처리 기술이 가장 중요하다

데이터 분석에서 가장 오랜 시간과 에너지가 쓰이는 부분이 전처리 부분이다. 보편적으로 많이 사용되는 데이터 전처리 기술들을 익히고 실제 분석 시 필요한 기술들을 골라서 쓸 수 있어야 한다. 데이터 정제(대치, 노이즈 제거, 결측치 제거), 데이터 통합(중복 데이터 처리, 복사, 단위 통합), 데이터 축소(주 성분분석, 속성 선택법, 샘플링), 데이터 변환(데이터 정규화, 비닝)과 같은 기술들을 익혀야 한다.

 

마지막 데이터 분석 알고리즘 공부하기

실제 분석 알고리즘에 대해 공부를 해야 하는데, 정말 많은 분석 알고리즘들이 있어서 빠르게 하나씩 알고 넘어가는 것이 중요하다. 상관관계 분석, 연관관계 분석, 빈발 패턴 분석, 회귀 분석, 아웃라이어 분석, 클러스터 분석 등 이외에도 여러 가지 분석법이 있다. 또한 각 분석들을 세부적으로 살펴보면 수많은 알고리즘이 있다. 

목적은 다 같은클래스 분류지만 각 알고리즘이 지니는 목적과 장점과 단점이 서로 다르기 때문에 알아두어야 한다. 또한 기본적으로 어떻게 동작하는지 그 원리도 이해해야 써먹을 수 있다. 구체적 알고리즘들을 논문이나 구글에서 검색해 가며 찾아볼 수도 있지만, 정말 번거롭다. 따라서 두꺼운 책 한 권을 사서 한 번에 전부 독파하는 것이 훨씬 효율적이다. 

여기까지가 데이터 마이닝에 대한 기본 개념을 익힌 것이다. 

 

 

데이터 마이닝 개념과 기법 - 에이콘 출판 패턴인식 - 교보문고데이터 마이닝 기법과 응용- 한나래

 

 

 

저의 글을 읽어 주셔서 감사합니다. 오늘도 즐거운 하루 보내세요.

저의 글이 조금이나마 도움이 되셨다면 로그인이 필요 없는 공감♥ 한번 꾹 눌러주세요.

 

반응형
그리드형

댓글