데이터 마이닝 및 데이터 과학 학습을위한 7 단계

작가: Eugene Taylor
창조 날짜: 12 팔월 2021
업데이트 날짜: 20 6 월 2024
Anonim
데이터마이닝 7장 KNN
동영상: 데이터마이닝 7장 KNN

콘텐츠


출처 : Paul Fleet / Dreamstime.com

테이크 아웃 :

데이터 과학은 최선의 방법으로 배우지 만 통계와 머신 러닝의 기초도 중요합니다.

데이터 마이닝과 데이터 과학을 배우는 방법을 자주 묻는다. 여기 내 요약이 있습니다.

데이터 마이닝 및 데이터 과학을 가장 잘 배울 수 있으므로 최대한 빨리 데이터 분석을 시작하십시오! 그러나 이론을 배우는 것을 잊지 마십시오. 현재 수행중인 작업을 이해하고 빅 데이터의 노이즈에서 실질적인 가치를 찾기 위해서는 훌륭한 통계 및 기계 학습 기초가 필요하기 때문입니다.

다음은 데이터 마이닝 및 데이터 과학을 학습하기위한 7 단계입니다. 번호가 매겨져 있지만 병렬 또는 다른 순서로 수행 할 수 있습니다.

  1. 언어 : R, Python 및 SQL 배우기
  2. 도구 : 데이터 마이닝 및 시각화 도구 사용 방법 알아보기
  3. 책 : 기본 사항을 이해하기 위해 소개 책을 읽으십시오.
  4. 교육 : 웹 세미나를보고, 과정을 수강하고, 데이터 과학 학위 또는 학위를 고려하십시오 (Ben Loricas의 데이터 과학자 육성 방법 참조).
  5. 데이터 : 사용 가능한 데이터 리소스를 확인하고 그곳에서 무언가를 찾으십시오
  6. 경쟁 : 데이터 마이닝 경쟁에 참여
  7. 소셜 네트워크, 그룹 및 회의를 통해 다른 데이터 과학자와 상호 작용

이 기사에서는 데이터 마이닝과 데이터 과학을 서로 바꿔 사용할 수 있습니다. 통계, 지식 발견, 데이터 마이닝, 예측 분석, 데이터 과학 및 빅 데이터와 같은 다양한 용어의 발전과 인기를 살펴볼 수있는 프레젠테이션, 분석 산업 개요를 참조하십시오.

1. 학습 언어

최근 KDnuggets Poll은 데이터 마이닝에 가장 많이 사용되는 언어는 R, Python 및 SQL이라는 것을 발견했습니다. 예를 들어 각각에 대한 많은 리소스가 있습니다.


  • R을 사용한 데이터 과학에 대한 무료 전자 책
  • 데이터 과학을위한 Python 시작하기
  • Python for Data Analysis : 실제 데이터를위한 민첩한 도구
  • 없어서는 안될 파이썬 : 데이터 과학에 대한 데이터 소싱
  • W3 학교 학습 SQL

2. 도구 : 데이터 마이닝, 데이터 과학 및 시각화 소프트웨어

다양한 작업을위한 많은 데이터 마이닝 도구가 있지만 전체 데이터 분석 프로세스를 지원하는 데이터 마이닝 제품군을 사용하는 방법을 배우는 것이 가장 좋습니다. KNIME, RapidMiner 및 Weka와 같은 오픈 소스 (무료) 도구로 시작할 수 있습니다.

그러나 많은 분석 작업의 경우 주요 상용 도구이며 널리 사용되는 SAS를 알아야합니다. 널리 사용되는 다른 분석 및 데이터 마이닝 소프트웨어로는 MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler 및 Rattle이 있습니다.

버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드

아무도 소프트웨어 품질에 신경 쓰지 않으면 프로그래밍 기술을 향상시킬 수 없습니다.

시각화는 모든 데이터 분석에서 필수적인 부분입니다. Microsoft Excel (많은 간단한 작업에 적합), R 그래픽 (특히 ggplot2) 및 시각화를위한 훌륭한 패키지 인 Tableau를 사용하는 방법에 대해 알아 봅니다. 다른 유용한 시각화 도구로는 TIBCO Spotfire 및 Miner3D가 있습니다.

3. 책

사용 가능한 많은 데이터 마이닝 및 데이터 과학 서적이 있지만 다음을 확인할 수 있습니다.

  • 데이터 마이닝 및 분석 : 기본 개념 및 알고리즘, 무료 PDF 다운로드 (초안), Mohammed Zaki 및 Wagner Meira Jr.
  • 데이터 마이닝 : 실용적인 기계 학습 도구 및 기법, Ian Witten, Eibe Frank 및 Mark Hall, Weka 저자, Weka를 예제로 광범위하게 사용
  • 통계 학습, 데이터 마이닝, 추론 및 예측의 요소, Trevor Hastie, Robert Tibshirani, Jerome Friedman. 수학 중심의 훌륭한 소개
  • LIONbook : 웹에서 무료로 구할 수있는 Roberto Battiti 및 Mauro Brunato의 학습 및 지능형 최적화
  • A. Rajaraman, J. Ullman의 대규모 데이터 세트 채광 책
  • StatSoft 전자 통계 서적 (무료), 많은 데이터 마이닝 주제 포함

4. 교육 : 웹 세미나, 코스, 수료증 및 학위

분석, 빅 데이터, 데이터 마이닝 및 데이터 과학의 최신 주제에 대한 많은 무료 웹 세미나 및 웹 캐스트를 시청하여 시작할 수 있습니다.


짧고 긴 많은 온라인 과정이 있으며, 그 중 많은 과정이 무료입니다. (KDnuggets 온라인 교육 디렉토리를 참조하십시오.)

특히 다음 코스를 확인하십시오.

  • Andrew Ng가 강의하는 Machine Learning
  • Caltech 교수 Yaser Abu-Mostafa가 강의 한 edX의 데이터를 통한 학습
  • Syracuse iSchool의 응용 데이터 과학 온라인 과정 열기
  • Weka를 통한 데이터 마이닝, 무료 온라인 강좌
  • 학기 별 데이터 마이닝 입문 과정 인 내 데이터 마이닝 코스에서 무료 온라인 슬라이드를 확인하십시오.

마지막으로, 데이터 마이닝 및 데이터 과학 또는 데이터 과학 석사 학위와 같은 고급 학위에 인증서를받는 것을 고려하십시오.

5. 데이터

분석 할 데이터가 필요합니다. 다음을 포함하여 데이터 마이닝 용 데이터 세트의 KDnuggets 디렉토리를 참조하십시오.

  • 정부, 연방, 주, 도시, 지역 및 공공 데이터 사이트 및 포털
  • 데이터 API, 허브, 마켓 플레이스, 플랫폼, 포털 및 검색 엔진
  • 무료 공개 데이터 세트

6. 경쟁

다시 한 번 배우면 Kaggle 대회에 참여하는 것이 가장 좋습니다. 기계 학습을 사용한 타이타닉 생존 예측과 같은 초보자 경쟁부터 시작하십시오.

7. 상호 작용 : 회의, 그룹 및 소셜 네트워크

많은 피어 그룹에 가입 할 수 있습니다. 분석, 빅 데이터, 데이터 마이닝 및 데이터 과학에 대한 상위 30 개 링크드 인 그룹을 참조하십시오.

AnalyticBridge는 분석 및 데이터 과학을위한 활발한 커뮤니티입니다.

분석, 빅 데이터, 데이터 마이닝, 데이터 과학 및 지식 검색에 관한 많은 회의 및 컨퍼런스에 참석할 수 있습니다.

또한, 업계 최고의 리서치 컨퍼런스 인 연례 KDD 컨퍼런스를 주최하는 ACM SIGKDD에 참여하는 것도 고려하십시오.

이 기사는 KDNuggets.com에서 제공합니다. 저자의 허락하에 사용되었습니다.