머신 러닝 프로젝트 시작에 대한 4 가지 오해

콘텐츠

신화 # 1 : 더 많은 데이터가 항상 더 낫다
신화 # 2 : 우리가 가진 데이터는 충분하다
버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드
신화 # 3 : 너무 이르다!
신화 # 4 : 기계 학습은 항상 같다
오해 # 5 : 기계 학습은 신중하게 선별 된 데이터에서만 작동

출처 : monsitj / iStockphoto

테이크 아웃 :

엔터프라이즈 채택에 더 적합한 방향을 잡기 위해 이러한 머신 러닝의 신화에 대해 알아보십시오.

가볍게 배우는 것은 아닙니다. 머신 러닝 프로젝트부터 시작하면이 IT 트렌드를 활용하고 싶지만 머신을 만드는 요소의 내용을 실제로 이해하기위한 사내 지식이 부족한 임원에게는 어려운 프로세스가 될 수 있습니다. 학습 프로젝트 진드기.

여기서는 빠르게 변화하는 시장에서 회사가 기계 학습 기술을 개발하는 방법에 영향을 미치는 몇 가지 기본 오해에 대해 이야기합니다. (데이터 과학은 비즈니스에서 구현하는 또 다른 분야이지만 ML과 다른 점은 무엇입니까? 데이터 과학 또는 기계 학습에서 찾아보십시오. 차이점을 발견하는 방법.)

신화 # 1 : 더 많은 데이터가 항상 더 낫다

이것은 실제로 머신 러닝의 가장 큰 신화 중 하나입니다. 사람들은 데이터가 많을수록 실행 가능한 통찰력을 연마 할 수있는 능력이 더 크다고 생각합니다. 어떤 경우에는 옳지 만, 더 자주는 그 반대 일 수도 있습니다.

더 많은 데이터는 전체 그림에 추가되는 관련 데이터 인 경우에만 더 좋습니다. 데이터가 머신 러닝 모델에 맞아야하거나 프로그램에 머신 러닝 결과가 원하는 방식으로 나타나지 않는 "과적 합 (overfitting)"이라는 문제가 발생할 수 있습니다.

머신 러닝 마스터리의 Jason Brownlee는“머신 러닝 성능 저하의 원인은 데이터를 과적 합하거나 과적 합하고 있습니다.

통계에서 적합치는 대상 함수의 근사값을 나타냅니다. 감독 된 머신 러닝 알고리즘은 입력 변수가 주어지면 출력 변수에 대해 알려지지 않은 기본 매핑 기능을 근사하기 때문에 머신 러닝에 사용하기에 좋은 용어입니다. 통계는 종종 함수의 근사가 대상 함수와 얼마나 잘 일치하는지 추정하는 데 사용되는 측정 값을 나타내는 적합도를 설명합니다.

간단히 말해서, 외부 데이터는 심각한 문제를 일으킬 수 있습니다. 기계 학습 프로젝트가 작동하도록 설정하기 전에 경영진 및 기타 이해 관계자는 진전을위한 올바른 기초를 제공 할 특정 유형의 데이터가 무엇인지 브레인 스토밍하고 파악해야합니다.

신화 # 2 : 우리가 가진 데이터는 충분하다

머신 러닝 프로세스는 매우 정확한 데이터 모델에서 작동합니다. 데이터는 편향 및 분산과 같은 것을 설명하기 위해 명확하게 목표를 정하고 컬링하거나 평가하지 않는 한 충분하지 않습니다.

버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드

아무도 소프트웨어 품질에 신경 쓰지 않으면 프로그래밍 기술을 향상시킬 수 없습니다.

머신 러닝 세계에서 많이 듣는 것은 통제되지 않는 편견입니다. 기계 학습은 인간의 편견을 취하고 프로그램이 얻을 수있는 데이터를 잠재적으로 극단적 인 결과로 끌어 올려 증폭시킵니다.

즉, 이러한 경향을 보완하기 위해 데이터를 추가로 타겟팅해야합니다.

신화 # 3 : 너무 이르다!

일부 회사는 기계 학습에 넘어 가기에는 너무 이르다고 걱정합니다. 그러나 많은 혁신가와 기업가들과 이야기한다면, 1 층에 들어갈 시간이라고 정확히 말할 것입니다.

IT 트렌드가 어디에 있든, 앞서 나가고 자합니다. 선봉대에서 가장 좋은 위치입니다. 모든 것이 완벽 해지기를 기다리면 장기적으로 비즈니스 비용이들 수 있습니다. (비즈니스가 아직 ML을 구현하지 않은 이유에 대한 자세한 내용은 머신 러닝을 채택하는 4 가지로드 블록을 참조하십시오.)

신화 # 4 : 기계 학습은 항상 같다

다양한 머신 러닝 프로그램이 있습니다.

그들 중 일부는 본질적으로 단일 알고리즘을 사용합니다. 수학적으로 읽기 쉽고 투명합니다. 엔지니어는 들어오는 데이터가 시스템에서 나오는 것과 어떻게 관련되는지 확인할 수 있습니다.

다른 머신 러닝 프로세스는 훨씬 정교하고 이해하기 어렵습니다. 인공 뉴런으로 구성된 신경망은 본질적으로“블랙 박스”가 될 수 있으며, 최고의 엔지니어조차도 시스템을 통해 데이터를 추적하거나 알고리즘의 작동 방식을 설명하기가 어렵습니다.

Scientific American의 Ariel Bleicher는“필수 신경 기술과 같은 가장 유능한 기술은 불투명하고 악명 높은 것으로 결론에 도달하는 방법에 대한 단서를 거의 제공하지 않습니다.

반향 상태 네트워크와 같은 도구는이 블랙 박스 아이디어를 가져와 실행합니다. 따라서 이러한 시스템의 작동 방식을 완전히 파악하기가 더 어려워집니다.

오해 # 5 : 기계 학습은 신중하게 선별 된 데이터에서만 작동

정밀 데이터에 대한 위의 사항은 여전히 사실이지만 두 가지 유형의 기계 학습이 근본적으로 다른 방식으로 작동합니다.

감독 머신 러닝이라는 한 유형의 머신 러닝은 레이블이 지정된 데이터를 처리합니다. 훈련 데이터에는 이미 속성과 범주를 설명하는 레이블이 있습니다.

다른 종류의 기계 학습을 비지도 기계 학습이라고합니다. 레이블이없는 데이터를 처리합니다.

비지도 머신 러닝은 원시 데이터를 취하며, 머신은 본질적으로 특성을 분석하고 자체 카테고리로 그룹화합니다. 두 가지 유형의 머신 러닝에는 많은 잠재력이 있지만, 감독되는 머신 러닝을 위해 데이터가 레이블이 지정된 프로그램을 설정하는 것이 더 쉽습니다. 비지도 기계 학습은 많은 회사에서 미지의 물입니다.

이것들은 여러분이 고려해야 할 몇 가지 사항이며, 기업 채택에 문제를 일으킬 수있는 기계 학습에 대한 오해입니다. 이것이 머신 러닝 프로젝트에 대한 혼란을 없애는 데 도움이 되었기를 바랍니다.