데이터 과학 프로세스를 자동화하고 최적화하는 몇 가지 주요 방법은 무엇입니까? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); 큐:

콘텐츠

큐:
에이:

큐:

데이터 과학 프로세스를 자동화하고 최적화하는 몇 가지 주요 방법은 무엇입니까?

에이:

머신 러닝 및 AI와 관련된 데이터 과학 프로세스는 다음과 같은 4 가지 단계로 나눌 수 있습니다.

데이터 수집 및 탐색
모델 빌딩,
모델 배포 및
온라인 평가 및 개선.

내 경험상 가장 방해가되는 단계는 머신 러닝 기반 데이터 과학 프로세스의 데이터 수집 및 모델 배포 단계이며,이를 최적화하는 두 가지 방법이 있습니다.

1. 접근성이 높은 데이터 저장소를 설정하십시오.

대부분의 조직에서 데이터는 하나의 중앙 위치에 저장되지 않습니다. 고객과 관련된 정보 만 가져 오겠습니다. 비즈니스가 웹 응용 프로그램 인 경우 고객 연락처 정보, 고객 지원, 고객 피드백 및 고객 검색 기록이 있습니다. 이 모든 데이터는 다른 용도로 사용되므로 자연스럽게 흩어져 있습니다. 그것들은 다른 데이터베이스에 상주 할 수 있으며, 일부는 완전히 구조화되고 일부는 비정형 화 될 수 있으며 심지어 일반 파일로 저장 될 수도 있습니다.

불행하게도, 모든 NLP, 기계 학습 및 AI 문제의 기초가되기 때문에 이러한 데이터 세트의 분산은 데이터 과학 작업에 매우 제한적입니다. 데이터. 따라서이 모든 데이터를 한 곳에 (데이터 저장소) 저장하는 것이 모델 개발 및 배포 가속화에 가장 중요합니다. 이것이 모든 데이터 과학 프로세스에서 중요한 부분이기 때문에 조직은 자격을 갖춘 데이터 엔지니어를 고용하여 데이터 저장소를 구축해야합니다. 이를 통해 간단한 데이터 덤프를 한 곳으로 쉽게 시작할 수 있으며, 잘 고안된 데이터 리포지토리로 천천히 성장할 수 있습니다. 유틸리티 도구를 사용하여 완전히 문서화되어 쿼리하여 데이터의 하위 집합을 다양한 목적으로 다른 형식으로 내보낼 수 있습니다.

2. 모델을 완벽한 통합을위한 서비스로 노출하십시오.

데이터에 액세스 할 수있을뿐만 아니라 데이터 과학자가 개발 한 모델을 제품에 통합 할 수 있어야합니다. Python에서 개발 된 모델을 Ruby에서 실행되는 웹 응용 프로그램과 통합하는 것은 매우 어려울 수 있습니다. 또한이 모델에는 제품이 제공하지 못할 수있는 많은 데이터 종속성이있을 수 있습니다.

이 문제를 해결하는 한 가지 방법은 모델을 "웹 서비스"로 사용하기 위해 모델 주위에 강력한 인프라를 설정하고 제품에 필요한 기능 만 충분히 노출시키는 것입니다. 예를 들어, 응용 프로그램에서 제품 리뷰에 대한 감정 분류가 필요한 경우 웹 서비스를 호출하는 것만으로도 관련성을 제공 할 수 있으며 서비스는 제품이 직접 사용할 수있는 적절한 감정 분류를 제공합니다. 이런 식으로 통합은 단순히 API 호출 형태입니다. 모델과 모델을 사용하는 제품을 분리하면 새로운 제품이 번거 로움없이 이러한 모델을 쉽게 사용할 수 있습니다.

이제 모델 주위에 인프라를 설정하는 것은 완전히 다른 이야기이며 엔지니어링 팀의 초기 투자가 필요합니다. 인프라가 일단 구축되면 인프라에 적합한 방식으로 모델을 작성하면됩니다.