나는 죽은 사람들의 말을 듣는가? 자연어 기술로 과거와 현재의 목소리가 살아납니다

작가: Judy Howell
창조 날짜: 5 칠월 2021
업데이트 날짜: 21 6 월 2024
Anonim
나는 죽은 사람들의 말을 듣는가? 자연어 기술로 과거와 현재의 목소리가 살아납니다 - 과학 기술
나는 죽은 사람들의 말을 듣는가? 자연어 기술로 과거와 현재의 목소리가 살아납니다 - 과학 기술

콘텐츠


테이크 아웃 :

통조림을 잊어 버리십시오. 실제 언어를 재현하는 것이 자연 언어 처리의 새로운 목표입니다.

요즘 대부분의 컴퓨터 음성은 지나친 다. 휴대 전화에서 "드로이드"소리가 들리면 청구서 지불에 도움이되거나 원하는 부서에 대해 문의 할 때 사이보그 및 로봇에 대해 잘 알고 있지 않을 것입니다. 그러나 Kurt Cobain이 갑자기 카드 정보를 요구한다고 들었다면 어떨까요? 아니면 존 F. 케네디가 조기 투표의 경이로움을 말합니까? 아니면 엘비스가 당신의 이름과 주소를 알아 내기 전에 "취한 사랑의 덩어리?"

이 모든 것이 ... 이상한 일이지만 더 흥미로운 것은 기술이 기본적으로 이미 존재한다는 것입니다. 불과 10 년 전만해도 우리는 컴퓨터로 대화 할 수있는 능력에 놀랐습니다. 이제 우리는 우리가 알고있는 사람들처럼 들리는 컴퓨터로 생성 된 무료 범위의 음성으로 바닥을 to습니다.

NLP의 큰 변화

자연어 처리 (NLP) 분야에주의를 기울이고 있다면, 현재 GPS (Global Positioning System) 및 자동화 된 비즈니스에서들을 수있는 통조림 가상 어시스턴트 음성의 종류를 뛰어 넘는 최근의 발전에 대해 들어 보셨을 것입니다. 전화선.

NLP의 시작은 인간 연설의 일반적인 역학에 대한 많은 연구가 필요했습니다. 연구원과 엔지니어는 개별 음성학을 식별하고이를 구문과 문장을 생성하기위한 더 큰 알고리즘으로 접은 다음 메타 수준에서 모든 것을 관리하여 실제처럼 들리는 것을 생성해야했습니다. 시간이 지남에 따라 NLP 리더는 이것을 마스터하고 인간의 말을 이해하기 위해 고급 알고리즘을 구축하기 시작했습니다. 이 두 가지를 합쳐서 회사는 오늘날의 가상 조수와 완전 디지털 청구서 담당자를 이끌어 냈습니다. 짜증나는 동안 매너리즘은 그 일에 대해 생각하지 않아도 여전히 놀랍습니다.

이제 일부 회사는 일반적인 가상 음성을 뛰어 넘어보다 구체적인 개인화 된 결과를 모으고 있습니다. 이를 위해서는 특정 인물의 어휘를 살펴보고 대량의 고유 한 음성 비디오를 수집 한 다음이 아카이브를 음성학, 강조, 케이던스 및 언어 학자들이 종종 "번영"이라는 광범위한 배너 아래 그룹화하는 기타 모든 작은 신호에 대한 복잡한 리듬에 적용해야합니다.

듣는 사람은 특정 사람이 알고 있고 말한 사람 또는 사람의 명성으로 인해 자신의 목소리를 인식하는 사람이 "소유"한 것으로 생각하는 목소리입니다.

엘비스에서 마틴 루터 킹에 이르기까지 모든 사람의 목소리는 이제 녹음 된 방식으로 녹음 된 것이 있다면 이러한 방식으로 "복제"될 수 있습니다. 기업은 개별적인 작은 소리에 더 자세한 분석과 조작을 적용함으로써 실제와 매우 흡사 한 사람의 목소리를 가상으로 복사 할 수 있습니다.

Vivo에서 흥미 진진한 "음성"창작물

예를 들어, Vivo는 오디오 북에서 대화 형 음성 응답 (IVR)에 이르기까지 모든 종류의 캠페인에 인공 인간 음성 사용을 혁신하기 위해 노력하는 회사 중 하나입니다. Vivo의 연구 및 생산 팀은 이론적으로 Ol Blue Eyes와 같은 사망 한 유명인의 목소리를 구체적으로 재현 할 수있는 프로세스를 연구하고 있습니다.

Vivo의 CEO 인 Gershon Silbert는 "Frank Sinatra의 목소리를 복제하기 위해 실제로 녹음 된 유산을 살펴볼 것"이라고 말합니다.

현재 Vivo는 이런 종류의 IT 개척자 프로젝트의 모델로 서명 한 NPR 통신원 Neal Conan과 같이 우리와 함께있는 사람들의 목소리를 보관하기 위해 노력하고 있습니다. 프로모션 비디오는 Vivo 직원이 Conan에서 제공 한 음성 입력을 사용하여 음성 코드 모듈을 힘들게 만드는 것을 보여줍니다. 그런 다음 극도로 인간적이고 개인화 된 결과를 불러 일으키는 TTS 도구 모델을 만듭니다.

Vivo의 전략 및 사업 개발 부사장 인 벤 펠러 먼 (Ben Feibleman)에 따르면, 컴퓨터는 음소 수준에서 작동하며 (가장 작은 고유 한 부분을 사용하여) 개별 인간 목소리에 대한 프로 소딕 모델을 따릅니다.

Feibleman은 "음성 대화 방법을 알고있다"고 말하면서 "단위 선택"을 사용하여 컴퓨터는 "금요일"이라는 단어에 5 개의 구성 요소가있는 것처럼 단일 단어를 구성 할 수있는 여러 조각을 선택합니다. 특별한 강조와 색조 결과.

마케팅의 인공 목소리

마케팅에서 어떻게 작동합니까? Vivo의 제품은 오디오 북과 같이 대상 고객에게 도달 할 수있는 제품을 만드는 데 매우 유용 할 수 있습니다. 예를 들어, 엔터테인먼트 관련 제품을 판매하는 데 Elvis 음성을 오늘날의 일반적인 데드 팬 자동 음성과 비교하면 훨씬 더 효과적입니까?

아니면 정치는 어떻습니까? Feibleman은 이와 같은 프로젝트를 사용하여보다 효과적인 메시지를 필요로하는 회사 나 다른 당사자의 마케팅을 향상시키기위한 다양한 아이디어를 연구하고 있습니다.

"대통령에 출마하는 정치인을 안다면, 천만 명의 유권자 유권자들이 후보들로부터 개인적으로 전화를 받도록 지원해 주셔서 감사합니다. 투표 장소, 날씨 및 모든 트리밍에 대해 어디로 가야하는지 알려주십시오. 선거 전날 밤 "Feibleman이 말했다.

당신의 목소리가 살아 있습니다

이 모든 기술에 또 다른 명백한 응용이 있습니다. Vivo와 같은 자연어 회사는 고객의 모든 음성 데이터를 제품에 업로드하여 개인이 "영원히 말할 수있는"개인 서비스를 만들 수 있습니다.

실제적인 구현은 우리가 말하는 목소리를 듣고 내면화하는 방법에 대한 많은 질문을 제기 할 것입니다. 예를 들어, 누군가와 똑같이 사운드 스트림 사운드를 만들려면 어떻게해야합니까? 특정 목소리를 인식하려면 사람을 얼마나 잘 알아야합니까? 그리고 흥미롭게도, 자연어 서비스가 강력한 흉내가 아닌 조잡한 풍자 만화를 만들어 내면 어떻게 될까요?

Feibleman은 결과를 평가하는 것이 종종 죄수의 고려에 달려 있다고 말합니다. 예를 들어, 그는 아이들이 보통 이야기를들을 때 말하는 사람에 대해 질문하지 않는다고 말합니다. 그들은 단지 더 많은 것을 원합니다. 또한 수동 방송이나 전화와 같은 특정 시나리오를 고려할 때 많은 성인이 대화 상대에 대해 생각하지 않을 수도 있습니다. 또한, 컴퓨터에서 소리가 들리면 컴퓨터 소리와 사람의 소리 사이의 결함이나 기타 불일치를 숨길 수 있기 때문에 전화로 컴퓨터에 속이기 쉽습니다.

Feibleman은“음성의 진위에 도전하는 것은 결코 일어나지 않습니다.

2525 년

기업들이 제품과 서비스를 개발하고 이러한 질문에 대답함에 따라 "살아있는 연설"기술은 인공 지능 (AI)이라고 불리는 기술과 인간의 마음의 융합으로 우리를 발전시킬 수 있습니다.

컴퓨터가 우리처럼 말할 수 있다면, 다른 사용자가 우리처럼 생각한다고 생각하도록 속일 수 있습니다. 작가들에게 복음을 전한 1950 년대 기술 개척자 인 존 폰 노이만 (John von Neumann)이 사전에 소개 한 것처럼 더 큰 독창성 원칙을 도입했습니다. Ray Kurzweil과 같은 사상가. Kurzweils 2005의 저서 "독점 성이 가까웠다"는 사람들을 흥분시키고 다른 사람들을 놀라게한다. Kurzweil 's는 2045 년까지 "지능"이라는 현상이 인간의 두뇌에서 크게 뒤지지 않고 기술로 옮겨 기계와 인간의 주인 사이의 경계를 흐리게 할 것이라고 예측했습니다.

Zager & Evans "In the Year 2525"의 가사에서 불멸의 인물 (아무도이 사람들처럼 오싹한 공상 과학 발라드를하지 않습니다)…

4545 년
당신은 치아가 필요하지 않습니다.
너의 눈
씹을 물건을 찾을 수 없습니다
아무도 당신을 보지 않을 것입니다

5555 년에
팔이 옆구리에 걸려
다리가 할 일이 없어
일부 기계는 당신을 위해 그것을하고 있습니다

컴퓨터 음성이이 방향으로 나아가는가? 인체의 일부 기능을 아웃소싱하는 새로운 방법 (또는 더 일반적으로 시뮬레이션하기 위해)으로서, 이런 종류의 기술 진보는 단일 미래를 바라 볼 때 지평선에서 가장 큰-그리고 아마도보고되지 않은-진보 중 하나입니다. . (컴퓨터가 인간의 마음을 모방 할 수 있을까?의 "단일성"에 대해 더 읽어보십시오.)