AI компьютердің сөйлеуін қалай табиғи етеді

Мазмұны:

AI компьютердің сөйлеуін қалай табиғи етеді
AI компьютердің сөйлеуін қалай табиғи етеді
Anonim

Негізгі ұсыныстар

  • Компаниялар компьютер арқылы жасалған сөйлеу дыбысын шынайырақ ету жолдарын іздеуде.
  • NVIDIA жақында AI-ны өз дауысыңызбен жаттықтыруға мүмкіндік беру арқылы табиғи сөйлеу дыбысын түсіре алатын құралдарды ұсынды.
  • Интонация, эмоция және музыкалық - компьютерлік дауыстарға әлі жетіспейтін мүмкіндіктер, дейді сарапшылардың бірі.
Image
Image

Компьютер арқылы жасалған сөйлеу жақын арада адамға қарағанда әлдеқайда күштірек болуы мүмкін.

Компьютер бөлшектерін жасаушы NVIDIA жақында AI-ны дауыспен үйретуге мүмкіндік беру арқылы табиғи сөйлеу дыбысын түсіре алатын құралдарды ұсынды. Бағдарлама сонымен қатар бір сөйлеушінің сөзін басқа адамның даусын пайдалана алады. Бұл компьютерде сөйлеуді шынайырақ ету үшін дамып келе жатқан бастаманың бір бөлігі.

"Жетілдірілген дауысты AI технологиясы пайдаланушыларға табиғи сөйлеуге мүмкіндік береді, көптеген сұрауларды бір сөйлемге біріктіреді және бастапқы сұраудағы мәліметтерді үнемі қайталау қажеттілігін болдырмайды", - Майкл Загорсек, SoundHound сөйлеуді тану компаниясының бас операциялық директоры., Lifewire-ке электрондық поштамен берген сұхбатында айтты.

"Енді дауыстық AI платформаларының көпшілігінде қолжетімді бірнеше тілдің қосылуы сандық дауыстық көмекшілерді көбірек географиялар мен халықтар үшін қолжетімді етеді", - деп қосты ол.

Робосөйлеу көтерілуде

Amazon-тың Alexa және Apple-дің Siri-і он жыл бұрынғы компьютерлік сөйлеуден әлдеқайда жақсы естіледі, бірақ олар жақын арада шынайы адам дауыстарымен қателеспейді.

Жасанды сөйлеуді табиғи ету үшін NVIDIA мәтінді дыбысқа зерттеу тобы RAD-TTS үлгісін жасады. Жүйе адамдарға дауыс ырғағы, тональдық, тембр және басқа факторларды қоса, мәтіннен сөйлеуге (TTS) үлгісін үйретуге мүмкіндік береді.

Компания өзінің жаңа үлгісін «Мен AIмін» бейне сериясы үшін сөйлесуге болатын дыбыстық баяндау жасау үшін пайдаланды.

Осы интерфейстің көмегімен біздің бейне продюсер бейне сценарийді оқып отырып, өзін жазып алады, содан кейін AI үлгісін пайдаланып, сөзін әйел баяндауыштың дауысына түрлендіруге болады. Осы негізгі баяндауды пайдаланып, продюсер AI-ны басқара алады. дауыс актері - белгілі бір сөздерді ерекшелеу үшін синтезделген сөйлеуді өзгерту және бейненің үнін жақсырақ көрсету үшін баяндау жылдамдығын өзгерту », - деп жазды NVIDIA өз веб-сайтында.

Бұдан да қиын

Компьютер арқылы жасалған сөйлеу дыбысын табиғи ету қиын мәселе дейді мамандар.

«Оның компьютерлік нұсқасын жасау үшін сізге жүздеген сағат біреудің дауысын жазу керек», - деді Кукарелла мәтінді сөйлеуге арналған бағдарламалық қамтамасыз ету компаниясының бас директоры Назим Рағымов Lifewire-ке электронды пошта арқылы берген сұхбатында. «Ал жазба жоғары сапалы, кәсіби студияда жазылған болуы керек. Сапалы сөйлеу неғұрлым көп сағат жүктелсе және өңделсе, нәтиже соғұрлым жақсы болады."

Мәтінді сөйлеуге ойында, дауыс қабілеті бұзылған адамдарға немесе пайдаланушыларға тілдерді өз дауыстарымен аударуға көмектесу үшін пайдалануға болады.

Интонация, эмоция және музыкалық - компьютерлік дауыстар әлі де жетіспейтін мүмкіндіктер, - деді Рагимов.

Егер AI осы жетіспейтін сілтемелерді қоса алса, компьютер арқылы жасалған сөйлеу «шынайы актерлердің дауысынан ерекшеленбейді» деп қосты ол. "Бұл орындалып жатқан жұмыс. Басқа дауыстар радио жүргізушілерімен бәсекеге түсе алады. Жақында ән айта алатын және аудиокітаптарды оқи алатын дауыстарды көресіз."

Сөйлеу технологиясы бизнестің кең ауқымында танымал бола түсуде.

"Автокөлік өнеркәсібі қауіпсіз және байланыстырылған көлік жүргізу тәжірибесін жасау тәсілі ретінде дауыстық AI-ны жақында қолданды", - деді Загорсек.

"Содан бері дауыстық көмекшілер барған сайын кең тарала бастады, өйткені брендтер тұтынушылар тәжірибесін жақсарту және олардың өнімдерімен және қызметтерімен өзара әрекеттесудің жеңіл, қауіпсіз, ыңғайлы, тиімді және гигиеналық әдістеріне сұранысты қанағаттандыру жолдарын іздейді."

Әдетте, дауыстық AI сұрауларды автоматты түрде сөйлеуді тану (ASR) арқылы сөзді мәтінге транскрипциялау, содан кейін сол мәтінді табиғи тілді түсіну (NLU) үлгісіне беру арқылы басталатын екі қадамдық процесте сұрауларды жауаптарға түрлендіреді.

Image
Image

SoundHound әдісі нақты уақытта сөйлеуді бақылау үшін осы екі қадамды бір процеске біріктіреді. Компания бұл әдіс дауыстық көмекшілерге адам сөйлеп біткенге дейін пайдаланушы сұрауларының мағынасын түсінуге мүмкіндік береді деп мәлімдейді.

Компьютерлік сөйлеудегі болашақ жетістіктер, соның ішінде тек ендірілгеннен (бұлттық қосылым қажет емес) гибридке (ендірілген плюс бұлт) және тек бұлтқа дейін әртүрлі қосылым опцияларының қолжетімділігі салалардағы компанияларға көбірек таңдау береді. құны, құпиялылығы және өңдеу қуатының қолжетімділігі тұрғысынан », - деді Загореск.

NVIDIA оның жаңалық AI үлгілері дауыстық жұмыстан тыс екенін айтты.

"Мәтінді сөйлеуге ойында, дауысы бұзылған адамдарға көмектесу үшін немесе пайдаланушыларға тілдерді өз дауыстарымен аударуға көмектесу үшін пайдалануға болады", - деп жазды компания. "Ол тіпті әннің әуеніне ғана емес, вокалдың артындағы эмоционалды көрініске де сәйкес келетін танымал әншілердің өнерін қайта жасай алады."

Ұсынылған: