Негізгі ұсыныстар
- Meta сөйлеуде эмоцияларды білдіретін бағдарламалар жасау үшін AI пайдаланады.
- Компанияның AI тобы нақты уақытта күлкі, есінеу, жылау және «стихиялы чат» сияқты мәнерлі дауыстарды модельдеуде жетістіктерге жеткенін айтты.
- AI сонымен қатар сөзді тануды жақсарту үшін қолданылады.
Жасанды интеллект (AI) күші арқасында жақын арада компьютеріңізбен табиғи сөйлесе аласыз.
Meta нақтырақ AI арқылы жасалған сөйлеу жүйелерін жасауда айтарлықтай жетістіктерге жеткенін айтты. Компанияның AI тобы нақты уақытта "стихиялы чатқа" қоса, күлкі, есінеу және жылау сияқты мәнерлі дауыстарды модельдеу қабілетінде жетістіктерге жеткенін айтты.
"Кез келген әңгімеде адамдар интонациялар, эмоционалды экспрессиялар, үзілістер, екпіндер, ырғақтар сияқты вербалды емес сигналдармен алмасады - мұның бәрі адаммен өзара әрекеттесу үшін маңызды", - деп жазды топ жақында блог жазбасында.. "Бірақ бүгінгі AI жүйелері бұл бай, мәнерлі сигналдарды қабылдай алмайды, өйткені олар тек жазбаша мәтіннен ғана үйренеді, ол біз айтқандарымызды түсіреді, бірақ біз оны қалай айтатынымыз емес."
Ақылды сөйлеу
Блог жазбасында Meta AI командасы сөйлеудегі интонациялар, эмоционалдық экспрессиялар, үзілістер, екпіндер және ырғақтар сияқты вербалды емес сигналдарды түсінбейтін дәстүрлі AI жүйелерінің шектеулерін еңсеру үшін жұмыс істеп жатқанын айтты.. Жүйелер тоқтатылды, себебі олар тек жазбаша мәтіннен үйрене алады.
Бірақ Мета жұмысы бұрынғы әрекеттерден ерекшеленеді, себебі оның AI үлгілері сөйлеу тілінің толық сипатын түсіру үшін табиғи тілді өңдеу үлгілерін пайдалана алады. Мета зерттеушілерінің айтуынша, жаңа модельдер AI жүйелеріне өздері жеткізгісі келетін көңіл-күйді, мысалы, зерігу немесе иронияны жеткізуге мүмкіндік береді.
"Жақын арада біз ресурстарды көп қажет ететін мәтіндік белгілерді немесе сұраққа жауап беру (мысалы, «Қалай» ауа райы?»), « деп жазды команда блог жазбасында. "Біз сөйлеудегі просодия сөйлемді жақсырақ талдауға көмектесетініне сенімдіміз, бұл өз кезегінде ниетті түсінуді жеңілдетеді және сұраққа жауап беру өнімділігін жақсартады."
AI түсіну қабілеті
Компьютерлер мағынаны жеткізуде жақсарып қана қоймайды, сонымен қатар AI сөзді тануды жақсарту үшін де қолданылады.
Компьютер ғалымдары кем дегенде 1952 жылдан бері компьютерлік сөйлеуді танумен жұмыс істейді, үш Bell Labs зерттеушісі бір сандық цифрларды тани алатын жүйені жасаған кезде, AI Dynamics компаниясының бас технологиялық қызметкері Райан Монсюрат электронды пошта арқылы. Lifewire. 1990-шы жылдарға қарай сөйлеуді тану жүйелері коммерциялық қол жетімді болды, бірақ денсаулық сақтау сияқты ерекше қолданбалы домендерден тыс пайдалануды болдырмайтындай қателік деңгейі әлі де жоғары болды.
"Енді тереңдетіп оқыту үлгілері ансамбльдік модельдерге (Microsoft-тың үлгілері сияқты) сөйлеуді тану кезінде адамдан тыс өнімділікке қол жеткізуге мүмкіндік бергендіктен, бізде компьютерлермен ауқымды түрде сөйлеушіден тәуелсіз ауызша сөйлесуге мүмкіндік беретін технология бар », - деді Монсурат. "Келесі кезең Siri немесе Google-дің AI көмекшілерін пайдаланатын әрбір адам сөйлеуді танудың осы деңгейіне қол жеткізе алатындай құнын төмендетуді қамтиды."
AI сөйлеуді тану үшін пайдалы, өйткені ол оқу арқылы уақыт өте келе жақсаруы мүмкін, деді Verbit.ai AI дауыстық компаниясының бас кіріс директоры және бас менеджері Ариэль Утник Lifewire-ке электрондық поштамен берген сұхбатында. Мысалы, Verbit өзінің ішкі AI технологиясы фондық шуды және жаңғырықты анықтап, сүзеді және тікелей және жазылған бейне мен аудиодан егжей-тегжейлі, кәсіби транскрипттер мен субтитрлерді жасау үшін акцентке қарамастан динамиктерді транскрипциялайды деп мәлімдейді.
Бірақ Утник қазіргі сөйлеуді тану платформаларының көпшілігі тек 75-80% дәл екенін айтты.
"AI ешқашан адамды толығымен алмастырмайды, өйткені транскрипторлар, корректорлар және редакторлар арқылы жеке шолу соңғы транскрипцияның жоғары сапасы мен жоғары дәлдігін қамтамасыз ету үшін қажет", - деп қосты ол.
Дауысты тануды жақсарту хакерлердің алдын алу үшін де пайдаланылуы мүмкін, деді Mitek Systems дауыс тану компаниясының өнім және корпоративтік даму жөніндегі жаһандық вице-президенті Санджай Гупта электрондық пошта арқылы. Зерттеулер көрсеткендей, екі жыл ішінде барлық сәтті есептік жазбаны басып алу шабуылдарының 20 пайызы синтетикалық дауысты күшейтуді пайдаланады, деп қосты ол.
"Бұл терең жалған технологияның жетілдірілгендігін білдіреді, біз бір уақытта кескіндер мен бейнелердің терең фейктерімен қатар осы тактикамен күресетін кеңейтілген қауіпсіздікті жасауымыз керек », - деді Гупта. "Дауыстық спуфингпен күресу үшін жанды дауыс пен дыбыстың жазылған, синтетикалық немесе компьютерде жасалған нұсқасын ажырата алатын жандылықты анықтау технологиясы қажет."
Түзету 05.04.2022: 9-параграфта Райан Монсураттың атының емлесі түзетілді.