Негізгі ұсыныстар
- Компьютер арқылы жасалған сөйлеуді нақты нәрседен ажырата алмайтын күн жақындап қалды.
- Google жақында табиғи сөйлесуге мүмкіндік беретін LaMDA үлгісін ұсынды.
- Адамға ұқсайтын сөйлеуді шығару да үлкен көлемде өңдеу қуатын қажет етеді.
Дәл қазір компьютермен сөйлескеніңізді анықтау оңай, бірақ бұл жақында AI-дағы соңғы жетістіктердің арқасында өзгеруі мүмкін.
Google жақында LaMDA-ны таныстырды, бұл компания өзінің AI көмекшілерінің сөйлесу қабілетін арттырып, табиғи сөйлесуге мүмкіндік береді деп мәлімдейді. LaMDA алдын ала дайындықсыз кез келген нәрсе туралы қалыпты сөйлесуді мақсат етеді.
Бұл өсіп келе жатқан AI жобаларының бірі, ол сізді адаммен сөйлесіп жатырсыз ба деген сұраққа қалдыруы мүмкін.
"Менің болжамым бойынша, келесі 12 ай ішінде пайдаланушылар осы жаңа, эмоционалды дауыстарға ұшырап, оларға үйрене бастайды", - дейді Джеймс Каплан, MeetKai компаниясының бас директоры, сөйлесетін AI виртуалды дауыстық көмекшісі және іздеу қозғалтқыш, деді электрондық поштаға берген сұхбатында.
"Бұл орын алған соң, бүгінгі синтезделген сөйлеу пайдаланушыларға 2000-шы жылдардың басындағы сөйлеген сөз сияқты естіледі."
Таңбалы дауыстық көмекшілер
Google-дың LaMDA жүйесі Google Research ойлап тапқан нейрондық желі архитектурасы Transformer негізінде жасалған. Басқа тіл үлгілерінен айырмашылығы, Google LaMDA нақты диалогқа үйретілген.
Табиғи AI сөйлеуін жасаудағы қиындықтардың бір бөлігі - әңгімелесулердің ашық сипаты, деп жазды Google-дан Эли Коллинз блог жазбасында.
"Досыңмен телешоу туралы әңгіме сол елдің ең жақсы аймақтық тағамдары туралы пікірталасқа дейін шоу түсірілген ел туралы пікірталасқа айналуы мүмкін", - деп қосты ол.
Роботтың сөйлеуімен істер жылдам жүріп жатыр. Сөйлесу AI-ға инвестиция салатын Tsingyuan Ventures компаниясының басқарушы серіктесі Эрик Розенблюм компьютерлік сөйлеудегі ең негізгі мәселелердің кейбірі іс жүзінде шешілгенін айтты.
Мысалы, Otter.ai бағдарламалық құралы арқылы жасалған транскрипциялар немесе DeepScribe түсірген медициналық жазбалар сияқты қызметтерде сөйлеуді түсіну дәлдігі өте жоғары.
"Келесі шекара әлдеқайда қиын", - деп қосты ол.
"Табиғи тілді өңдеуден асып түсетін мәселе болып табылатын контекстті түсінуді және адамдармен әрекеттесудегі компьютерлер сияқты эмпатияны түсіну көңілсіздікті, ашуды, шыдамсыздықты және т.б. түсінуі керек. Бұл екі мәселе де пысықталуда, бірақ екеуі де қанағаттанарлық емес."
Нейрондық желілер кілт болып табылады
Өмірге ұқсас дауыстарды жасау үшін компаниялар терең нейрондық желілер сияқты технологияны, деректерді қабаттар арқылы жіктейтін машиналық оқыту түрін пайдаланады, Мэтт Мулдун, мәтіннен сөйлеуге арналған бағдарламалық құрал әзірлейтін ReadSpeaker компаниясының Солтүстік Америка президенті, Бұл туралы электрондық пошта сұхбатында.
"Бұл қабаттар сигналды нақтылайды, оны күрделірек классификацияларға сұрыптайды", - деп қосты ол. "Нәтиже - адамға ұқсамайтын синтетикалық сөйлеу."
Тағы бір әзірлену үстіндегі технология - Prosody Transfer, ол бір мәтіннен сөйлеуге дауыстың дыбысын екіншісінің сөйлеу мәнерімен біріктіруді қамтиды, деді Мулдон. Жаңа нейрондық мәтіннен сөйлеуге дауысты шығару үшін қажетті жаттығу деректерінің көлемін азайтатын трансферттік оқыту да бар.
Каплан адамға ұқсайтын сөйлеуді шығару да үлкен көлемдегі өңдеу қуатын қажет етеді деді. Компаниялар қарапайым процессорлармен бірге жұмыс істейтін реттелетін модульдер болып табылатын нейрондық үдеткіш чиптерді жасауда.
"Мұның келесі кезеңі бұл чиптерді кішірек жабдыққа салу болады, өйткені қазіргі уақытта көру үшін AI қажет болған кезде бұл камералар үшін жасалған", - деп қосты ол. "Есептеу мүмкіндігінің бұл түрі құлаққаптардың өзінде қол жетімді болғанға дейін көп уақыт өтпейді."
AI-ге негізделген сөйлеуді дамытудың бір қиындығы - әркім әр түрлі сөйлейді, сондықтан компьютерлер бізді түсінуде қиынға соғады.
"Джорджия мен Бостон және Солтүстік Дакота екпінін және ағылшын тілі сіздің негізгі тіліңіз ме, жоқ па деп ойлаңыз", - деді MDinc-те дауыспен іздеу талдауларымен жұмыс істейтін Моника Дема электрондық хатта. «Жаһандық деңгейде ойлайтын болсақ, мұны Германияның, Қытайдың және Үндістанның барлық аймақтары үшін жасау қымбатқа түседі, бірақ бұл мұны істеу мүмкін емес немесе мүмкін емес дегенді білдірмейді.»