Негізгі ұсыныстар
- Зерттеушілер AI-ны көру және тыңдау арқылы бейнелерді белгілеуді үйрететінін айтады.
- AI жүйесі визуалды және дыбыстық деректер арасында ортақ ұғымдарды түсіру үшін деректерді көрсетуді үйренеді.
-
Бұл AI-ға адамдар үйренуде еш қиындық көрмейтін, бірақ компьютерлер түсіну қиын болатын ұғымдарды түсінуге үйрету әрекетінің бір бөлігі.
Жасанды интеллекттің жаңа жүйесі (AI) бейнелеріңізді көріп, тыңдап, болып жатқан нәрселерді белгілей алады.
MIT зерттеушілері AI-ға бейне және аудио арасында ортақ әрекеттерді түсіруге үйрететін әдісті әзірледі. Мысалы, олардың әдісі бейнеде жылаған сәби әрекетінің дыбыстық клиптегі «жылау» деген сөзбен байланысты екенін түсінуге болады. Бұл AI-ға адамдар үйренуде қиындық тудырмайтын, бірақ компьютерлер түсіну қиынға соғатын ұғымдарды түсінуге үйрету әрекетінің бір бөлігі.
«Танымал оқу парадигмасы, бақылаудағы оқыту, сізде жақсы сипатталған және толық деректер жинағы болған кезде жақсы жұмыс істейді», - деді AI сарапшысы Фил Виндер Lifewire-ге электрондық пошта сұхбатында. "Өкінішке орай, деректер жиыны сирек аяқталады, себебі нақты әлемде жаңа жағдайларды көрсетудің жаман әдеті бар."
Ақылды AI
Компьютерлерге күнделікті сценарийлерді анықтау қиынға соғады, өйткені олар адамдар сияқты дыбыстар мен кескіндерді емес, деректерді ұсақтауы керек. Құрылғы фотосуретті «көргенде», ол фотосуретті кескін классификациясы сияқты тапсырманы орындау үшін пайдалана алатын деректерге кодтауы керек. Енгізулер бейнелер, аудио клиптер және кескіндер сияқты бірнеше пішімде келген кезде AI батып қалуы мүмкін.
"Мұндағы басты мәселе мынада: машина бұл әртүрлі әдістерді қалай теңестіре алады? Адамдар болғандықтан, бұл біз үшін оңай ", - деді Александр Лю, MIT зерттеушісі және осы тақырып туралы мақаланың бірінші авторы. жаңалықтар шығарылымы. "Біз көлікті көреміз, содан кейін өтіп бара жатқан көліктің дыбысын естиміз және бұл бір нәрсе екенін білеміз. Бірақ машиналық оқыту үшін бұл оңай емес."
Лиу командасы визуалды және дыбыстық деректер арасында ортақ ұғымдарды түсіру үшін деректерді көрсетуді үйренетін AI әдісін әзірледі. Осы білімді пайдалана отырып, олардың машиналық оқыту үлгісі бейнеде нақты әрекеттің қай жерде орын алып жатқанын анықтап, оны белгілей алады.
Жаңа модель бейнелер және оларға сәйкес мәтіндік титрлер сияқты өңделмеген деректерді алады және бейнедегі нысандар мен әрекеттер туралы мүмкіндіктерді немесе бақылауларды шығару арқылы оларды кодтайды. Содан кейін ол деректер нүктелерін ендіру кеңістігі ретінде белгілі торда салыстырады. Модель ұқсас деректерді тордағы жалғыз нүктелер ретінде біріктіреді; осы деректер нүктелерінің немесе векторлардың әрқайсысы жеке сөзбен көрсетіледі.
Мысалы, жонглерлік адам бейнеклипі "жонглерлік" деп белгіленген вектормен салыстырылуы мүмкін.
Зерттеушілер модельді векторларды белгілеу үшін тек 1000 сөзді қолдана алатындай етіп жасады. Модель қандай әрекеттерді немесе тұжырымдамаларды бір векторға кодтағысы келетінін шеше алады, бірақ ол тек 1000 векторды пайдалана алады. Модель деректерді ең жақсы деп санайтын сөздерді таңдайды.
"Егер шошқалар туралы бейне болса, модель 1000 вектордың біріне "шошқа" сөзін тағайындауы мүмкін. Содан кейін модель аудиоклипте біреудің "шошқа" сөзін айтып жатқанын естісе, оны кодтау үшін ол бұрынғысынша бірдей векторды пайдалануы керек ", - деп түсіндірді Лю.
Бейнелеріңіз, декодталған
MIT әзірлеген таңбалаудың жақсырақ жүйелері AI-дағы біржақтылықты азайтуға көмектесуі мүмкін, - деді Мариан Безедес, Innovatrics биометриялық фирмасының зерттеу және әзірлеу бөлімінің басшысы Lifewire электрондық поштасына берген сұхбатында. Бесзедес деректер индустриясы AI жүйелерін өндірістік процесс тұрғысынан қарай алады деп ұсынды.
"Жүйелер бастапқы деректерді кіріс (шикізат) ретінде қабылдайды, оны алдын ала өңдейді, жұтады, шешім қабылдайды немесе болжам жасайды және аналитиканы (дайын өнім) шығарады », - деді Бесзедес. "Біз бұл процесс ағынын "деректер фабрикасы" деп атаймыз және басқа да өндіріс процестері сияқты ол сапа бақылауынан өтуі керек. Деректер индустриясы AI бұрмалануын сапа мәселесі ретінде қарастыруы керек.
"Тұтынушы тұрғысынан қате таңбаланбаған деректер, мысалы: нақты суреттерді/бейнелерді онлайн іздеуді қиындатады", - деп қосты Бесзедес. "Дұрыс дамыған AI көмегімен таңбалауды автоматты түрде, қолмен таңбалауға қарағанда әлдеқайда жылдам және бейтарап орындауға болады."
Бірақ MIT үлгісінде әлі де кейбір шектеулер бар. Біріншіден, олардың зерттеулері бір уақытта екі көзден алынған деректерге бағытталған, бірақ нақты әлемде адамдар бір уақытта көптеген ақпарат түрлерін кездестіреді, деді Лю
"Және біз мұндай деректер жиынында 1000 сөз жұмыс істейтінін білеміз, бірақ оны нақты әлемдегі мәселеге жалпылауға болатынын білмейміз", - деп қосты Лю.
MIT зерттеушілері олардың жаңа техникасы көптеген ұқсас модельдерден асып түсетінін айтады. Егер AI бейнелерді түсінуге үйретілсе, соңында досыңыздың демалыс бейнелерін қарауды өткізіп, оның орнына компьютерден жасалған есеп алуға болады.