AI енді бейнелеріңізді көру арқылы түсіне алады

2025 Автор: Abigail Brown | [email protected]. Соңғы өзгертілген: 2025-01-24 12:15

Негізгі ұсыныстар

Зерттеушілер AI-ны көру және тыңдау арқылы бейнелерді белгілеуді үйрететінін айтады.
AI жүйесі визуалды және дыбыстық деректер арасында ортақ ұғымдарды түсіру үшін деректерді көрсетуді үйренеді.
Бұл AI-ға адамдар үйренуде еш қиындық көрмейтін, бірақ компьютерлер түсіну қиын болатын ұғымдарды түсінуге үйрету әрекетінің бір бөлігі.

Жасанды интеллекттің жаңа жүйесі (AI) бейнелеріңізді көріп, тыңдап, болып жатқан нәрселерді белгілей алады.

MIT зерттеушілері AI-ға бейне және аудио арасында ортақ әрекеттерді түсіруге үйрететін әдісті әзірледі. Мысалы, олардың әдісі бейнеде жылаған сәби әрекетінің дыбыстық клиптегі «жылау» деген сөзбен байланысты екенін түсінуге болады. Бұл AI-ға адамдар үйренуде қиындық тудырмайтын, бірақ компьютерлер түсіну қиынға соғатын ұғымдарды түсінуге үйрету әрекетінің бір бөлігі.

«Танымал оқу парадигмасы, бақылаудағы оқыту, сізде жақсы сипатталған және толық деректер жинағы болған кезде жақсы жұмыс істейді», - деді AI сарапшысы Фил Виндер Lifewire-ге электрондық пошта сұхбатында. "Өкінішке орай, деректер жиыны сирек аяқталады, себебі нақты әлемде жаңа жағдайларды көрсетудің жаман әдеті бар."

Ақылды AI

Компьютерлерге күнделікті сценарийлерді анықтау қиынға соғады, өйткені олар адамдар сияқты дыбыстар мен кескіндерді емес, деректерді ұсақтауы керек. Құрылғы фотосуретті «көргенде», ол фотосуретті кескін классификациясы сияқты тапсырманы орындау үшін пайдалана алатын деректерге кодтауы керек. Енгізулер бейнелер, аудио клиптер және кескіндер сияқты бірнеше пішімде келген кезде AI батып қалуы мүмкін.

"Мұндағы басты мәселе мынада: машина бұл әртүрлі әдістерді қалай теңестіре алады? Адамдар болғандықтан, бұл біз үшін оңай ", - деді Александр Лю, MIT зерттеушісі және осы тақырып туралы мақаланың бірінші авторы. жаңалықтар шығарылымы. "Біз көлікті көреміз, содан кейін өтіп бара жатқан көліктің дыбысын естиміз және бұл бір нәрсе екенін білеміз. Бірақ машиналық оқыту үшін бұл оңай емес."

Лиу командасы визуалды және дыбыстық деректер арасында ортақ ұғымдарды түсіру үшін деректерді көрсетуді үйренетін AI әдісін әзірледі. Осы білімді пайдалана отырып, олардың машиналық оқыту үлгісі бейнеде нақты әрекеттің қай жерде орын алып жатқанын анықтап, оны белгілей алады.

Жаңа модель бейнелер және оларға сәйкес мәтіндік титрлер сияқты өңделмеген деректерді алады және бейнедегі нысандар мен әрекеттер туралы мүмкіндіктерді немесе бақылауларды шығару арқылы оларды кодтайды. Содан кейін ол деректер нүктелерін ендіру кеңістігі ретінде белгілі торда салыстырады. Модель ұқсас деректерді тордағы жалғыз нүктелер ретінде біріктіреді; осы деректер нүктелерінің немесе векторлардың әрқайсысы жеке сөзбен көрсетіледі.

Мысалы, жонглерлік адам бейнеклипі "жонглерлік" деп белгіленген вектормен салыстырылуы мүмкін.

Зерттеушілер модельді векторларды белгілеу үшін тек 1000 сөзді қолдана алатындай етіп жасады. Модель қандай әрекеттерді немесе тұжырымдамаларды бір векторға кодтағысы келетінін шеше алады, бірақ ол тек 1000 векторды пайдалана алады. Модель деректерді ең жақсы деп санайтын сөздерді таңдайды.

"Егер шошқалар туралы бейне болса, модель 1000 вектордың біріне "шошқа" сөзін тағайындауы мүмкін. Содан кейін модель аудиоклипте біреудің "шошқа" сөзін айтып жатқанын естісе, оны кодтау үшін ол бұрынғысынша бірдей векторды пайдалануы керек ", - деп түсіндірді Лю.

Бейнелеріңіз, декодталған

MIT әзірлеген таңбалаудың жақсырақ жүйелері AI-дағы біржақтылықты азайтуға көмектесуі мүмкін, - деді Мариан Безедес, Innovatrics биометриялық фирмасының зерттеу және әзірлеу бөлімінің басшысы Lifewire электрондық поштасына берген сұхбатында. Бесзедес деректер индустриясы AI жүйелерін өндірістік процесс тұрғысынан қарай алады деп ұсынды.

"Жүйелер бастапқы деректерді кіріс (шикізат) ретінде қабылдайды, оны алдын ала өңдейді, жұтады, шешім қабылдайды немесе болжам жасайды және аналитиканы (дайын өнім) шығарады », - деді Бесзедес. "Біз бұл процесс ағынын "деректер фабрикасы" деп атаймыз және басқа да өндіріс процестері сияқты ол сапа бақылауынан өтуі керек. Деректер индустриясы AI бұрмалануын сапа мәселесі ретінде қарастыруы керек.

"Тұтынушы тұрғысынан қате таңбаланбаған деректер, мысалы: нақты суреттерді/бейнелерді онлайн іздеуді қиындатады", - деп қосты Бесзедес. "Дұрыс дамыған AI көмегімен таңбалауды автоматты түрде, қолмен таңбалауға қарағанда әлдеқайда жылдам және бейтарап орындауға болады."

Бірақ MIT үлгісінде әлі де кейбір шектеулер бар. Біріншіден, олардың зерттеулері бір уақытта екі көзден алынған деректерге бағытталған, бірақ нақты әлемде адамдар бір уақытта көптеген ақпарат түрлерін кездестіреді, деді Лю

"Және біз мұндай деректер жиынында 1000 сөз жұмыс істейтінін білеміз, бірақ оны нақты әлемдегі мәселеге жалпылауға болатынын білмейміз", - деп қосты Лю.

MIT зерттеушілері олардың жаңа техникасы көптеген ұқсас модельдерден асып түсетінін айтады. Егер AI бейнелерді түсінуге үйретілсе, соңында досыңыздың демалыс бейнелерін қарауды өткізіп, оның орнына компьютерден жасалған есеп алуға болады.

Ұсынылған:

AI енді бейнелеріңізді көру арқылы түсіне алады

Мазмұны:

Негізгі ұсыныстар

Ақылды AI

Бейнелеріңіз, декодталған

Ұсынылған:

YouTube бейнелеріңізді кім көріп жатқанын қалай білуге болады

Жаңа технология көру қабілеті төмен адамдарға жақсырақ көмектесе алады

Жаңа VR технологиясы көру қабілеті бұзылған адамдарға көмектесе алады

IOS пайдаланушылары енді T-Mobile желісін қолданба арқылы пайдалана алады

Теледидар көру үшін ең жақсы көру қашықтығы

Инстаграм неге сіздің туған күніңізді білгісі келеді?

Ноутбук үлгісін қалай табуға болады

Спутник арқылы неліктен байланысқыңыз келуі мүмкін

Mac компьютерін жаңарту жолы

Google Android 2.3 және одан кейінгі нұсқалардан негізгі қолданбаларды алып тастайды

Netflix DVD жалға беру бағдарламасын пайдалану жолы

Сымсыз желіні шифрлау жолы

Gmail-дегі хабардың көзін қалай көруге болады

Google-дың жаңа Pixel Buds Pro бірнеше режимді алады

Google-дың жаңа орта диапазондағы Pixel 6a-да жоғары деңгейлі мүмкіндіктері бар

Стриммер Пикачулита неге Twitch-ті ішінен реформалағысы келеді

169 IP мекенжайы қатесін қалай түзетуге болады

Amazon Alexa енді сіздің балаңызға оқуды үйренуге көмектесе алады

Пәрмен жолын қалтада қалай ашуға болады

802.11n желісінде 300 Мбит/с қалай алуға болады