Изобрели метод предварительного видеообучения нейросетей
Проблема: в интернете много видео от пользователей программ и сервисов: летсплеи, обучающие ролики и прочие. Но по таким данным не обучить нейросеть: входные комбинации неизвестны и их не промаркировать. Неясно, какие клавиши и кнопки были нажаты и как двигали мышью, чтобы выполнить то или иное действие.
Решение: Video PreTraining или VPT — метод обучения по видеоданным, где события зависят от нажатий и движений клавиатуры и мыши.
А как? Собрали небольшой набор видеоданных и управляющих действий и обучили на нём IDM — модель обратной динамики, которая может предсказывать действия в видео. Затем обученная IDM-модель промаркировала гораздо больший набор данных онлайн-видео и научилась действовать с помощью поведенческого клонирования.
Для проверки научили нейросеть играть в Minecraft. В качестве основы взяли 2000 часов видео из игры, а на следующих 70 000 часов нейронка обучалась самостоятельно.
Нейронка научилась рубить деревья, охотиться на животных, искать алмазы и совершать другие действия. Позже она перешла к более сложным процессам, таким как создание алмазной кирки. Знатоки поймут, как это сложно.
И что? Обучение нейросетей становится всё проще, а значит доступнее. Новый метод выгодно отличается от Generative Pre-training и охватывает больше областей, чем язык.
Подкаст записан при поддержке Английского от Яндекс Практикума. Новый курс английского для карьеры в IT здесь: https://clck.ru/sSU97Подписывайтесь на наши соцсети:
ВКонтакте: vk.com/thecode.media
Яндекс Дзен: https://zen.yandex.ru/code
Телеграм: t.me/thecodemedia
Связаться: welcome@thecode.media
Проблема: в интернете много видео от пользователей программ и сервисов: летсплеи, обучающие ролики и прочие. Но по таким данным не обучить нейросеть: входные комбинации неизвестны и их не промаркировать. Неясно, какие клавиши и кнопки были нажаты и как двигали мышью, чтобы выполнить то или иное действие.
Решение: Video PreTraining или VPT — метод обучения по видеоданным, где события зависят от нажатий и движений клавиатуры и мыши.
А как? Собрали небольшой набор видеоданных и управляющих действий и обучили на нём IDM — модель обратной динамики, которая может предсказывать действия в видео. Затем обученная IDM-модель промаркировала гораздо больший набор данных онлайн-видео и научилась действовать с помощью поведенческого клонирования.
Для проверки научили нейросеть играть в Minecraft. В качестве основы взяли 2000 часов видео из игры, а на следующих 70 000 часов нейронка обучалась самостоятельно.
Нейронка научилась рубить деревья, охотиться на животных, искать алмазы и совершать другие действия. Позже она перешла к более сложным процессам, таким как создание алмазной кирки. Знатоки поймут, как это сложно.
И что? Обучение нейросетей становится всё проще, а значит доступнее. Новый метод выгодно отличается от Generative Pre-training и охватывает больше областей, чем язык.
Подкаст записан при поддержке Английского от Яндекс Практикума. Новый курс английского для карьеры в IT здесь: https://clck.ru/sSU97Подписывайтесь на наши соцсети:
ВКонтакте: vk.com/thecode.media
Яндекс Дзен: https://zen.yandex.ru/code
Телеграм: t.me/thecodemedia
Связаться: welcome@thecode.media