{"id":16470,"date":"2022-05-05T02:00:09","date_gmt":"2022-05-05T02:00:09","guid":{"rendered":"https:\/\/domosistemas.com\/?p=16470"},"modified":"2022-05-05T02:00:09","modified_gmt":"2022-05-05T02:00:09","slug":"el-mit-desarrolla-un-modelo-de-aprendizaje-automatico-que-identifica-las-acciones-de-un-video","status":"publish","type":"post","link":"https:\/\/domosistemas.com\/?p=16470","title":{"rendered":"El MIT desarrolla un modelo de aprendizaje autom\u00e1tico que identifica las acciones de un v\u00eddeo"},"content":{"rendered":"<div>\n<p>Un grupo de investigadores del Instituto Tecnol\u00f3gico de Massachussets (<a href=\"https:\/\/web.mit.edu\/\" target=\"_blank\" rel=\"noopener\">MIT<\/a>) ha desarrollado una t\u00e9cnica de inteligencia artificial que aprende a representar datos de una manera que captura conceptos que se comparten entre las modalidades visuales y de audio. Usando este conocimiento, el modelo de aprendizaje autom\u00e1tico puede identificar d\u00f3nde se lleva a cabo una determinada acci\u00f3n en un v\u00eddeo y etiquetarla.<\/p>\n<figure id=\"attachment_106657\" aria-describedby=\"caption-attachment-106657\" style=\"width: 800px\" class=\"wp-caption aligncenter\"><img decoding=\"async\" loading=\"lazy\" class=\"size-full wp-image-106657\" src=\"https:\/\/static.casadomo.com\/media\/2022\/05\/mit-modelo-aprendizaje-ia-video-audio.png\" alt=\"Modelo de aprendizaje autom\u00e1tico del MIT.\" width=\"800\" height=\"492\" srcset=\"https:\/\/static.casadomo.com\/media\/2022\/05\/mit-modelo-aprendizaje-ia-video-audio.png 800w, https:\/\/static.casadomo.com\/media\/2022\/05\/mit-modelo-aprendizaje-ia-video-audio-300x185.png 300w, https:\/\/static.casadomo.com\/media\/2022\/05\/mit-modelo-aprendizaje-ia-video-audio-768x472.png 768w, https:\/\/static.casadomo.com\/media\/2022\/05\/mit-modelo-aprendizaje-ia-video-audio-180x111.png 180w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\"><figcaption id=\"caption-attachment-106657\" class=\"wp-caption-text\">El modelo puede identificar d\u00f3nde se lleva a cabo cierta acci\u00f3n en un v\u00eddeo y etiquetarla.<\/figcaption><\/figure>\n<p>Los investigadores centran su trabajo en el aprendizaje de representaci\u00f3n, que es una forma de aprendizaje autom\u00e1tico que busca transformar los datos de entrada para facilitar la realizaci\u00f3n de una tarea como la clasificaci\u00f3n o la predicci\u00f3n.<\/p>\n<p>El modelo de aprendizaje de representaci\u00f3n toma datos sin procesar, como v\u00eddeos y sus leyendas de texto correspondientes, y los codifica extrayendo caracter\u00edsticas u observaciones sobre objetos y acciones en el v\u00eddeo. Luego mapea esos puntos de datos en una cuadr\u00edcula, conocida como espacio de incrustaci\u00f3n. Cada uno de estos puntos de datos, o vectores, est\u00e1 representado por una palabra individual, por ejemplo, un clip de v\u00eddeo de una persona haciendo malabares podr\u00eda asignarse a un vector etiquetado como \u2018malabares\u2019.<\/p>\n<p>En lugar de codificar datos de diferentes modalidades en cuadr\u00edculas separadas, su m\u00e9todo emplea un espacio de incrustaci\u00f3n compartido donde dos modalidades se pueden codificar juntas. Esto permite que el modelo aprenda la relaci\u00f3n entre las representaciones a partir de dos modalidades, como un v\u00eddeo que muestra a una persona haciendo malabares y una grabaci\u00f3n de audio de alguien que dice \u2018haciendo malabares\u2019. Para ello, dise\u00f1aron un algoritmo que gu\u00eda a la m\u00e1quina para codificar conceptos similares en el mismo vector.<\/p>\n<h2>M\u00e1ximo de 1.000 palabras para etiquetar<\/h2>\n<p>Los investigadores restringen el modelo para que solo pueda usar 1.000 palabras para etiquetar vectores, aunque \u00e9ste puede decidir qu\u00e9 acciones o conceptos quiere codificar en un solo vector. El modelo elige las palabras que cree que representan mejor los datos. As\u00ed, un usuario puede ver m\u00e1s f\u00e1cilmente qu\u00e9 palabras us\u00f3 la m\u00e1quina para concluir que el v\u00eddeo y las palabras habladas son similares.<\/p>\n<p>Probaron el modelo en tareas de recuperaci\u00f3n multimodal utilizando tres conjuntos de datos: un conjunto de datos de v\u00eddeo, texto con clips de v\u00eddeo y subt\u00edtulos de texto; un conjunto de datos de v\u00eddeo, audio con clips de v\u00eddeo y subt\u00edtulos de audio hablados; y un conjunto de datos de imagen, audio con im\u00e1genes y subt\u00edtulos de audio hablados.<\/p>\n<p>Para probar este modelo, los investigadores proporcionaron un conjunto de datos de audio y v\u00eddeo, para los que el modelo eligi\u00f3 1.000 palabras para representar las acciones en los v\u00eddeos. Posteriormente, los investigadores enviaron consultas de audio y el modelo trat\u00f3 de encontrar el clip que mejor coincid\u00eda con esas palabras habladas.<\/p>\n<p>La entrada <a rel=\"nofollow\" href=\"https:\/\/www.casadomo.com\/2022\/05\/05\/mit-desarrolla-modelo-aprendizaje-automatico-identifica-acciones-video\">El MIT desarrolla un modelo de aprendizaje autom\u00e1tico que identifica las acciones de un v\u00eddeo<\/a> aparece primero en <a rel=\"nofollow\" href=\"https:\/\/www.casadomo.com\/\">CASADOMO<\/a>.<\/p>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Un grupo de investigadores del Instituto Tecnol\u00f3gico de Massachussets (MIT) ha desarrollado una t\u00e9cnica de inteligencia artificial que aprende a representar datos de una manera que captura conceptos que se comparten entre las modalidades visuales y de audio. Usando este conocimiento, el modelo de aprendizaje autom\u00e1tico puede identificar d\u00f3nde se lleva a cabo una determinada &hellip; <a href=\"https:\/\/domosistemas.com\/?p=16470\" class=\"more-link\">Sigue leyendo <span class=\"screen-reader-text\">El MIT desarrolla un modelo de aprendizaje autom\u00e1tico que identifica las acciones de un v\u00eddeo<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[3],"tags":[],"class_list":["post-16470","post","type-post","status-publish","format-standard","hentry","category-casadomo-com"],"_links":{"self":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts\/16470","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=16470"}],"version-history":[{"count":0,"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts\/16470\/revisions"}],"wp:attachment":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=16470"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=16470"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=16470"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}