{"id":20632,"date":"2023-06-08T03:03:44","date_gmt":"2023-06-08T03:03:44","guid":{"rendered":"https:\/\/domosistemas.com\/?p=20632"},"modified":"2023-06-08T03:03:44","modified_gmt":"2023-06-08T03:03:44","slug":"mejora-de-modelos-de-aprendizaje-automatico-con-una-nueva-tecnica-de-analisis-audiovisual-sin-etiquetas","status":"publish","type":"post","link":"https:\/\/domosistemas.com\/?p=20632","title":{"rendered":"Mejora de modelos de aprendizaje autom\u00e1tico con una nueva t\u00e9cnica de an\u00e1lisis audiovisual sin etiquetas"},"content":{"rendered":"<div>\n<p>Un grupo de investigadores del Instituto Tecnol\u00f3gico de Massachussets (<a href=\"https:\/\/www.mit.edu\/\" target=\"_blank\" rel=\"noopener\">MIT<\/a>), MIT-IBM Watson AI Lab e IBM Research, entre otros, ha desarrollado una nueva t\u00e9cnica para analizar datos de audio y v\u00eddeo sin etiquetar, que podr\u00eda mejorar el rendimiento de los modelos de aprendizaje autom\u00e1tico utilizados en aplicaciones como el reconocimiento de voz y la detecci\u00f3n de objetos. Para ello, se han combinado dos arquitecturas de aprendizaje autosupervisado: aprendizaje contrastivo y modelado de datos enmascarados.<\/p>\n<figure id=\"attachment_122594\" aria-describedby=\"caption-attachment-122594\" style=\"width: 500px\" class=\"wp-caption aligncenter\"><img decoding=\"async\" loading=\"lazy\" class=\"size-full wp-image-122594\" src=\"https:\/\/static.casadomo.com\/media\/2023\/06\/mit-aprendizaje-automatico-multimodal-investigacion.png\" alt=\"Aprendizaje autom\u00e1tico multimodal.\" width=\"500\" height=\"460\" srcset=\"https:\/\/static.casadomo.com\/media\/2023\/06\/mit-aprendizaje-automatico-multimodal-investigacion.png 500w, https:\/\/static.casadomo.com\/media\/2023\/06\/mit-aprendizaje-automatico-multimodal-investigacion-300x276.png 300w, https:\/\/static.casadomo.com\/media\/2023\/06\/mit-aprendizaje-automatico-multimodal-investigacion-180x166.png 180w\" sizes=\"auto, (max-width: 500px) 100vw, 500px\"><figcaption id=\"caption-attachment-122594\" class=\"wp-caption-text\">La nueva t\u00e9cnica combina aprendizaje contrastivo y modelado de datos enmascarados.<\/figcaption><\/figure>\n<p>La t\u00e9cnica, llamada autocodificador contrastivo audiovisual enmascarado (CAV-MAE), es un tipo de red neuronal que puede aprender a extraer y mapear representaciones latentes significativas en un espacio de alta dimensi\u00f3n a partir de datos ac\u00fasticos y visuales mediante el entrenamiento en grandes conjuntos de datos de YouTube de clips de audio y v\u00eddeo de 10 segundos. Los investigadores consideran que la t\u00e9cnica es m\u00e1s efectiva que los enfoques anteriores porque modela expl\u00edcitamente las relaciones entre los datos de audio y v\u00eddeo de una manera que no lo hacen otros m\u00e9todos.<\/p>\n<p>El CAV-MAE funciona aprendiendo por predicci\u00f3n y aprendiendo por comparaci\u00f3n. El modelado de datos enmascarados, o el m\u00e9todo de predicci\u00f3n, toma un v\u00eddeo junto con su forma de onda de audio coordinada, convierte el audio en un espectrograma y enmascara el 75% de ambos.<\/p>\n<p>Los datos desenmascarados se tokenizan, se integran en codificadores de audio y v\u00eddeo separados antes de ingresar a un codificador\/descodificador conjunto, donde se le pide al modelo que recupere los datos que faltan. La diferencia entre la predicci\u00f3n reconstruida resultante y la combinaci\u00f3n audiovisual original se usa posteriormente para entrenar el modelo para un mejor rendimiento.<\/p>\n<h2>Recuperaci\u00f3n audiovisual a trav\u00e9s de CAV-MAE<\/h2>\n<p>Los investigadores probaron CAV-MAE con otros m\u00e9todos de \u00faltima generaci\u00f3n en tareas de recuperaci\u00f3n audiovisual y clasificaci\u00f3n de eventos audiovisuales utilizando AudioSet est\u00e1ndar (20 K y 2 M) y conjuntos de datos VGGSound, clips cortos etiquetados y realistas, que podr\u00edan incluir m\u00faltiples sonidos. La recuperaci\u00f3n audiovisual significa que el modelo ve el componente de audio o v\u00eddeo de un par de consultas y busca el que falta. La clasificaci\u00f3n de eventos incluye la identificaci\u00f3n de acciones o sonidos dentro de los datos, como una persona cantando o conduciendo un autom\u00f3vil.<\/p>\n<p>En general, encontraron que el aprendizaje contrastivo y el modelado de datos enmascarados son m\u00e9todos complementarios. CAV-MAE fue capaz de superar las t\u00e9cnicas anteriores en aproximadamente un 2% para el rendimiento de la clasificaci\u00f3n de eventos frente a modelos con computaci\u00f3n comparable y sigui\u00f3 el ritmo o super\u00f3 a los modelos con recursos computacionales de nivel industrial.<\/p>\n<p>El modelo del equipo se clasific\u00f3 de manera similar a los modelos entrenados solo con la p\u00e9rdida contrastiva. Adem\u00e1s, la incorporaci\u00f3n de datos multimodales en el entrenamiento previo de CAV-MAE mejora en gran medida el ajuste fino de la representaci\u00f3n de una sola modalidad a trav\u00e9s del aprendizaje supervisado y el rendimiento en tareas de clasificaci\u00f3n de eventos de solo audio.<\/p>\n<p>Los investigadores ven su contribuci\u00f3n del autocodificador contrastivo audiovisual enmascarado como un hito importante y un paso adelante para las aplicaciones, que se est\u00e1n moviendo cada vez m\u00e1s de la modalidad \u00fanica a la multimodalidad y que requieren o aprovechan la fusi\u00f3n audiovisual. Tienen la hip\u00f3tesis de que en el futuro podr\u00eda usarse para el reconocimiento de acciones en \u00e1mbitos como los deportes, la educaci\u00f3n, el entretenimiento, los veh\u00edculos motorizados y la seguridad p\u00fablica, as\u00ed como extenderse a otras modalidades.<\/p>\n<p>La entrada <a rel=\"nofollow\" href=\"https:\/\/www.casadomo.com\/2023\/06\/08\/mejora-modelos-aprendizaje-automatico-nueva-tecnica-analisis-audiovisual-sin-etiquetas\">Mejora de modelos de aprendizaje autom\u00e1tico con una nueva t\u00e9cnica de an\u00e1lisis audiovisual sin etiquetas<\/a> aparece primero en <a rel=\"nofollow\" href=\"https:\/\/www.casadomo.com\/\">CASADOMO<\/a>.<\/p>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Un grupo de investigadores del Instituto Tecnol\u00f3gico de Massachussets (MIT), MIT-IBM Watson AI Lab e IBM Research, entre otros, ha desarrollado una nueva t\u00e9cnica para analizar datos de audio y v\u00eddeo sin etiquetar, que podr\u00eda mejorar el rendimiento de los modelos de aprendizaje autom\u00e1tico utilizados en aplicaciones como el reconocimiento de voz y la detecci\u00f3n &hellip; <a href=\"https:\/\/domosistemas.com\/?p=20632\" class=\"more-link\">Sigue leyendo <span class=\"screen-reader-text\">Mejora de modelos de aprendizaje autom\u00e1tico con una nueva t\u00e9cnica de an\u00e1lisis audiovisual sin etiquetas<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[3],"tags":[],"class_list":["post-20632","post","type-post","status-publish","format-standard","hentry","category-casadomo-com"],"_links":{"self":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts\/20632","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=20632"}],"version-history":[{"count":0,"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts\/20632\/revisions"}],"wp:attachment":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=20632"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=20632"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=20632"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}