{"id":24470,"date":"2024-06-03T02:00:37","date_gmt":"2024-06-03T02:00:37","guid":{"rendered":"https:\/\/domosistemas.com\/?p=24470"},"modified":"2024-06-03T02:00:37","modified_gmt":"2024-06-03T02:00:37","slug":"el-mit-desarrolla-una-tecnica-basada-en-ia-para-identificar-acciones-especificas-en-videos-largos","status":"publish","type":"post","link":"https:\/\/domosistemas.com\/?p=24470","title":{"rendered":"El MIT desarrolla una t\u00e9cnica basada en IA para identificar acciones espec\u00edficas en v\u00eddeos largos"},"content":{"rendered":"<div>\n<p>Los investigadores del Instituto Tecnol\u00f3gico de Massachussets (<a href=\"https:\/\/web.mit.edu\/\" target=\"_blank\" rel=\"noopener\">MIT<\/a>) y del MIT-IBM Watson AI Lab est\u00e1n entrenando un modelo de aprendizaje autom\u00e1tico para realizar tareas de etiquetado de los datos de v\u00eddeo, conocido como conexi\u00f3n tierra espacio-temporal, utilizando solo v\u00eddeos y sus transcripciones generadas autom\u00e1ticamente.<\/p>\n<figure id=\"attachment_138317\" aria-describedby=\"caption-attachment-138317\" style=\"width: 800px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-138317\" src=\"https:\/\/static.casadomo.com\/media\/2024\/05\/mit-metodo-aprendizaje-etiquetado-video.png\" alt=\"v\u00eddeo.\" width=\"800\" height=\"439\" srcset=\"https:\/\/static.casadomo.com\/media\/2024\/05\/mit-metodo-aprendizaje-etiquetado-video.png 800w, https:\/\/static.casadomo.com\/media\/2024\/05\/mit-metodo-aprendizaje-etiquetado-video-300x165.png 300w, https:\/\/static.casadomo.com\/media\/2024\/05\/mit-metodo-aprendizaje-etiquetado-video-768x421.png 768w, https:\/\/static.casadomo.com\/media\/2024\/05\/mit-metodo-aprendizaje-etiquetado-video-180x99.png 180w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\"><figcaption id=\"caption-attachment-138317\" class=\"wp-caption-text\">Un nuevo enfoque podr\u00eda agilizar los procesos de capacitaci\u00f3n virtual o ayudar a los m\u00e9dicos a revisar videos de diagn\u00f3stico.<\/figcaption><\/figure>\n<p>Los investigadores ense\u00f1an a un modelo a comprender un v\u00eddeo sin etiquetar de dos maneras distintas: observando peque\u00f1os detalles para descubrir d\u00f3nde se encuentran los objetos (informaci\u00f3n espacial) y mirando la imagen m\u00e1s grande para comprender cu\u00e1ndo ocurre la acci\u00f3n (informaci\u00f3n temporal).<\/p>\n<p>Este nuevo m\u00e9todo ha permitido ver que el entrenamiento simult\u00e1neo de informaci\u00f3n espacial y temporal hace que un modelo identifique mejor a cada uno de ellos individualmente. Adem\u00e1s de agilizar los procesos de aprendizaje online y capacitaci\u00f3n virtual, esta t\u00e9cnica tambi\u00e9n podr\u00eda ser \u00fatil en entornos de atenci\u00f3n m\u00e9dica al encontrar r\u00e1pidamente momentos clave en v\u00eddeos de procedimientos de diagn\u00f3stico.<\/p>\n<h2>Proceso de formaci\u00f3n del modelo de aprendizaje autom\u00e1tico<\/h2>\n<p>Los investigadores suelen ense\u00f1ar a los modelos a realizar una conexi\u00f3n tierra espacio-temporal utilizando v\u00eddeos en los que los humanos han anotado los tiempos de inicio y finalizaci\u00f3n de tareas particulares. Para este nuevo enfoque, los investigadores utilizan v\u00eddeos instructivos sin etiquetar y transcripciones de texto que los acompa\u00f1an de un sitio web, como YouTube, como datos de entrenamiento.<\/p>\n<p>Dividieron el proceso de formaci\u00f3n en dos partes. Por un lado, ense\u00f1aron un modelo de aprendizaje autom\u00e1tico para mirar el v\u00eddeo completo y comprender qu\u00e9 acciones suceden en determinados momentos. Esta informaci\u00f3n de alto nivel se denomina representaci\u00f3n global.<\/p>\n<p>Para el segundo, ense\u00f1aron al modelo a centrarse en una regi\u00f3n espec\u00edfica en partes del v\u00eddeo donde ocurre la acci\u00f3n. En una cocina grande, por ejemplo, es posible que el modelo solo necesite centrarse en la cuchara de madera que usa un chef para mezclar la masa para tortitas, en lugar de toda la encimera. Esta informaci\u00f3n detallada se denomina representaci\u00f3n local.<\/p>\n<p>Para desarrollar una soluci\u00f3n m\u00e1s realista, los investigadores se centraron en v\u00eddeos sin cortes de varios minutos de duraci\u00f3n. Pero cuando llegaron a evaluar su enfoque, no pudieron encontrar un punto de referencia efectivo para probar un modelo en estos v\u00eddeos m\u00e1s largos y sin cortes, por lo que crearon uno.<\/p>\n<h2>Nueva t\u00e9cnica de anotaci\u00f3n<\/h2>\n<p>Para construir su conjunto de datos de referencia, los investigadores idearon una nueva t\u00e9cnica de anotaci\u00f3n que funciona bien para identificar acciones de varios pasos. Hicieron que los usuarios marcaran la intersecci\u00f3n de objetos, como el punto donde el filo de un cuchillo corta un tomate, en lugar de dibujar un cuadro alrededor de objetos importantes.<\/p>\n<p>Adem\u00e1s, hicieron que varias personas realizaran anotaciones en el mismo v\u00eddeo, para capturar mejor las acciones que ocurren a lo largo del tiempo, como el flujo de leche que se vierte. No todos los anotadores marcar\u00e1n exactamente el mismo punto en el flujo de l\u00edquido.<\/p>\n<p>Cuando utilizaron este punto de referencia para probar su enfoque, los investigadores descubrieron que era m\u00e1s preciso para identificar acciones que otras t\u00e9cnicas de IA. Su m\u00e9todo tambi\u00e9n fue mejor al centrarse en las interacciones entre humanos y objetos. Por ejemplo, si la acci\u00f3n es \u2018servir una tortita\u2019, muchos otros enfoques podr\u00edan centrarse s\u00f3lo en objetos clave, como una pila de tortitas sobre un mostrador. En cambio, su m\u00e9todo se centra en el momento real en el que el chef voltea una tortita en un plato.<\/p>\n<p>A continuaci\u00f3n, los investigadores planean mejorar su enfoque para que los modelos puedan detectar autom\u00e1ticamente cuando el texto y la narraci\u00f3n no est\u00e1n alineados y cambiar el enfoque de una modalidad a la otra. Tambi\u00e9n quieren ampliar su marco a los datos de audio, ya que normalmente existen fuertes correlaciones entre las acciones y los sonidos que emiten los objetos.<\/p>\n<p>La entrada <a href=\"https:\/\/www.casadomo.com\/2024\/06\/03\/mit-desarrolla-tecnica-basada-ia-identificar-acciones-especificas-videos-largos\">El MIT desarrolla una t\u00e9cnica basada en IA para identificar acciones espec\u00edficas en v\u00eddeos largos<\/a> aparece primero en <a href=\"https:\/\/www.casadomo.com\/\">CASADOMO<\/a>.<\/p>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Los investigadores del Instituto Tecnol\u00f3gico de Massachussets (MIT) y del MIT-IBM Watson AI Lab est\u00e1n entrenando un modelo de aprendizaje autom\u00e1tico para realizar tareas de etiquetado de los datos de v\u00eddeo, conocido como conexi\u00f3n tierra espacio-temporal, utilizando solo v\u00eddeos y sus transcripciones generadas autom\u00e1ticamente. Un nuevo enfoque podr\u00eda agilizar los procesos de capacitaci\u00f3n virtual o &hellip; <a href=\"https:\/\/domosistemas.com\/?p=24470\" class=\"more-link\">Sigue leyendo <span class=\"screen-reader-text\">El MIT desarrolla una t\u00e9cnica basada en IA para identificar acciones espec\u00edficas en v\u00eddeos largos<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[3],"tags":[],"class_list":["post-24470","post","type-post","status-publish","format-standard","hentry","category-casadomo-com"],"_links":{"self":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts\/24470","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=24470"}],"version-history":[{"count":0,"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts\/24470\/revisions"}],"wp:attachment":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=24470"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=24470"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=24470"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}