{"id":24804,"date":"2024-06-28T02:00:28","date_gmt":"2024-06-28T02:00:28","guid":{"rendered":"https:\/\/domosistemas.com\/?p=24804"},"modified":"2024-06-28T02:00:28","modified_gmt":"2024-06-28T02:00:28","slug":"el-mit-investiga-como-mejorar-la-comprension-del-conocimiento-visual-de-los-modelos-llm","status":"publish","type":"post","link":"https:\/\/domosistemas.com\/?p=24804","title":{"rendered":"El MIT investiga c\u00f3mo mejorar la comprensi\u00f3n del conocimiento visual de los modelos LLM"},"content":{"rendered":"<div>\n<p>Los modelos de lenguaje grande (LLM) que se entrenan exclusivamente con texto tienen una comprensi\u00f3n s\u00f3lida del mundo visual. Pueden escribir c\u00f3digo de representaci\u00f3n de im\u00e1genes para generar escenas complejas con objetos y composiciones intrigantes, e incluso cuando ese conocimiento no se utiliza correctamente, los LLM pueden refinar sus im\u00e1genes. Los investigadores del Laboratorio de Ciencias de la Computaci\u00f3n e Inteligencia Artificial (CSAIL) del Instituto Tecnol\u00f3gico de Massachussets (<a href=\"https:\/\/web.mit.edu\/\" target=\"_blank\" rel=\"noopener\">MIT<\/a>) observaron esto cuando solicitaron a los modelos de lenguaje que autocorrigieran su c\u00f3digo para diferentes im\u00e1genes, donde los sistemas mejoraron sus simples dibujos de im\u00e1genes predise\u00f1adas con cada consulta.<\/p>\n<figure id=\"attachment_139774\" aria-describedby=\"caption-attachment-139774\" style=\"width: 800px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-139774\" src=\"https:\/\/static.casadomo.com\/media\/2024\/06\/mit-aprendizaje-visual-modelos-llm.png\" alt=\"Ejemplo de entrenamiento LLM.\" width=\"800\" height=\"437\" srcset=\"https:\/\/static.casadomo.com\/media\/2024\/06\/mit-aprendizaje-visual-modelos-llm.png 800w, https:\/\/static.casadomo.com\/media\/2024\/06\/mit-aprendizaje-visual-modelos-llm-300x164.png 300w, https:\/\/static.casadomo.com\/media\/2024\/06\/mit-aprendizaje-visual-modelos-llm-768x420.png 768w, https:\/\/static.casadomo.com\/media\/2024\/06\/mit-aprendizaje-visual-modelos-llm-180x98.png 180w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\"><figcaption id=\"caption-attachment-139774\" class=\"wp-caption-text\">Seg\u00fan los investigadores del MIT, se puede solicitar a los modelos LLM basados en texto que codifiquen mejores ilustraciones, lo que implica que tienen un conocimiento visual s\u00f3lido del mundo que les rodea.<\/figcaption><\/figure>\n<p>El conocimiento visual de los modelos de lenguaje se obtiene a partir de c\u00f3mo se describen conceptos como formas y colores en Internet, ya sea en lenguaje o c\u00f3digo. Cuando se les da una instrucci\u00f3n como \u2018dibujar un loro en la jungla\u2019, los usuarios activan el LLM para considerar lo que se ley\u00f3 en las descripciones anteriores.<\/p>\n<p>Para evaluar cu\u00e1nto conocimiento visual tienen los LLM, el equipo de CSAIL construy\u00f3 un chequeo de la visi\u00f3n para los LLM, utilizando su conjunto de datos de aptitud visual, que probaron las habilidades de los modelos para dibujar, reconocer y autocorregir estos conceptos. Al recopilar cada borrador final de estas ilustraciones, los investigadores entrenaron un sistema de visi\u00f3n por computadora que identifica el contenido de fotograf\u00edas reales.<\/p>\n<p>Para construir este conjunto de datos, los investigadores primero consultaron los modelos para generar c\u00f3digo para diferentes formas, objetos y escenas. Posteriormente, compilaron ese c\u00f3digo para representar ilustraciones digitales simples, como una fila de bicicletas, lo que demuestra que los LLM comprenden las relaciones espaciales lo suficientemente bien como para dibujar los veh\u00edculos de dos ruedas en una fila horizontal.<\/p>\n<h2>Recopilaci\u00f3n de im\u00e1genes para entrenar al sistema<\/h2>\n<p>Los investigadores reunieron estas ilustraciones, que luego se utilizaron para entrenar un sistema de visi\u00f3n por computadora que puede reconocer objetos dentro de fotograf\u00edas reales (a pesar de nunca haber visto uno antes). Con estos datos sint\u00e9ticos generados por texto como \u00fanico punto de referencia, el sistema supera a otros conjuntos de datos de im\u00e1genes generados por procedimientos que fueron entrenados con fotograf\u00edas aut\u00e9nticas.<\/p>\n<p>El equipo de CSAIL cree que combinar el conocimiento visual oculto de los LLM con las capacidades art\u00edsticas de otras herramientas de inteligencia artificial, como los modelos de difusi\u00f3n, tambi\u00e9n podr\u00eda resultar beneficioso. Los sistemas como Midjourney a veces carecen de los conocimientos necesarios para modificar constantemente los detalles m\u00e1s finos de una imagen, lo que les dificulta manejar solicitudes como reducir la cantidad de autom\u00f3viles que se muestran en la imagen o colocar un objeto detr\u00e1s de otro. Si un LLM esbozara de antemano el cambio solicitado para el modelo de difusi\u00f3n, la edici\u00f3n resultante podr\u00eda ser m\u00e1s satisfactoria.<\/p>\n<p>El equipo de CSAIL cree que este procedimiento podr\u00eda ser una base para evaluar <span class=\"ui-provider a b c d e f g h i j k l m n o p q r s t u v w x y z ab ac ae af ag ah ai aj ak\" dir=\"ltr\">de qu\u00e9 manera un modelo de IA generativa puede entrenar un sistema de visi\u00f3n por computadora.<\/span><\/p>\n<p>La entrada <a href=\"https:\/\/www.casadomo.com\/2024\/06\/28\/mit-investiga-como-mejorar-comprension-conocimiento-visual-modelos-llm\">El MIT investiga c\u00f3mo mejorar la comprensi\u00f3n del conocimiento visual de los modelos LLM<\/a> aparece primero en <a href=\"https:\/\/www.casadomo.com\/\">CASADOMO<\/a>.<\/p>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Los modelos de lenguaje grande (LLM) que se entrenan exclusivamente con texto tienen una comprensi\u00f3n s\u00f3lida del mundo visual. Pueden escribir c\u00f3digo de representaci\u00f3n de im\u00e1genes para generar escenas complejas con objetos y composiciones intrigantes, e incluso cuando ese conocimiento no se utiliza correctamente, los LLM pueden refinar sus im\u00e1genes. Los investigadores del Laboratorio de &hellip; <a href=\"https:\/\/domosistemas.com\/?p=24804\" class=\"more-link\">Sigue leyendo <span class=\"screen-reader-text\">El MIT investiga c\u00f3mo mejorar la comprensi\u00f3n del conocimiento visual de los modelos LLM<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[3],"tags":[],"class_list":["post-24804","post","type-post","status-publish","format-standard","hentry","category-casadomo-com"],"_links":{"self":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts\/24804","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=24804"}],"version-history":[{"count":0,"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts\/24804\/revisions"}],"wp:attachment":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=24804"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=24804"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=24804"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}