{"id":19739,"date":"2023-03-23T03:00:17","date_gmt":"2023-03-23T03:00:17","guid":{"rendered":"https:\/\/domosistemas.com\/?p=19739"},"modified":"2023-03-23T03:00:17","modified_gmt":"2023-03-23T03:00:17","slug":"ligo-el-metodo-del-mit-para-hacer-mas-grande-el-modelo-de-aprendizaje-automatico","status":"publish","type":"post","link":"https:\/\/domosistemas.com\/?p=19739","title":{"rendered":"LiGO, el m\u00e9todo del MIT para hacer m\u00e1s grande el modelo de aprendizaje autom\u00e1tico"},"content":{"rendered":"<div>\n<p>Un grupo de investigadores del Instituto Tecnol\u00f3gico de Massachussets (<a href=\"https:\/\/web.mit.edu\/\" target=\"_blank\" rel=\"noopener\">MIT<\/a>) ha desarrollado un nuevo m\u00e9todo, denominado operador de crecimiento lineal aprendido (LiGO), que aprende a hacer m\u00e1s grande un modelo de aprendizaje autom\u00e1tico a partir de un modelo m\u00e1s peque\u00f1o, codificando el conocimiento que el modelo m\u00e1s peque\u00f1o ya ha adquirido. Esto permite un entrenamiento m\u00e1s r\u00e1pido del modelo m\u00e1s grande.<\/p>\n<figure id=\"attachment_119288\" aria-describedby=\"caption-attachment-119288\" style=\"width: 800px\" class=\"wp-caption aligncenter\"><img decoding=\"async\" loading=\"lazy\" class=\"size-full wp-image-119288\" src=\"https:\/\/static.casadomo.com\/media\/2023\/03\/mit-modelo-aprendizaje-automatico-ligo-portada.png\" alt=\"M\u00e9todo de aprendizaje LiGO.\" width=\"800\" height=\"374\" srcset=\"https:\/\/static.casadomo.com\/media\/2023\/03\/mit-modelo-aprendizaje-automatico-ligo-portada.png 800w, https:\/\/static.casadomo.com\/media\/2023\/03\/mit-modelo-aprendizaje-automatico-ligo-portada-300x140.png 300w, https:\/\/static.casadomo.com\/media\/2023\/03\/mit-modelo-aprendizaje-automatico-ligo-portada-768x359.png 768w, https:\/\/static.casadomo.com\/media\/2023\/03\/mit-modelo-aprendizaje-automatico-ligo-portada-180x84.png 180w\" sizes=\"auto, (max-width: 800px) 100vw, 800px\"><figcaption id=\"caption-attachment-119288\" class=\"wp-caption-text\">El m\u00e9todo LiGO aprende a expandir el ancho y la profundidad de una red m\u00e1s grande a partir de los par\u00e1metros de una red m\u00e1s peque\u00f1a de una manera basada en datos.<\/figcaption><\/figure>\n<p>Su t\u00e9cnica ahorra alrededor del 50% del costo computacional requerido para entrenar un modelo grande, en comparaci\u00f3n con los m\u00e9todos que entrenan un nuevo modelo desde cero. Adem\u00e1s, los modelos entrenados con el m\u00e9todo MIT funcionaron igual o mejor que los modelos entrenados con otras t\u00e9cnicas que tambi\u00e9n usan modelos m\u00e1s peque\u00f1os para permitir un entrenamiento m\u00e1s r\u00e1pido de modelos m\u00e1s grandes.<\/p>\n<p>Los modelos de lenguaje grandes como GPT-3, que es el n\u00facleo de ChatGPT, se construyen utilizando una arquitectura de red neuronal llamada transformador. Una red neuronal, basada libremente en el cerebro humano, se compone de capas de nodos interconectados o \u2018neuronas\u2019. Cada neurona contiene par\u00e1metros, que son variables aprendidas durante el proceso de entrenamiento que la neurona utiliza para procesar datos.<\/p>\n<p>Las arquitecturas de transformadores son \u00fanicas porque, a medida que estos tipos de modelos de redes neuronales crecen, logran resultados mucho mejores. Estos modelos suelen tener cientos de millones o miles de millones de par\u00e1metros que se pueden aprender.<\/p>\n<p>Una t\u00e9cnica eficaz se conoce como modelo de crecimiento. Usando el m\u00e9todo de crecimiento del modelo, los investigadores pueden aumentar el tama\u00f1o de un transformador copiando neuronas, o incluso capas enteras de una versi\u00f3n anterior de la red, y luego apil\u00e1ndolas encima. Pueden ampliar una red agregando nuevas neuronas a una capa o hacerla m\u00e1s profunda agregando capas adicionales de neuronas.<\/p>\n<h2>Mapeo lineal de par\u00e1metros<\/h2>\n<p>Los investigadores del MIT utilizan el aprendizaje autom\u00e1tico para aprender un mapeo lineal de los par\u00e1metros del modelo m\u00e1s peque\u00f1o. Este mapa lineal es una operaci\u00f3n matem\u00e1tica que transforma un conjunto de valores de entrada, en este caso los par\u00e1metros del modelo m\u00e1s peque\u00f1o, en un conjunto de valores de salida, en este caso los par\u00e1metros del modelo m\u00e1s grande.<\/p>\n<p>Su m\u00e9todo, al que llaman operador de crecimiento lineal aprendido (LiGO), aprende a expandir el ancho y la profundidad de una red m\u00e1s grande a partir de los par\u00e1metros de una red m\u00e1s peque\u00f1a de una manera basada en datos.<\/p>\n<p>Pero el modelo m\u00e1s peque\u00f1o en realidad puede ser bastante grande, tal vez tenga 100 millones de par\u00e1metros, y los investigadores podr\u00edan querer hacer un modelo con 1.000 millones de par\u00e1metros. Entonces, la t\u00e9cnica LiGO divide el mapa lineal en partes m\u00e1s peque\u00f1as que un algoritmo de aprendizaje autom\u00e1tico puede manejar.<\/p>\n<p>LiGO tambi\u00e9n expande el ancho y la profundidad simult\u00e1neamente, lo que lo hace m\u00e1s eficiente que otros m\u00e9todos. Un usuario puede ajustar c\u00f3mo de ancho y profundo quiere que sea el modelo m\u00e1s grande cuando ingresa el modelo m\u00e1s peque\u00f1o y sus par\u00e1metros.<\/p>\n<p>Cuando compararon su t\u00e9cnica con el proceso de entrenar un nuevo modelo desde cero, as\u00ed como con los m\u00e9todos de crecimiento del modelo, fue m\u00e1s r\u00e1pido que todas las l\u00edneas de base. Los investigadores tambi\u00e9n descubrieron que pod\u00edan usar LiGO para acelerar el entrenamiento de transformadores incluso cuando no ten\u00edan acceso a un modelo preentrenado m\u00e1s peque\u00f1o.<\/p>\n<p>La entrada <a rel=\"nofollow\" href=\"https:\/\/www.casadomo.com\/2023\/03\/23\/ligo-metodo-mit-hacer-mas-grande-modelo-aprendizaje-automatico\">LiGO, el m\u00e9todo del MIT para hacer m\u00e1s grande el modelo de aprendizaje autom\u00e1tico<\/a> aparece primero en <a rel=\"nofollow\" href=\"https:\/\/www.casadomo.com\/\">CASADOMO<\/a>.<\/p>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Un grupo de investigadores del Instituto Tecnol\u00f3gico de Massachussets (MIT) ha desarrollado un nuevo m\u00e9todo, denominado operador de crecimiento lineal aprendido (LiGO), que aprende a hacer m\u00e1s grande un modelo de aprendizaje autom\u00e1tico a partir de un modelo m\u00e1s peque\u00f1o, codificando el conocimiento que el modelo m\u00e1s peque\u00f1o ya ha adquirido. Esto permite un entrenamiento &hellip; <a href=\"https:\/\/domosistemas.com\/?p=19739\" class=\"more-link\">Sigue leyendo <span class=\"screen-reader-text\">LiGO, el m\u00e9todo del MIT para hacer m\u00e1s grande el modelo de aprendizaje autom\u00e1tico<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[3],"tags":[],"class_list":["post-19739","post","type-post","status-publish","format-standard","hentry","category-casadomo-com"],"_links":{"self":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts\/19739","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=19739"}],"version-history":[{"count":0,"href":"https:\/\/domosistemas.com\/index.php?rest_route=\/wp\/v2\/posts\/19739\/revisions"}],"wp:attachment":[{"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=19739"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=19739"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/domosistemas.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=19739"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}