AGI Inteligencia General Artificial de Modelo Superior

3 dic 202322 Min. de lectura

Inteligencia General Artificial (AGI) es un término para los sistemas de Inteligencia Artificial que igualan o superan el desempeño humano en una variedad de tareas. AGI tiene beneficios y desventajas. Por el lado positivo, los AGI pueden realizar la mayor parte de las tareas que requieren mucho tiempo y energía humana. AGI puede sugerir un mundo ideal en el que nadie tiene deseos que no puedan cumplirse.

un robot androide en representación de AGI Inteligencia General Artificial hacia un Modelo Superior — AGI Inteligencia General Artificial hacia un Modelo Superior JMC Studio

El AGI también puede dar lugar a una situación de desequilibrio en la que una (o unas pocas) empresas dominan la economía, exacerbando la dicotomía entre el 1% superior y el resto de la humanidad. De acuerdo con el argumento, una AGI superinteligente también podría beneficiarse de esclavizar a las personas para sus propios fines o exterminarlas para que no compitan por los recursos. Se supone que un AGI más inteligente que los humanos puede diseñar un AGI mejor, que a su vez puede diseñar un AGI aún mejor, lo que resulta en un despegue duro y singularidad.

No encuentro ninguna teoría que sostenga que la singularidad o AGI sean imposibles. Sin embargo, generalmente no estoy de acuerdo con las afirmaciones de que los modelos de lenguaje grandes, como la serie GPT (GPT-2, GPT-3, GPT-4 y GPT-X), conducen a AGI. Este artículo tratará de explicar por qué creo que ese es el caso y lo que creo que falta si la humanidad (o los miembros de la raza humana) decide intentar lograr AGI. Además, intentaré explicar por qué es fácil hablar en abstracto de la "receta para AGI", pero por qué la física misma evitará cualquier cambio repentino e inesperado hacia AGI o super-AGI.

¿Qué falta para el AGI?

Para lograr AGI parece probable que necesitemos uno o más de los siguientes:

Tecnologías de planificación en línea no codiciosas que pueden funcionar en presencia de tareas, estados y acciones que a priori son invisibles. Esto podría ser aprendizaje por refuerzo. El desafío aquí es poder representar y razonar sobre estados y acciones que son independientes de la tarea o que pueden alterar las representaciones en función de tareas que nunca se han visto. También es posible que necesitemos la capacidad de generalizar o transferir a través de estados, acciones y tareas invisibles para reducir la cantidad costosa de exploración de estados y acciones futuros. No obstante, no existe una forma de eliminar por completo la necesidad de exploración.
Una tecnología de modelo global que predice de manera confiable las transiciones entre estados y acciones que pueden ocurrir al realizar cualquier tarea en cualquier entorno. Un modelo global como este permitiría una planificación rápida en línea a través del aprendizaje por refuerzo. La capacidad de explorar e interactuar con el mundo real será necesaria para aprender un modelo mundial de este tipo, lo que requeriría datos de las transiciones estado-acción en el mundo real.
Es posible que necesitemos uno de los siguientes si se utilizarán modelos de lenguaje grande (LLM) en AGI: (a) un agente de aprendizaje por refuerzo que envuelva a un LLM en un ciclo de entrenamiento tradicional de prueba y error; y (b) un aprendizaje reforzado a través de una técnica de retroalimentación humana que tiene en cuenta estados y objetivos, y recompensas por transiciones exitosas y logro de objetivos.

Las tres capacidades que faltan están estrechamente relacionadas. La planificación es el proceso de elegir qué hacer para lograr una meta. El camino más popular actualmente, el aprendizaje por refuerzo, requiere explorar el mundo real para aprender a planificar y/o imaginar cómo cambiará el mundo cuando pruebe diferentes opciones. Cuando un agente intenta hacer algo, un modelo mundial puede predecir cómo cambiará el mundo. Sin embargo, la exploración facilita la adquisición de modelos globales.

Los modelos de lenguaje grandes son fascinantes porque parecen tener una gran comprensión del mundo. Aunque los LLM tienen algunas características que se asemejan a las de un modelo mundial, rara vez poseen el nivel de precisión necesario para actuar de manera confiable en el mundo real. El aprendizaje por refuerzo sin retroalimentación humana carece de contexto para evaluar las acciones en el mundo real. Esto requiere un plan o un modelo global.

Desglosaré estos argumentos en detalle en las siguientes secciones para AGI Inteligencia General Artificial de Modelo Superior

1. Planificación

La capacidad más fundamental que falta en los modelos de lenguajes grandes es la planificación en línea no codiciosa .

La planificación se refiere a una de dos cosas:

Un procedimiento para determinar una secuencia de acciones <a₁ , a₂ , …> que transforma el estado actual del mundo en uno en el que se cumple una situación objetivo.
Un proceso para encontrar una política que asigne estados a acciones π: S → A tal que ejecutar la acción a = π(s) en cualquier estado s ∈ S encontrado por el agente y seguir la política en adelante maximizará la recompensa esperada.

El resultado de la planificación es un plan — una secuencia de acciones a seguir — o una política— un mapeo que indica la acción a seguir para cualquier estado encontrado.

La exploración es un elemento distintivo de la planificación y se refiere a cualquier proceso mediante el cual se evalúan acciones alternativas para determinar si mejoran la situación del agente en relación con una meta o recompensa futura esperada. Hay algunos mecanismos de exploración conocidos. Dos son pertinentes:

Retroceso: un proceso que permite a un algoritmo tomar nuevas decisiones después de revisar sus decisiones anteriores. Los algoritmos de planificación como A*, UCPOP y los planificadores modernos como Fast-Downward lo utilizan.
Implementaciones: son un proceso en el que se consideran varias alternativas y las posibles rutas futuras de acción del gobierno. El algoritmo crea varios futuros posibles y los analiza para determinar qué alternativa inmediata da como resultado el mejor conjunto de futuros posibles. Los algoritmos como Minimax y Monte Carlo Tree Search lo utilizan. Los reinicios son un caso particular de implementación en el que un agente regresa a un estado inicial y vuelve a intentarlo, pero toma decisiones diferentes en el proceso. El aprendizaje por refuerzo utiliza esto.

Un planificador codicioso utiliza información local para elegir entre alternativas para reducir la complejidad computacional del análisis de todas las alternativas. Los algoritmos codiciosos suelen ser rápidos, pero no garantizan la optimización. La versión más extrema de un planificador codicioso realiza una sola implementación sin pensar en su objetivo o recompensa futura.

La planificación en línea se refiere a la planificación que se realiza en el momento de la ejecución, ya que las condiciones estatales y las restricciones ambientales pueden ser conocidas solo en ese momento.

La planificación fuera de línea se puede utilizar para generar una política que mapee cualquier estado con la mejor acción a tomar, ya que la planificación en línea no codiciosa puede tardar. La política resultante se puede ejecutar en el momento de la ejecución; no importa en qué estado termine el agente después de ejecutar una acción, la siguiente acción a ejecutar estará disponible tan pronto como se pueda consultar. Este es un uso común del aprendizaje por refuerzo, que es una categoría de algoritmos que se utilizan para crear políticas. El aprendizaje por refuerzo podría ser considerado como una exploración previa del espacio estado-acción.

Cuando un planificador fuera de línea, como el aprendizaje por refuerzo, puede comprender adecuadamente el espacio de acción del estado, ejecutar la política en el momento de la ejecución es, en teoría, lo mismo que planificar en línea. En la vida real, esto no siempre es factible.

¿Por qué deberíamos exigir una planificación en línea para AGI?

Hay muchas tareas que se pueden hacer. Muchas tareas se derivarán entre sí, por lo que será útil generalizar. Sin embargo, algunas tareas serán lo suficientemente distintivas como para impedir la transferencia de un modelo de políticas previamente capacitado fuera de línea. Además, habrá tareas que son conocidas pero que deben llevarse a cabo en circunstancias lo suficientemente innovadoras como para requerir nuevas consideraciones.
En el mundo real, existen innumerables estados. La generalización será una herramienta útil para controlar nuevos estados y acciones. Sin embargo, algunos estados serán lo suficientemente distintos como para que un modelo de política no funcione sin consideraciones en línea adicionales.
Las nuevas tecnologías, las nuevas formas de hacer las cosas y las preferencias sobre cómo se hacen las cosas pueden cambiar las "reglas del mundo".

¿Por qué deberíamos exigir una planificación no codiciosa para el AGI?

Aunque es posible que no siempre necesitemos las mejores soluciones para las tareas, es posible que deseemos que los planes sean suficientemente efectivos y eficientes. Un algoritmo es menos propenso a quedar atrapado en máximos locales si es menos codicioso.

1.1 Aprendizaje por refuerzo

El aprendizaje por refuerzo es una clase de algoritmos que resuelven un proceso de decisión de Markov M=<S, A, P, R, γ> donde S es el conjunto de todos los estados posibles, A es el conjunto de todas las acciones posibles, P es una función de transición P: S × A × S → [0,1] , R es una función de recompensa R: S × A → ℝ y γ = [0, 1] es un factor de descuento proporcional al horizonte de recompensa. La solución a un MDP es una política π: S → A como se describió anteriormente. En la práctica, los agentes de IA no siempre tienen conocimiento de qué estado se encuentran y deben resolver un MDP parcialmente observable (POMDP); sin embargo, con el aprendizaje por refuerzo profundo, con frecuencia podemos tratar a S como el conjunto de observaciones estado posibles y resolver los POMDP como si fueran MDP.

Las acciones con efectos no deterministas se manejan sin cambios significativos en la formulación del problema porque la política puede decirnos qué acción ejecutar a continuación, sin importar en qué estado terminemos después de ejecutar una acción.

Si el espacio entre estado y acción es demasiado grande para enumerarlo, se debe aprender una representación compacta que sea la política ideal. Este es el caso del aprendizaje por refuerzo profundo, que aprende una red neuronal profunda capaz de actuar en respuesta a un estado.

Hay dos clases amplias de aprendizaje por refuerzo:

RL utiliza la función de transición P basado en modelos para realizar implementaciones sin interactuar directamente con el entorno.
RL maneja el caso en el que P es desconocido y aprende la política directamente de las interacciones con el medio ambiente sin modelos. El entorno puede ser una simulación o el entorno real en el que se ejecutará el agente.

Además, se puede utilizar una simulación para aprender la función de transición (que más adelante llamaremos "modelo mundial") y luego realizar RL basada en modelos; esto a veces conduce a una política más rápida que RL sin modelo. La RL basada en modelos se puede usar para realizar la planificación en línea o fuera de línea, mientras que la RL sin modelos suele ser mejor para la planificación fuera de línea.

Debido a que teóricamente maneja el no determinismo de la acción en el mundo real y el gran espacio de acción estatal en el mundo real, Deep RL es uno de los algoritmos más populares utilizados para lograr AGI.

1.2 Planificación con modelos de lenguaje grandes

Primero, los modelos de lenguaje grandes no son planificadores nativos. Por lo tanto, no lo hacen solos. Como redes de retroalimentación, carecen de mecanismos (recursivos o iterativos) que les permitan realizar implementaciones o revisar decisiones previas. Debido a que los LLM están sujetos an un código que realiza muestreos, este es un argumento un tanto pedante. Sin embargo, los métodos de muestreo y generación más comunes no consideran alternativas en términos de objetivo o recompensa.

Una excepción es la búsqueda por haz; sin embargo, no hay evidencia de que ningún LLM comercial emplee esta técnica. La búsqueda por haz es semicodiciosa en el sentido de que genera alternativas, pero esas alternativas generalmente se evalúan con una función de puntuación sustituta como la perplejidad, que no tiene en cuenta el objetivo o la recompensa futura. Las excepciones incluyen el refuerzo con retroalimentación humana (RLHF) y el refuerzo con retroalimentación de IA (RLAIF), que se analizarán con más detalle más adelante.

A pesar de lo anterior, los LLM pueden generar texto que parece planos:

dialogo de ChatGPT para representación de la inteligencia artificial AGI de un modelo de lenguaje superior

Según la discusión anterior, podemos decir que los LLM son planificadores codiciosos.

Hay algunas advertencias a tener en cuenta:

Los tokens son acciones si los LLM son planificadores. El significado semántico latente de las secuencias de tokens, por otro lado, podría ser considerado como cadenas literalmente sintácticamente correctas en el contexto de la ejecución en el mundo real. Como resultado, podríamos decir que los LLM como planificadores trabajan con una variedad de primitivas que se pueden usar en la vida real.
Cuando se implementa un plan creado, no existe un método nativo para manejar la retroalimentación del mundo. Si una acción planificada no se puede llevar a cabo, se debe proporcionar información sobre la falla y la razón detrás de la falla para que el planificador pueda elegir una alternativa o crear un nuevo plan desde cero para evitar la misma causa del fracaso en el futuro.

Estas advertencias pueden abordarse mediante mecanismos externos al LLM.

1.2 RLHF y RLAIF

El aprendizaje reforzado a partir de la retroalimentación de la inteligencia artificial (RLAIF) y el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) han demostrado ser efectivos para adaptar los LLM. RLH es un proceso que recopila comentarios de personas sobre el desempeño de un LLM en diversas tareas y los transforma en señales de entrenamiento. RLAIF es un método para evaluar algorítmicamente los resultados de un LLM, generalmente utilizando un segundo modelo de IA, y transformarlos en una señal de entrenamiento adicional (una forma de supervisión remota).

Tanto RLHF como RLAIF (en adelante RL*F) utilizan el siguiente proceso para ajustar un LLM:

Un LLM produce varias respuestas a un mensaje
Cada respuesta se evalúa y se le asigna una puntuación, por ejemplo, uno para una respuesta buena y uno para una respuesta mala.
Cada respuesta tiene una puntuación de pérdida que se propaga hacia atrás a través del LLM. Como resultado, el modelo cambia su distribución para producir más respuestas como la anterior o menos respuestas como la anterior.

El LLM se ve obligado a implementar varias respuestas completas y distintas por mensaje, y la retroalimentación solo se aplica al final de cada implementación, lo que hace que lo anterior sea un proceso de aprendizaje por refuerzo en lugar de un proceso de aprendizaje supervisado típico. Como resultado, cada token es una acción y la retroalimentación es "escasa" porque se aplica únicamente al final de una secuencia de acciones.

Se puede considerar el proceso RL*F como un proceso de planificación fuera de línea. El LLM (ahora un modelo de políticas) debe elegir las acciones (tokens) que maximizarían la recompensa esperada si se otorgara la recompensa. Durante el tiempo de ejecución, la recompensa no se otorga porque el modelo está entrenado y ya no está disponible o necesario.

Sin embargo, ¿Qué tipo de recompensa busca el proceso de aprendizaje por refuerzo? Ahora es cuando las cosas se vuelven interesantes. El objetivo ahora es elegir los tokens que se considerarán que responden al mensaje (es decir, "seguir instrucciones") para obtener la mejor retroalimentación.

La función objetivo tiene algunas implicaciones significativas. Primero, el "objetivo" se proporciona en el mensaje en lugar de un objetivo fijo. En este sentido, se requiere que el LLM-cum-policy logre un objetivo sin estar seguro de qué objetivos se le presentarán durante el tiempo de formación. Esto es diferente a muchos sistemas que utilizan el aprendizaje por refuerzo, como el Go, donde el objetivo es siempre el mismo y el agente puede explorar muchos estados y acciones y evaluarlos con respecto al logro del objetivo.

En segundo lugar, se puede afirmar que un LLM sintonizado con RL*F está tratando de crear secuencias que parecen estar siguiendo pautas. ¿Qué razón hay? Debido a que el sistema nunca evalúa ningún estado o acción con respecto a ningún objetivo o recompensa que no sea la probabilidad de recibir comentarios humanos positivos. La retroalimentación utilizada en el ajuste no determina si la respuesta generada logra el objetivo del mensaje. De hecho, no existe un mundo real contra el cual evaluar el plan, por lo que el proveedor de retroalimentación (humano o de otro modelo) no puede saberlo. Todo lo que se puede ofrecer es si el plan parece correcto en general (en general, esto es lo que uno debe hacer para lavar los platos, aunque su cocina y sus circunstancias pueden ser diferentes y el plan no se puede ejecutar tal como está). Por lo tanto, podemos afirmar que el LLM-cum-policy aprende si está produciendo algo que parece aproximadamente correcto.

Podemos afirmar que los LLM sintonizados con RL*F son planificadores fuera de línea, pero no planifican para los objetivos que creemos que se les están asignando, y no al nivel de abstracción de acciones ejecutables en el mundo.

2. Modelos globales

Un modelo global representa la dinámica de transición entre un estado y una acción: P(s' | s, do(a)) es la probabilidad de que el estado s llegue al estado s si se realiza la acción a. Un modelo mundial, anteriormente conocido como función de transición en un MDP, permite a un agente realizar implementaciones sin interactuar con el entorno de ejecución real. En términos informáticos, se puede afirmar que el modelo global permite a un agente "imaginar" las consecuencias de diversas opciones. La forma en que los humanos imaginan y anticipan las consecuencias de sus acciones parece ser similar, y esto parece ayudar a resolver tareas.

Se ha demostrado que los enfoques de RL sin modelos pueden aprender más rápido que los agentes de RL profundos que tienen un modelo mundial codificado (por ejemplo, AlphaGo) o aprenden un modelo mundial junto con el modelo de políticas (por ejemplo, MuZero, Dreamer, etc.). debido a que la presencia de un modelo mundial, incluso parcialmente aprendido, disminuye la exploración y las interacciones con el entorno de simulación.

2.1. Modelos mundiales y modelos de lenguajes grandes

¿Los LLM tienen modelos mundiales? Un poco. Si le digo a ChatGPT que “Sally le dio el libro a John. ¿Quién tiene el libro ahora? me dirá:

dialogo de ChatGPT para representación de la inteligencia artificial AGI

Según la declaración, Sally le entregó el libro a John. Entonces, John tiene el libro ahora. Aunque es difícil determinar la autoría original del libro, eso no es necesario para un modelo mundial:

dialogo de ChatGPT para representación de la inteligencia artificial AGI de lenguaje global

ChatGPT también puede jugar al ajedrez. Este es un caso interesante porque para saber qué acciones puede tomar debe tener algún tipo de representación del estado del tablero, ¿no?

dialogo de ChatGPT para representación de la inteligencia artificial AGI de lenguaje generativo

¿Cómo supo que d5 era un movimiento legal? No es así. Sabe que muchas partidas de ajedrez grabadas en Internet usando esa notación tienen d5 después de d4. Debido a que hay muchos juegos posibles y cualquier secuencia de movimientos se habrá visto con menos frecuencia en los datos, realizará movimientos ilegales más adelante en el juego. Sin embargo, el estado oculto del transformador es capaz de atender una secuencia de movimientos, y la construcción del estado oculto es ciertamente útil para seleccionar fichas que pueden ser consideradas acciones de ajedrez. Por lo tanto, un LLM puede servir como modelo mundial en ocasiones. A diferencia del estado real, opera en el nivel inferior de tokens y crea una descripción textual del estado.

Aquí hay otra prueba para comprobar si ChatGPT conoce el estado del tablero de ajedrez después de un solo movimiento de ajedrez:

dialogo de ChatGPT para representación de la inteligencia artificial AGI para interactividad en un entorno de programación y codificación

Es obvio que no está bien. Sin embargo, esta prueba no es completamente concluyente debido a que le estoy solicitando que dibuje el tablero y es posible que se confunda mientras lo hace; es posible que se pierda algo en esta forma particular de evaluar la comprensión del Estado por parte del sistema.

En RL*F, no hay nada que requiera que un modelo mundial sea preciso. Esto se debe a que no hay ningún componente de recompensa relacionado con la predicción precisa del estado siguiente. Un LLM solo debe poder crear estados ocultos que puedan decodificarse para generar secuencias de tokens con alta o baja perplejidad. Sin embargo, al operar solo con entropía cruzada o RL*F en el nivel de token como acción, un LLM no necesita desarrollar habilidades completas de modelo mundial para producir secuencias de tokens que reciban alta retroalimentación o baja perplejidad.

¿Esperamos más capacitación para un modelo mundial si los LLM aprenden sobre algo como un modelo mundial? Esto probablemente depende de los datos. Como se mencionó anteriormente, la función objetivo utilizada para entrenar LLM no requiere que el modelo conozca o argumente sobre los estados siguientes. Si el corpus de entrenamiento tuviera la forma "descripción del estado s, descripción de la acción a, descripción del estado s" (o una combinación de datos separados "s, a" y "a, s"), entonces aprendería a construir un estado posterior a cada acción, token por token. Estos datos pueden estar presentes en conjuntos de datos actuales o se pueden obtener para algunos dominios específicos. En otros campos, el espacio entre estado y acción será demasiado amplio y carecerá de datos, lo cual es común en situaciones en las que la generalización no tiene en cuenta o hay un desajuste en el nivel de abstracción del conocimiento.

2.2. Modelos mundiales en el aprendizaje por refuerzo basado en el estado

Los modelos globales han tenido un gran éxito en el aprendizaje por refuerzo en juegos de computadora y robótica. Pueden ocurrir más implementaciones más rápido si se pueden predecir los resultados de la propia acción y evaluar esos resultados frente a una función de recompensa.

La relación entre el aprendizaje por refuerzo basado en estados y los modelos del mundo del aprendizaje ha sido un desafío. Un agente debe experimentar con diversas acciones en varios estados para comprender un modelo mundial. Esto es muy parecido (y ocasionalmente exactamente igual) al proceso necesario para aprender una política de aprendizaje por refuerzo. Con frecuencia se aprenden al mismo tiempo, aunque en ocasiones se puede aprender primero el modelo mundial lentamente y luego la política rápidamente.

Si bien un modelo mundial ayuda a un agente de aprendizaje por refuerzo a aprender una política más rápido (incluso si se aprende junto con la política), el conjunto actual de algoritmos RL solo aprende un modelo mundial que sea lo suficientemente bueno para ayudar con la política actual. . Esto significa que cuando se requiere que un agente se desvíe de tareas o entornos que ha visto antes, el modelo mundial no ayuda. Si el objetivo es lograr alguna recompensa, no hay ningún incentivo para que el modelo mundial retenga ningún conocimiento sobre el medio ambiente que no sea directamente relevante para la política.

La apertura se refiere al desafío de adaptarse a nuevas tareas y entornos sin experiencia previa. Una estrategia es aceptar que un agente, al igual que un ser humano, nunca estará completamente capacitado y preparado para abordar todas las tareas y entornos que se le presenten. Otro método es encontrar un agente que pueda generalizar lo más posible y luego usar la planificación en línea para considerar nuevas variables, tareas, recompensas y condiciones ambientales.

3. Cuellos de botella en la vida real y el modelo mundial

La planificación y el aprendizaje por refuerzo son procesos computacionalmente costosos. Esto podría deberse a que aún no hemos encontrado métodos más avanzados para crear modelos políticos. Sin embargo, tal como lo entendemos hoy, los algoritmos RL deben tener datos que cubran todas las transiciones estado-acción de antemano o deben explorar interactivamente el entorno de ejecución (o simulación) para generar sus propios datos. Esto provoca dificultades en la adquisición de datos.

RLHFI requiere comentarios humanos. Las metas son parte del mensaje de RLHF en este momento; se requiere más retroalimentación humana para ser mejor en más tareas. Solo se puede obtener retroalimentación humana en una escala de tiempo humana. Por lo tanto, aumentar el RLHF tiene un ritmo limitado.
RLHFI Debido a que no se conoce el estado mundial cuando se presenta la retroalimentación, no puede utilizar la retroalimentación humana para evaluar la corrección del plan. Un humano debe estar "al tanto" durante la exploración si se debe proporcionar retroalimentación humana en respuesta a un intento real de ejecutar planes, y la retroalimentación solo puede obtenerse tan rápido como se puedan ejecutar los planes en el mundo real con supervisión humana.
RLHFI utiliza un modelo de inteligencia artificial para generar recompensas. Los datos humanos, cuya adquisición tiene una velocidad limitada, se utilizan con frecuencia para entrenar este modelo de retroalimentación de IA.
Un entorno de simulación no es lo suficientemente complejo como para entrenar un sistema de IA general, independientemente de si se utilizan LLM o no. El agente que se entrena en el entorno no será general si no puede expresar fielmente cualquier tarea que pueda desarrollarse en el mundo real. Un agente debe ejecutar en el mundo real para tener un modelo general capaz de generar políticas o planes sólidos, que están limitados por la física de la ejecución de la acción y la falta de capacidad para realizar reinicios adecuados. Un entorno de simulación se puede crear. Sin embargo, los mismos datos de prueba y error de estado-acción son necesarios para aprender a crear un entorno de simulación.
Tener un modelo mundial es una alternativa a tener un entorno de simulación. Aunque los LLM tienen ciertas habilidades para actuar como modelos mundiales, estas habilidades son incompletas y con frecuencia se encuentran en un nivel de abstracción inadecuado para su aplicación práctica. Las interacciones con el mundo real o la retroalimentación humana serán necesarias para aprender un modelo mundial.
La función objetivo/recompensa de RL funciona mejor cuando el agente puede restablecerse al mismo (o similar) estado inicial. El secreto oculto es que las políticas de RL se ajustan demasiado a sus recompensas y objetivos, lo que las hace bastante efectivas en entornos cerrados como los juegos. Sin embargo, aprender una política mientras el objetivo o la recompensa continúan cambiando es muy difícil y requiere una generalización muy fuerte, o una transferencia de tiro cero, o más interacciones con el entorno para evitar un olvido catastrófico. La planificación en línea puede lograr objetivos novedosos, pero requiere un modelo mundial (probablemente junto con habilidades de replanificación) y es extremadamente ineficiente desde el punto de vista computacional porque requiere exploración y/o pruebas en línea.

4. Otros obstáculos

La paralelización es un método para abordar los obstáculos en las pruebas de adquisición de datos y RL. Durante la misma cantidad de tiempo que uno solo, dos agentes de RL que realizan pruebas y/o utilizan el aprendizaje federado para compartir actualizaciones del modelo pueden explorar el doble de un espacio de estado-acción. Más agentes pueden hacer aún más si se ejecutan en paralelo.

Es posible cuestionar si es factible aumentar constantemente el número de agentes que trabajan juntos hasta que se desarrolle un modelo de política o un modelo mundial al nivel humano (o superior) de manera casi instantánea. Los escenarios de replicación no controlados enfrentarán limitaciones del mundo real. ¿Cómo pueden los nuevos agentes obtener la habilidad informática? ¿De dónde extraen los nuevos agentes energía eléctrica? Debido a que son recursos físicos que deben producirse mediante procesos no triviales del mundo real, ninguno de ellos puede crecer exponencialmente. Aunque hay muchas GPU disponibles en el mundo, no todas son accesibles y requerirán más tiempo y materiales para construir. Además, la electricidad es un recurso limitado y lleva tiempo construir nuevas instalaciones para producir energía.

Además, los actuadores robóticos pueden limitar los recursos si los datos solo se pueden obtener mediante pruebas robóticas en el mundo real. La paralelización significa que se necesitarán y compensarán más humanos si se requiere retroalimentación humana; los datos de retroalimentación no pueden obtenerse más rápido de lo que los humanos pueden proporcionarlos.

¿Es posible para un agente con suficiente complejidad y capacidad crear y construir uno más complejo? Sí, teóricamente. Una AGI a nivel humano puede construir una AGI mejor si los expertos humanos pueden crear algoritmos, procesadores y fuentes de energía cada vez mejores. Sin embargo, el diseño de un sistema mejor requiere prueba y error. Si no fuera así, habríamos creado un sistema mejor antes. Si hablamos de hardware, el proceso de prueba y error implica actuar en el mundo real. Una vez más, la operación en el mundo real es un proceso lento.

Los simuladores tienen como objetivo escapar de los límites de tarifas que existen en el mundo real. Por ejemplo, basados en nuestra comprensión actual de la física, existen simuladores de diseño de chips muy buenos. Todavía hay un proceso de iteración en el software/algoritmo/modelo, entrenamiento y prueba si los agentes son solo software y se ajustan a las limitaciones del hardware computacional. Aunque puede ser más riguroso que el diseño del hardware, este ciclo de iteración no es igual a cero. Sin embargo, supongo que el proceso de diseño de un agente implicará algo parecido a RL, y será necesario probar el agente de segundo orden para su capacidad para operar en el entorno para evitar que los agentes subsiguientes sean únicamente máquinas de confabulación. mundo real, estableciendo límites a las tasas de pruebas en el mundo real o exigiendo la adquisición previa de modelos mundiales que funcionen en el mundo real.

¿Está ya disponible todo el saber necesario para superar o superar la paridad humana? Un argumento es que un LLM se puede obtener leyendo un conjunto de textos más amplio que una persona podría leer en su vida. Como resultado, un agente con un LLM puede tener más conocimientos que un individuo. Los LLM actuales, en cierto modo, tienen más "conocimientos" que los humanos. Sin embargo, debido a la naturaleza de la información que se comparte en forma de texto en Internet, ese conocimiento es algo abstracto. Por lo tanto, nuestros corpus de texto no están al nivel de granularidad de operar en el mundo real; es conocimiento abstracto porque la comunicación entre humanos no necesita todos los detalles finitos porque los humanos ya están integrados y tienen práctica para operar en el mundo real. Por ejemplo, tengo experiencia en llevar a cabo un golpe de Estado en general.

Sin embargo, en la práctica, las condiciones sobre el terreno son impredecibles y requieren planificación en línea, análisis previo de todas las posibilidades o un modelo mundial que permita la planificación o análisis previo sin interactuar con el mundo real. Todos los obstáculos ya se han discutido. De manera similar, después de haber leído a Maquiavelo, entiendo en abstracto cómo adquirir poder e influencia, pero poner los principios en acción no está garantizado; no es un manual de instrucciones a nivel operativo, e incluso si lo fuera, implementar un plan requeriría contingencias que requieren capacidad de planificación en línea.

Sin embargo, si puede incorporar a los humanos como robots universales para que operen en el mundo real, es posible que un AGI o un super-AGI no necesite operar en el mundo real. ¿Es factible que un AGI o super-AGI, con una capacidad de procesamiento de texto mucho mayor que la de cualquier humano, pueda recopilar toda la información necesaria para persuadir a los humanos de que obedezcan sus órdenes? Esto es como preguntar si existe una combinación de fuentes de conocimiento existentes que podrían permitir que alguien obtenga poder sobre otros sin práctica o contingencias que ya no se habrían descubierto. Esta combinación podría incluir miles o millones de fragmentos de material original dispersos que un LLM no puede digerir.

Es probable que el escenario anterior sea equivalente a tener los datos necesarios para crear un modelo mundial perfecto para un escenario que solo requiere lectura. La razón de la equivalencia es que cualquier tipo de exploración de prueba y error en la superficie operará a un ritmo limitado por la física o por los humanos y será directamente observable por los humanos, quienes tendrán la oportunidad de intervenir.

La velocidad a la que los hipotéticos sistemas de IA pueden automejorarse será lenta y probablemente deba ocurrir abiertamente debido a los cuellos de botella en el aprendizaje de modelos mundiales y de RL que requieren mucha exploración previa o mucha exploración durante la planificación en línea. ya sea a través de la interacción directa con el mundo real, la interacción con personas en el mundo real o mediante una mayor recopilación de datos de comentarios humanos. Una pregunta que surge es si es posible persuadir a las personas para que colaboren en el proceso de superación personal. La existencia de QAnon sugiere desafortunadamente que algunas personas son fácilmente manipulables.

Debido a que todavía necesitamos un sistema de inteligencia artificial capaz de comprender cómo sus palabras afectan al destinatario, debemos asumir que alguien ya ha permitido que esto suceda, incluso teniendo en cuenta los límites de tasa de aprendizaje antes mencionados. Además, no se trata de manipular a nadie, sino de manipular a las personas que tienen la autoridad y el acceso para proporcionar los recursos necesarios para un sistema de IA. ¿Cuál sería la cantidad de personas? ¿Cómo puede el sistema de IA acceder a quienes tienen acceso? ¿Cuántos de ellos podrían ser más manipulados? Es importante obtener más recursos, ya sea computación, materiales nucleares o materiales biológicos. Las personas que los hipotéticos sistemas de IA necesitan para llevar a cabo sus planes son precisamente las que esperaríamos que sean menos susceptibles a la manipulación, estuvieran en guardia o tuvieran controles y equilibrios establecidos. En otras palabras, estos escenarios requieren que aquellos que ya tienen altos niveles de recursos y acceso sean cómplices o malintencionados.

5. Conclusiones en AGI Inteligencia General Artificial de Modelo Superior

Ninguna teoría afirma que no podemos lograr un AGI o un super-AGI. Probablemente tengamos los recursos que necesitamos: modelos de lenguaje grandes, aprendizaje por refuerzo, planificación y modelos mundiales. Si bien es fácil argumentar que el conocimiento de las herramientas generales hace que AGI y super-AGI sean inevitables, ignora los obstáculos que dificultan la creación de sistemas plausibles utilizando estas herramientas convencionales. Para convertirse en adultos funcionales, los humanos necesitan decenas de años de interacción en el mundo real y en situaciones sociales. Se requieren nuevos avances que superen los desafíos de la adquisición de datos mediante la retroalimentación humana o la interacción física con el mundo real. Sin embargo, estos desafíos son significativos y pueden ser insuficientes para reducir la eficiencia del aprendizaje. Los desafíos dependen de la naturaleza física y de la capacidad de las personas para operar, por lo que los progresos deberían ser verdaderamente innovadores en lugar de incrementales.

La aparición de AGI y super-AGI no serán eventos espontáneos o accidentales a menos que encontremos una manera de construir una planificación en línea a nivel de AGI o modelos mundiales que no afecten a los cuellos de botella. Para ocultar el desarrollo, se requerirá mucho tiempo al aire libre o esfuerzos hercúleos por parte de personas malintencionadas.

Una regulación que fomente la transparencia garantizará que se pueda responder adecuadamente a cualquier evento preocupante en el momento oportuno. La transparencia regula los sistemas de IA limitados que podrían violar las normas sociales de equidad, privacidad e idoneidad.

Servicios Profesionales

En JMC Studio somos una Agencia multidisciplinaria con gran talento creativo, desarrollamos todo tipo de proyectos, puede revisar todos nuestros servicios de tecnología, web e IA aquí. Estaremos felices de crear cosas maravillosas juntos.

Fuentes: Docs kanaries. Medium, Infra Data, Istock. Modelos de lenguaje. Documentos de ChatGPT Avanzado

MENU