¿Cómo se entrena Chat GPT?

cómo se entrena a Chat GPT

Si estás familiarizado con ChatGPT, probablemente habrás oído que está entrenado con un amplio corpus de datos. Pero, ¿qué significa esto exactamente? En este artículo, profundizaremos en las complejidades de ¿cómo está entrenado ChatGPT?

ChatGPT es un modelo de lenguaje pre-entrenado que ha sido ajustado mediante una combinación de técnicas de aprendizaje supervisado y por refuerzo. El proceso de entrenamiento de ChatGPT consistió en introducir una gran cantidad de datos de texto en el modelo, ajustando sus parámetros para que pueda generar texto similar al del corpus de entrenamiento.

Para este proceso se utilizó el enfoque de aprendizaje no supervisado, lo que significa que al modelo no se le dio retroalimentación explícita sobre si su texto generado era correcto o incorrecto. En su lugar, el modelo ajusta sus parámetros en función de la probabilidad de que el texto generado sea similar al texto en el corpus de entrenamiento.

GPT-3, el modelo principal de ChatGPT-3, es uno de los modelos de lenguaje más grandes jamás creados, con 175 mil millones de parámetros y un contexto de 2048 tokens. Está entrenado en cientos de miles de millones de palabras de Common Crawl, WebText2, Books1/2, Wikipedia en inglés, y en ejemplos de código en CSS, JSX, Python, y otros lenguajes de programación.

El método de entrenamiento utilizado para GPT-3 es el de pre-entrenamiento generativo, lo que significa que se entrena para predecir el siguiente token o palabra en la oración de entrada.

Mejor alternativa a Chat GPT

Aprendizaje supervisado

El modelo ChatGPT se ajustó mediante un proceso de aprendizaje supervisado por entrenadores humanos. Estos entrenadores mantuvieron conversaciones tomando el rol tanto del usuario como del asistente de inteligencia artificial.

Se les dieron sugerencias del modelo para guiarles en la composición de sus respuestas, las cuales fueron mezcladas con el conjunto de datos de InstructGPT que había sido convertido en formato de diálogo.

Aprendizaje refuerzo

El modelo fue mejorado aún más mediante aprendizaje por refuerzo utilizando Proximal Policy Optimization (PPO). Los entrenadores humanos evaluaron las respuestas generadas por el modelo a partir de una conversación previa y utilizaron esas evaluaciones para desarrollar modelos de recompensa. Luego, el modelo se finetuneó en base a estos modelos de recompensa.

El proceso de ajuste fino se realizó varias veces para lograr un mejor rendimiento. Los algoritmos PPO son rentables en comparación con otros algoritmos y tienen un rendimiento más rápido, lo que los hace ideales para este proceso.

OpenAI continúa recopilando información de los usuarios que interactúan con ChatGPT, que luego se puede utilizar para mejorar y refinar aún más el modelo.

Los usuarios tienen la opción de votar por las respuestas de ChatGPT mediante votos positivos o negativos, y también tienen la oportunidad de ofrecer comentarios adicionales. Estos datos se utilizan para mejorar aún más el rendimiento del modelo y hacer que sea mejor para generar texto similar al de un humano. 

Datos utilizados para entrenar el modelo

ChatGPT-3 es un modelo de lenguaje refinado de la serie GPT-3.5, que se entrenó usando una infraestructura de supercomputación de Azure AI. Fue entrenado con una gran cantidad de texto extraído de internet, que incluye libros, foros de chat, artículos, sitios web, trabajos académicos, código y otras fuentes.

El corpus de datos de texto utilizado para entrenar ChatGPT-3 fue de más de 45 terabytes, lo que es extremadamente grande y contribuye a la capacidad del modelo para generar textos que son similares a los que un periodista o autor podría producir.

Artículos relacionados

Ver más >>