¿Entiende un chatbot con IA de qué está hablando?

ChatGPT

Hace un año, habría respondido a esta pregunta con un «claramente no».

Es solo un «autocompletado turboalimentado» o un «loro estocástico», como lo han expresado personas más elocuentes que yo. Aunque por lo que sé, ellos también podrían ser chatbots.

Pero ahora he llegado a la conclusión de que las IA que usamos hoy sí entienden lo que están haciendo, o al menos parte.

No estoy diciendo esto solo para ser controvertido, realmente lo creo, lo creo. Aunque tengo la sensación de que podría arrepentirme de esta publicación.

Me enganché en esta pregunta no porque me importen tanto los chatbots, sino porque hace eco de la afirmación a menudo hecha de que «nadie entiende la mecánica cuántica».

Pero si podemos usar la mecánica cuántica, ¿no significa eso que la entendemos, al menos en cierta medida?

Y en consecuencia, si una IA puede usar el lenguaje, ¿no significa eso que lo entiende, al menos en cierta medida? ¿Qué queremos decir con «comprensión»? ¿Entiende Chat GPT la mecánica cuántica? ¿Y las IA pronto serán conscientes?

Eso es de lo que hablaremos hoy.

Vamos a ver que dicen los verdaderos expertos

La pregunta de si un programa de computadora comprende lo que está haciendo ciertamente no es nueva. En 1980, el filósofo estadounidense John Searle argumentó que la respuesta es «no», utilizando un experimento mental que se conoce como la «habitación china».

Searle se imagina a sí mismo en una habitación sin ventanas con un manual y un buzón. Si alguien le deja una nota escrita en chino, él busca los símbolos en su manual. El manual le da una traducción al inglés que devuelve como respuesta a través de una rendija en la puerta, sin duda basándose en la experiencia cotidiana de un profesor de filosofía.

Searle argumenta que la persona fuera de la habitación podría creer que hay alguien adentro que comprende el chino. Pero en realidad, todavía no entiende una palabra de ello, solo sigue las reglas que se le han dado.

Searle argumenta que un programa de computadora funciona así, sin ninguna comprensión real, solo siguiendo reglas.

Hay dos objeciones estándar que la gente presenta contra el argumento de Searle

Uno es que el sistema que comprende el chino no es solo la persona dentro de la habitación, sino la persona que incluye el manual.

Entonces, decir que la persona no comprende el chino podría ser correcto, pero no responde a la pregunta porque, en la analogía de Searle, la persona sola no representa el programa de computadora.

Otra objeción es que bien podría ser correcto que Searle y su manual no comprendan el chino, pero eso se debe a que la entrada es limitada. El lenguaje carece de la información física que hemos aprendido a asociar con las palabras. Un software que tuviera la misma información física podría desarrollar comprensión como lo hacemos nosotros.

A menos que vivamos en una simulación de computadora, en cuyo caso puede presentar quejas utilizando el formulario de contacto en la esquina inferior derecha de su lóbulo frontal.

Creo que ambas objeciones fallan, pero antes de explicar eso, quiero presentar la Habitación Cuántica

La mecánica cuántica funciona casi como la Habitación China de Searle. Es un manual, un conjunto de ecuaciones con instrucciones sobre cómo usarlas.

Me haces una pregunta, reviso mi manual que guardo en mi habitación sin ventanas y te devuelvo una respuesta por la rendija de la puerta.

¿Entiendo la mecánica cuántica? Searle probablemente argumentaría «no».

De hecho, en su mayor parte, los físicos de hoy ni siquiera están en la habitación, porque ¿quién quiere pasar su tiempo sentado en una habitación sin ventanas con un buzón cuando puede sentarse en una habitación sin ventanas con un láser?

No, ahora somos nosotros los que ponemos una pregunta en el buzón, por así decirlo, alimentándola en una computadora.

La computadora procesa los números y devuelve una respuesta ¿Entendemos esas respuestas? ¿Hemos ido demasiado lejos con el shut-up-and-calculate? ¿Está la habitación allí cuando nadie mira?

Esas son todas preguntas muy interesantes, pero no nos dejemos llevar.

Estábamos tratando de hablar de chatbots …

Los modelos generadores de lenguaje de hoy son algo más sofisticados que simplemente tablas de búsqueda como lo imaginó Searle. Y qué mejor manera de explicar cómo funcionan que preguntarle a ChatGPT.

«Los modelos generadores de lenguaje, como yo, se construyen utilizando técnicas de aprendizaje profundo, específicamente un tipo de red neural. Estos modelos se entrenan con grandes cantidades de datos de texto, como libros, artículos y sitios web, y aprenden a generar lenguaje identificando patrones y relaciones entre palabras y frases. Al generar lenguaje, el modelo toma una entrada inicial, como una indicación o una pregunta, y utiliza los patrones que ha aprendido para generar una respuesta. El texto generado no se copia simplemente de los datos de entrenamiento, sino que el modelo utiliza los patrones que ha aprendido para crear un nuevo texto original».

ChatGPT

Bueno, eso no fue incómodo en absoluto, pero sí, las redes neuronales aprenden de manera similar a como lo hacen los humanos. No solo memorizan la entrada, sino que identifican patrones y los extrapolan. Todavía tienen muchas diferencias con el cerebro humano, al menos por el momento.

Lo más importante es que las «neuronas» en una red neuronal son parte del algoritmo y no físicos, como lo son en el cerebro humano. Y el cerebro humano tiene mucha más estructura con partes especializadas para propósitos particulares.

Pero las redes neuronales capturan algunos aspectos de cómo aprenden los humanos.

Y eso nos lleva al primer punto importante cuando se trata de la pregunta de la comprensión

Suponga que tiene niños en la escuela primaria y los hace memorizar las tablas de multiplicar hasta diez. Si desea probar si entendieron la multiplicación, pregúnteles algo que no estaba en las tablas.

Queremos probar si han identificado el patrón y pueden usarlo en algo más. Si estás en la Habitación China con una larga lista de ejemplos, no puedes responder a una pregunta que no está en la lista.

Esto de hecho es lo que nadie entiende, así que diría que Searle está en lo correcto en ese caso. Pero esto no es lo que hacen las redes neuronales.

Las redes neuronales hacen en lugar de exactamente lo que queremos decir con «comprensión» cuando lo aplicamos a los humanos. Extraen el patrón y lo aplican a algo que no han visto antes.

Pero esto plantea otra pregunta: ¿Cómo sabes que eso es lo que está haciendo?

Si le pide a un niño que multiplique dos números, ¿cómo sabe que no ha memorizado el resultado? Bueno, no lo sabes. Si desea saber si alguien o algo entiende, mirar la entrada y la salida no es suficiente.

Siempre podría producir la salida con una tabla de búsqueda en lugar de con un sistema que haya aprendido a identificar patrones. Y bien puede entender algo sin producir ninguna salida, como podría entender esta publicación sin ninguna salida, aparte tal vez del ocasional fruncir el ceño.

Por lo tanto, diría que lo que queremos decir con «entender algo» es la capacidad de crear un modelo útil de la cosa que estamos tratando de entender. El modelo es algo que tengo en mi cabeza y puedo hacer preguntas sobre la cosa real.

Y que sea útil significa que tiene que ser razonablemente correcto. Captura al menos algunas propiedades de la cosa real. En términos matemáticos, podría decir que hay un isomorfismo, un mapa uno a uno entre el modelo y la cosa real.

Tengo un «modelo», por ejemplo, para las vacas.

Las vacas están en los prados, tienen cuatro patas y a veces dicen «mu». Si lo tira en el lugar correcto, sale leche. No es un modelo particularmente sofisticado, lo admito, pero trabajaré en él una vez que las vacas comiencen a ver YouTube.

La comprensión, entonces, es algo que sucede dentro de un sistema

Puede sondear partes de esta comprensión con pruebas de entrada-salida, pero eso solo no puede resolver la cuestión.

Cuando hablamos de redes neuronales, sin embargo, en realidad sabemos que no son tablas de búsqueda porque las hemos programado y entrenado.

Entonces, podemos estar bastante seguros de que realmente deben tener un modelo de lo que han sido entrenados, en algún lugar de sus pesos neurales.

De hecho, podemos estar más seguros de que las redes neuronales entienden algo que su promedio de primer grado, porque por todo lo que podemos decir, los estudiantes de primer grado solo le preguntan a un chatbot.

Entonces, veamos la cuestión de quién entiende qué y por qué

Tenemos un modelo del cuerpo humano en nuestro cerebro. Esto nos permite entender qué efectos tendrán nuestros movimientos, cómo se mueven los humanos en general y qué partes pertenecen a dónde. Notamos de inmediato si algo está mal.

Pero si entrena una IA en imágenes bidimensionales, no asigna automáticamente esas imágenes a un modelo en 3D. Es por eso que a veces creará cosas extrañas como personas con medio pie o tres brazos o algo así.

Esto, por ejemplo, es mitad de camino intentando mostrar a una persona atando sus cordones. Se ven más o menos bien, porque es lo que la IA fue entrenada para hacer, para producir una imagen que se ve más o menos bien.

Pero en realidad no capturan la cosa real

Si toma la comprensión para significar que tiene un modelo de lo que está sucediendo, entonces estas IA casi seguramente comprenden la relación entre las sombras y las luces.

Pero ¿sabe que las sombras y la luz son creadas por la radiación electromagnética que rebota o es absorbida por cuerpos tridimensionales? No puede, porque nunca recibió esa información!

En su lugar, puede darle a una IA un modelo 3D y entrenarla para que coincida con imágenes con ese modelo 3D. Básicamente, así es como funcionan los deepfakes!

Y en este caso, diría que la IA realmente entiende en parte el movimiento de ciertas partes del cuerpo.

El problema con los chatbots es más complicado porque el lenguaje está mucho menos ligado a la realidad que los videos o las fotografías

Robot Tonto

El lenguaje es un método que los humanos han inventado para intercambiar información sobre estos modelos que tenemos en nuestras propias cabezas.

El lenguaje escrito es, además, una versión reducida del lenguaje hablado. Captura algo de la esencia de la realidad en las relaciones entre palabras. Y si entrena una red neuronal en eso, aprenderá esas relaciones.

Pero faltará mucha información!

Por ejemplo la frase: «todo lo que sube, baja»

Eso es, para condiciones iniciales razonablemente comunes, una declaración sobre la ley de la gravedad de Newton.

Un análisis de texto adicional podría decirle que por «abajo» nos referimos hacia el suelo y que el suelo es un planeta llamado Tierra que es una esfera y así sucesivamente.

A partir de eso solo, puede que no tenga idea de lo que significa ninguna de estas palabras, pero sabe cómo están relacionadas.

Y de hecho, si le pregunta a Chat GPT qué sucede cuando arrojas una piedra al aire, le dirá lo obvio en varios párrafos impecablemente correctos.

Pero un modelo de lenguaje no puede hacer más que tratar de inferir relaciones entre palabras porque no recibió ningún otro dato.

Esta es la razón por la cual Chat GPT es ridículamente malo en cualquier cosa que requiera, por ejemplo, comprensión de relaciones espaciales, como la latitud.

Le pregunté si «Windsor, Reino Unido, está más al norte o al sur que Toronto, Canadá»

Y me dijo:

«Windsor está ubicado aproximadamente a 51.5 grados de latitud norte, mientras que Toronto está ubicado aproximadamente a 43.7 grados de latitud norte. Por lo tanto, Toronto está más al norte que Windsor».

ChatGPT

Cita correctamente las latitudes pero llega a la conclusión equivocada. Es un error divertido porque sería fácil arreglarlo equipándolo con un modelo tridimensional del planeta Tierra.

Pero no tiene tal modelo. Solo conoce relaciones entre palabras. Por la misma razón, Chat GPT tiene algunos malentendidos bastante elementales sobre la mecánica cuántica. Pero déjame preguntarte primero.

Imagina que tienes dos partículas entrelazadas y las separas.

Una va a la izquierda y la otra a la derecha, pero como parejas después de una pelea, todavía están conectadas, quieran o no.

Que estén entrelazadas significa que comparten una propiedad medible, pero no sabes qué partícula tiene qué parte. Podría ser, por ejemplo, que cada una tenga un giro más o menos uno y el giro tenga que sumar cero.

Si las mides, ya sea que la que va a la izquierda tenga un giro más uno y la que va a la derecha menos uno o al revés. ¿Y si primero operas una de las partículas en lugar de medirlas de inmediato?

Esto es física, por lo que cuando digo operación, no me refiero a una cirugía cardíaca, sino a algo un poco más sofisticado, como cambiar su giro.

Tal operación no es una medición porque no te permite determinar cuál es el giro. Si haces esto, ¿qué le sucede a la otra partícula? Si no sabes la respuesta, está perfectamente bien porque no puedes responder la pregunta a partir de lo que te dije.

La respuesta correcta es que nada le sucede a la otra partícula.

Esto es obvio si sabes cómo funcionan las matemáticas porque si cambias el giro, esa operación solo actúa de un lado.

Pero no es obvio a partir de una descripción verbal de la mecánica cuántica, por lo que es una confusión común en la prensa de divulgación científica. Debido a eso, es una confusión que es probable que tenga ChatGPT. Y de hecho, cuando le hice esa pregunta, se equivocó.

Así que recomendaría no confiar en ChatGPT en cuanto a la mecánica cuántica hasta que hable con fluidez Latex.

Pero cualquier pregunta relacionada con las palabras, lo hace muy bien

Los humanos tenemos superpoderes

Uno de los mejores usos que he encontrado para ChatGPT es para preguntas de gramática o uso de palabras en inglés.

Mientras trabajaba en este post, me preguntaba, por ejemplo, si «drop box» es realmente una palabra o simplemente el nombre de una aplicación.

¿Cómo se supone que debo saber?

Nunca he oído a nadie usar la palabra para nada más que para la aplicación. Si escribes esta pregunta en tu motor de búsqueda favorito, lo único que obtienes es un sinfín de resultados que explican cómo funciona drop box, la aplicación.

Hazle la pregunta a Chat GPT y te dirá que sí, «drop box» es una palabra que los hablantes nativos de inglés entenderán.

Por la misma razón, Chat GPT es muy bueno para enumerar los pros y los contras para ciertos argumentos, porque esas son palabras que están en relación con la pregunta.

También es bueno para encontrar términos técnicos y palabras clave a partir de descripciones verbales bastante vagas.

Por ejemplo, le pregunté: «¿Cuál es el nombre para este efecto en el que las cosas se acortan cuando te mueves a alta velocidad?» Explicó: «El nombre del efecto al que te refieres es la «contracción de longitud» o «contracción de Lorentz». Es una consecuencia de la teoría de la relatividad especial». Lo cual es perfectamente correcto.

Pero no le preguntes cómo se pronuncian las palabras en inglés. Comete aún más errores que yo. ¿Qué nos dice esto sobre si entendemos la mecánica cuántica?

Puedes leer la nota Inteligencia Artificial está confundida con nuestro comportamiento en tiempos de Covid-19

Mi argumento es que la comprensión no se puede inferir solo a partir de la relación entre la entrada y la salida

La pregunta relevante es si un sistema tiene un modelo de lo que está tratando de entender, un modelo que puede usar para explicar lo que está sucediendo.

Y diría que este es definitivamente el caso de los físicos que usan la mecánica cuántica. Tengo un «modelo» dentro de mi cabeza de cómo funciona la mecánica cuántica.

El problema con la mecánica cuántica es que esas ecuaciones no corresponden a las palabras que usamos en el lenguaje cotidiano.

La mayoría de los problemas que vemos con «entender la mecánica cuántica» provienen de la imposibilidad de expresar las ecuaciones en palabras. Al menos en español. Por lo que sé, puedes hacerlo en chino. Tal vez eso explique por qué los chinos son tan buenos con las tecnologías cuánticas.

Por supuesto, es posible convertir las ecuaciones en palabras, leyéndolas en voz alta, pero normalmente no hacemos eso. Lo que hacemos en la comunicación científica es una especie de mezcla, con metáforas y intentos de explicar algo de las matemáticas.

Y eso transmite algunos aspectos de cómo funcionan las ecuaciones, pero si tomas las palabras demasiado literalmente, dejan de tener sentido. Pero las ecuaciones no son necesarias para la comprensión.

También se puede obtener comprensión de la mecánica cuántica a través de juegos o aplicaciones que visualizan el comportamiento de las ecuaciones.

Entonces, ¿a dónde nos llevará el auge de la IA?

En primer lugar, es bastante previsible que pronto todos tengamos una IA personalizada que ofrezca desde consejos financieros hasta asesoramiento en relaciones.

Cuanto más puedas pagar, mejor será, y la versión gratuita te sugerirá que te cases con el príncipe de Nigeria.

Por supuesto, la gente se quejará de que destruirá el mundo y todo eso, pero sucederá de todos modos porque ¿cuándo ha detenido el riesgo de destruir el mundo a alguien para hacer algo si había dinero que ganar con eso?

Las mejores y más grandes IA serán las de las grandes empresas y los gobiernos, y eso casi garantizará un aumento de las disparidades de riqueza.

También veremos a YouTube inundado de avatares humanos y otras imágenes generadas por IA

Porque es mucho más rápido y barato que hacer que un humano lea texto o salga a filmar esa cosa anticuada llamada realidad.

Pero no creo que esta tendencia dure mucho porque será extremadamente difícil ganar dinero con ella.

Cuanto más fácil sea crear imágenes artificiales, más buscarán las personas la autenticidad.

Así que ese estúpido acento alemán eventualmente podría ser bueno para algo. Si nada más, me hace difícil de simular.

¿La IA eventualmente se volverá consciente? Por supuesto

No hay nada mágico en el cerebro humano, son solo muchas conexiones que procesan mucha información. Si podemos ser conscientes, las computadoras también pueden hacerlo, y sucederá, eventualmente.

¿Cómo sabremos que una AI está consciente?

Al igual que la comprensión, no puedes sondear la conciencia solo observando lo que entra y sale. Si realmente quisieras saber, tendrías que mirar lo que está sucediendo adentro.

Y en este momento eso no ayudaría porque de todos modos no sabemos cómo identificar la conciencia.

Básicamente, no podemos responder la pregunta.

Pero personalmente, encuentro esto extremadamente interesante porque estamos a punto de crear una especie inteligente que será muy diferente de la nuestra.

Y si somos lo suficientemente tontos como para causar nuestra propia extinción de esta manera, supongo que es lo que merecemos.

Mientras tanto, disfruta del paseo.