Inicio justicia Derecho Administrativo y la Sobreconfianza de la IA

Derecho Administrativo y la Sobreconfianza de la IA

9
0

Aunque la inteligencia artificial puede respaldar muchas tareas, los funcionarios deben tener cuidado con los resultados excesivamente confiados. Sospecho que todos conocemos a ese tipo de persona dispuesta a ofrecer una respuesta segura a casi cualquier pregunta. La respuesta no siempre necesita ser correcta, o incluso especialmente sensata, pero la persona que la expresa muestra fervor puro y certeza inquebrantable. Este tipo de persona puede decirte exactamente qué está mal con los equipos deportivos, la política de Washington y la cultura en general. Opinarán con la misma convicción sobre cómo arreglar los baches en las calles de la ciudad que sobre cómo lograr la paz mundial. He encontrado a este tipo de persona de vez en cuando cuando he sido pasajero en un taxi. Junto con llevarme a mi destino, algunos de mis taxistas a lo largo de los años también han estado dispuestos a compartir conmigo sus diagnósticos de todo lo que aflige al mundo y lo que el gobierno debe o no hacer en respuesta. Las formas de inteligencia artificial más conocidas pueden, si no se usan con consideración, producir respuestas que no son del todo diferentes de las ofrecidas por taxistas demasiado confiados. Estas respuestas producidas por IA suenan convincentes debido a una combinación de un grado de plausibilidad y un aire de autoridad en la expresión. Los funcionarios de la agencia deben estar en guardia contra la sobredependencia en usos no probados y poco reflexivos de la IA. Incluso en la era de la creciente dependencia de herramientas de IA como ChatGPT, que atrae a más de 700 millones de usuarios por semana, los tribunales seguirán exigiendo el tipo de razonamiento largo esperado de las agencias para garantizar que las decisiones adjudicativas y regulatorias se basen en pruebas y análisis sólidos, y no en la equivalencia política de las opiniones de los taxistas. Me apresuro a señalar, por supuesto, que no pretendo sugerir que todos los taxistas son excesivamente opinativos. Ni niego que las personas con opiniones puedan ocupar todo tipo de trabajos y caminos de la vida. He encontrado colegas con títulos avanzados que están más que dispuestos a aventurar respuestas seguras a muchas preguntas difíciles más allá de sus dominios especializados de conocimiento. Al encontrarse con esas personas, hagan lo que hagan para ganarse la vida, no es difícil ver a través de su fanfarronería. Conocemos su «tipo». Si comienzan a opinar sobre la decisión que un entrenador de fútbol o un jugador debería haber tomado en un juego crucial durante el fin de semana, los llamamos jueces de lunes por la mañana. Cuando opinan sobre cómo reducir el déficit presupuestario o reducir el crimen, podemos admirar su autoconfianza, pero también podemos ver fácilmente y descartar sus afirmaciones como simples especulaciones. Pocos de nosotros presumiblemente queremos que los jefes de agencias administrativas confíen en este tipo de fanfarronería para tomar decisiones reales con consecuencias reales para la sociedad y la economía. La ley administrativa refleja esta intuición. La Ley de Procedimiento Administrativo de EE. UU. (APA) indica a los tribunales rechazar las decisiones administrativas que se basan más en corazonadas o opiniones demasiado seguras que en pruebas y análisis cuidadosos. La descripción canónica de la prueba de arbitrariedad e irracionalidad del APA sostiene que los tribunales deben anular la decisión de una agencia si, entre otras cosas, «no ha considerado en absoluto un aspecto importante del problema, ha ofrecido una explicación para su decisión que va en contra de las pruebas ante la agencia o es tan implausible que no se le podría atribuir a una diferencia de opinión o al producto de la experiencia de la agencia». El APA, podría decirse, no admite la toma de decisiones administrativas basadas en poco más que la afirmación de un taxista. Exige un razonamiento basado en una evaluación de diferentes alternativas políticas y una expertise sólida. ¿Qué significa esto para la IA? La IA puede realizar poderosamente muchas tareas. Pero los modelos de lenguaje grandes como ChatGPT, Claude, Gemini y Llama, junto con otras formas de «IA de propósito general», también pueden responder con respuestas que suenan seguras que contienen errores (alucinaciones) o que nos dicen lo que queremos escuchar (fanatismo). Aquí tienes una ilustración banal pero impactante de la excesiva confianza de la IA: Una simple búsqueda de información sobre los juegos de bol de fútbol en el Día de Año Nuevo de 2026 resultó en que la herramienta de IA, Gemini, informara a los usuarios con toda naturalidad que la Universidad de Indiana había derrotado a la Universidad de Alabama en la Rose Bowl, pero lo hizo antes de que comenzara el juego. Por supuesto, Indiana eventualmente ganó por un amplio margen. Pero Gemini hizo lo mismo para el Sugar Bowl, afirmando antes del inicio del juego que Georgia había derrotado a Ole Miss sin aparentemente tener «conciencia» de que el juego aún no había comenzado. Una vez que se jugó realmente ese juego, Georgia perdió. Estos modelos pueden responder con la misma naturalidad a preguntas relacionadas con políticas que no son capaces de responder, al menos no de una manera que por sí sola satisfaga el estándar de revisión arbitrario e irracional. Puedo preguntarle a ChatGPT, por ejemplo, si la Agencia de Protección Ambiental (EPA) debería endurecer su estándar nacional de calidad del aire ambiente (NAAQS) para el ozono. Me dará una respuesta. Si se la solicitan más, incluso les dirá exactamente dónde debería fijar el estándar la agencia, bajándolo de 70 partes por mil millones (ppm) a 60 ppm. También expresará su recomendación de manera sucinta y clara, y con confianza, con respuestas como estas: Dado el registro científico actual, el juicio regulativo de la EPA debería ejercerse para reducir el estándar de ozono. La EPA debería establecer un NAAQS de ozono primario revisado en 60 ppm. Resultados similares se pueden obtener después de incitar a otros grandes modelos de lenguaje sobre los estándares de calidad del aire de la EPA. Debido a que mucho ya se ha escrito sobre el estándar de la EPA para el ozono, estos modelos pueden basarse en ese texto existente en internet para suministrar no solo respuestas a estímulos políticos, sino también razones que parecen plausibles que pretenden respaldar sus recomendaciones políticas. Esto plantea una pregunta para la ley administrativa. Si fuera el administrador de la EPA, ¿podría citar legítimamente estas respuestas de ChatGPT como base, por sí solas, para emitir una regla que reduzca el estándar de ozono a 60 ppm? La respuesta corta es «no». Incluso dejando de lado que la Ley del Aire Limpio requiere procedimientos específicos para establecer estándares de calidad del aire ambiente (como una consulta con un comité asesor), los funcionarios de la EPA todavía necesitarían hacer más si quisieran que un estándar reducido resistiera el escrutinio judicial bajo la prueba arbitraria e irracional. Los funcionarios necesitarían preparar un expediente detallado de la agencia. Ese expediente tendría que demostrar que los funcionarios habían revisado las pruebas sobre los efectos de salud del ozono, habían considerado cuidadosamente los efectos de los estándares alternativos de ozono (incluida la retención del actual) y habían desarrollado un relato razonado del juicio político de la agencia para seleccionar el estándar que lo hizo. En resumen, los funcionarios de la agencia necesitarían actuar en gran medida como ya lo hacen, en lugar de simplemente confiar en una recomendación generada por IA. Esto no se debe a que la IA no pueda desempeñar legalmente ningún papel en el proceso de elaboración de reglas. Por el contrario, algunas herramientas de procesamiento de lenguaje natural y grandes modelos de lenguaje actuales podrían ser muy útiles para los administradores en la realización de diversas tareas internas. Estas herramientas podrían ayudar en la redacción o edición de correos electrónicos y otros documentos (piensa: Grammarly), cribando entre grandes volúmenes de comentarios públicos o realizando otras tareas administrativas discretas. A lo largo del proceso administrativo, estas herramientas pueden realizar una amplia variedad de tareas rutinarias de un tipo que normalmente se asignaría a miembros del personal, becarios o consultores externos. Además, como he explicado en otro lugar, casi con certeza no hay nada intrínsecamente inadmisible en la ley administrativa sobre que una agencia confíe en una herramienta IA bien entrenada y validada para realizar otras tareas más fundamentales, incluso, teóricamente, para ayudar a tomar decisiones políticas. Como lo expresó un tribunal en una decisión de la era pre-IA, simplemente se debe demostrar que «la responsabilidad final de la decisión política recae en la agencia más que en la computadora.» Esta demostración depende en última instancia de la validación de una herramienta IA y su uso. Para pasar el control, las agencias que confían en IA «necesitan validar que el algoritmo funcione como se pretendía y que logre los objetivos justificados.» Cuando una herramienta IA puede validarse para producir respuestas confiables, es decir, si se puede demostrar que un algoritmo digital funciona mejor que uno humano, entonces en principio el uso de esa herramienta se puede justificar suficientemente según los principios vigentes de la ley administrativa. De hecho, la deliberada falta de confianza en una herramienta IA validada como superior casi con seguridad resultaría ser arbitraria e irracional. Lo que constituye una validación suficiente, por supuesto, variará. Cuando una herramienta de IA está diseñada para realizar o asistir con tareas específicas y repetibles, como con IA «tradicional» o «estrecha», es posible confiar en la experiencia para validar qué tan bien realiza las tareas previstas. Este rendimiento se puede comparar con puntos de referencia del mundo real o con decisiones tomadas por humanos. Pero cuando se trata de las numerosas decisiones sui generis que los administradores deben tomar, las opiniones ofrecidas por una herramienta IA de propósito general como ChatGPT necesitarán un tipo diferente de validación. Las agencias tendrán que demostrar que estas opiniones son algo más que el equivalente digital de las expresiones demasiado seguras de un taxista. Y al menos en la actualidad, eso no será posible sin proporcionar el mismo tipo de análisis de impacto regulatorio que ya realizan las agencias. Herramientas como ChatGPT no se basan en una evaluación comparativa de las consecuencias de diferentes opciones políticas. Más bien, sus respuestas se generan mediante algoritmos complejos que se basan en patrones en vastas cantidades de texto existente para predecir cadenas de palabras que tienen una alta probabilidad de responder a la pregunta de un usuario. Esas palabras probabilísticamente receptivas a menudo son correctas con respecto a muchas de las variadas preguntas y tareas que los usuarios les piden, ya sea cómo cocinar un huevo pasado por agua o redactar una carta comercial. Pero aunque los resultados de los grandes modelos de lenguaje, e incluso de herramientas de IA emergentes agentificentes, pueden generar respuestas correctas y muy útiles a muchas preguntas que se les hacen, esto no significa que estas respuestas siempre sean correctas. Tampoco significa que estas respuestas sean suficientes por sí solas para cumplir con las expectativas de los tribunales bajo el estándar arbitrario e irracional. Cuando se trata del tipo de preguntas de política que los administradores gubernamentales deben responder al tomar decisiones consecuentes que afectan a individuos y a la sociedad, como la fijación de un estándar nacional de calidad del aire, las respuestas a estas preguntas únicas simplemente no pueden validarse mostrando con qué frecuencia son correctas. La EPA, después de todo, básicamente establece un sólo estándar nacional por contaminante. Además, validar una respuesta a una pregunta de política como dónde fijar un estándar depende no de elecciones probabilísticas sobre palabras, sino de juicios sobre consecuencias de la vida real. El trabajo del llamado Departamento de Eficiencia Gubernamental (DOG, por sus siglas en inglés) de la Administración Trump revela los peligros de depender en exceso en resultados de IA de habla general con aspecto seguro. En un aparente esfuerzo por eliminar el gasto innecesario del gobierno en el sistema de salud de los veteranos de la Administración de Asuntos de Veteranos (VA), el personal de DOG básicamente le pidió a un modelo de lenguaje grande que identificara los contratos gubernamentales que no estaban «apoyando directamente la atención al paciente.» Estos contratos luego fueron tratados como candidatos para cancelación bajo la teoría de que los servicios que cubrían no eran necesarios o podrían manejarse internamente por el personal del hospital. Aunque la herramienta que utilizó DOG podía brindar respuestas instantáneas y extensas con total confianza, la herramienta carecía fundamentalmente de la capacidad de hacer juicios matizados, contextualmente específicos sobre atención médica y administración de grandes instalaciones de salud. Su simple lectura de palabras en contratos no hacía nada para evaluar las ventajas o desventajas de externalizar diferentes servicios. Como resultado, la herramienta de IA de DOG aparentemente identificó como dignos de cancelación contratos que ofrecían equipo de seguridad crítico y otros servicios de apoyo a la salud valiosos. Los resultados fueron lo suficientemente dudosos que incluso el empleado de DOG que desarrolló el código para evaluar los contratos de la VA admitiría más tarde que su herramienta de IA cometió errores: «Nunca recomendaría a alguien ejecutar mi código y hacer lo que dice», se informó que dijo en una entrevista después de dejar el gobierno. «Es como ese episodio de ‘The Office’ en el que Steve Carell conduce al lago porque Google Maps le dice que conduzca al lago.» Los funcionarios administrativos deberían prestar atención a este simple consejo del ex empleado de DOG: «No conduzcan al lago». En resumen, los funcionarios no deberían leer más en los resultados de las herramientas de IA de propósito general de lo que realmente pueden soportar. Afortunadamente, los tribunales que aplican el estándar arbitrario e irracional no permitirán que lo hagan. Cuando se enfrentan a preguntas de política, como si y cómo fijar un estándar ambiental, o si rescindir dicho estándar, los funcionarios administrativos tendrán que validar cualquier respuesta que una herramienta de IA de propósito general como ChatGPT pueda proporcionar. Para validar respuestas a estos tipos de preguntas de política, los funcionarios tendrán que realizar básicamente el mismo tipo de análisis que desde hace tiempo han necesitado realizar para satisfacer la prueba de lo arbitrario e irracional: es decir, algún tipo de análisis de impacto regulatorio. Las agencias no podrán confiar únicamente en las formas más ubicuas de IA hoy en día, es decir, aquellas basadas en ChatGPT y modelos de lenguaje grandes similares, para evitar su obligación bajo el estándar arbitrario e irracional del APA de comprender los problemas que buscan resolver, evaluar soluciones alternativas contra criterios legalmente relevantes y hacer algún tipo de pronóstico sobre cómo estas alternativas cambiarían los resultados en el mundo. Los pronósticos de los administradores deben ser sobre resultados tangibles, no sobre palabras que suenan plausible en oraciones, por confiadas que puedan ser expresadas. En última instancia, a pesar de lo certeros que puedan expresarse los resultados de la IA actual, las decisiones administrativas según el APA deben estar fundamentadas en algo más que el equivalente digital de opiniones expresadas por incluso los taxistas más cultos. Cary Coglianese es profesor de Derecho y Ciencia Política en la Universidad de Pennsylvania, donde es fundador y director del Programa de Regulación de Penn. Sirve como asesor académico de The Regulatory Review. Este ensayo es una versión ligeramente editada de uno que apareció originalmente en el blog de Notas y Comentarios de Yale Journal on Regulation.