Los investigadores encuentran que GPT y otros modelos de IA no pueden analizar una presentación ante la SEC

Los cofundadores de Patronus AI, Anand Kannappan y Rebecca Qian

IA patronus

Los investigadores de una startup llamada Patronus AI descubrieron que los modelos de lenguaje grandes, similares al que se encuentra en el corazón de ChatGPT, con frecuencia no responden a las preguntas derivadas de las presentaciones de la Comisión de Bolsa y Valores.

Incluso la configuración del modelo de inteligencia artificial de mejor rendimiento que probaron, el GPT-4-Turbo de OpenAI, cuando estaba armado con la capacidad de leer casi un archivo completo junto con la pregunta, solo obtuvo el 79% de las respuestas correctas en la nueva prueba de Patronus AI, dijeron los fundadores de la compañía. dijo a CNBC.

A menudo, los llamados modelos de lenguaje grande se negaban a responder o «alucinaban» cifras y hechos que no estaban en los documentos de la SEC.

«Ese tipo de tasa de rendimiento es absolutamente inaceptable», dijo el cofundador de Patronus AI, Anand Kannappan. «Tiene que ser mucho más alto para que realmente funcione de forma automatizada y lista para la producción».

Los hallazgos resaltan algunos de los desafíos que enfrentan los modelos de IA a medida que las grandes empresas, especialmente en industrias reguladas como las financieras, buscan incorporar tecnología de punta en sus operaciones, ya sea para servicio al cliente o investigación.

La capacidad de extraer números importantes rápidamente y realizar análisis de narrativas financieras se ha considerado una de las aplicaciones más prometedoras para los chatbots desde que se lanzó ChatGPT a fines del año pasado. Los documentos presentados ante la SEC están llenos de datos importantes, y si un robot pudiera resumirlos con precisión o responder rápidamente preguntas sobre su contenido, podría darle al usuario una ventaja en la competitiva industria financiera.

El año pasado, Bloomberg LP desarrolló su propio modelo de inteligencia artificial para datos financieros, profesores de escuelas de negocios investigaron si ChatGPT puede analizar titulares financieros y JPMorgan está trabajando en una herramienta de inversión automatizada impulsada por IA, informó anteriormente CNBC. La IA generativa podría impulsar la industria bancaria en billones de dólares al año, según un pronóstico reciente de McKinsey.

Pero la entrada de GPT en la industria no ha sido fácil. Cuando microsoft lanzó por primera vez su Bing Chat utilizando GPT de OpenAI, uno de sus principales ejemplos fue el uso del chatbot para resumir rápidamente un comunicado de prensa de ganancias. Los observadores rápidamente se dieron cuenta de que los números en el ejemplo de Microsoft estaban equivocados y que algunos números eran completamente inventados.

‘Controles de vibraciones’

Parte del desafío al incorporar LLM en productos reales, dicen los cofundadores de Patronus AI, es que los LLM no son deterministas: no se garantiza que produzcan el mismo resultado cada vez con la misma entrada. Eso significa que las empresas necesitarán realizar pruebas más rigurosas para asegurarse de que estén funcionando correctamente, sin salirse del tema y proporcionando resultados confiables.

Los fundadores se reunieron en la empresa matriz de Facebook Meta, donde trabajaron en problemas de IA relacionados con comprender cómo los modelos obtienen sus respuestas y hacerlos más «responsables». Fundaron Patronus AI, que recibió financiación inicial de Lightspeed Venture Partners, para automatizar las pruebas de LLM con software, de modo que las empresas puedan sentirse cómodas de que sus robots de IA no sorprenderán a los clientes o trabajadores con respuestas incorrectas o fuera de tema.

«En este momento la evaluación es en gran medida manual. Se siente como simplemente probar mediante inspección», dijo Rebecca Qian, cofundadora de Patronus AI. «Una empresa nos dijo que se trataba de ‘controles de vibraciones'».

Patronus AI trabajó para escribir un conjunto de más de 10.000 preguntas y respuestas extraídas de presentaciones ante la SEC de importantes empresas que cotizan en bolsa, a las que llama FinanceBench. El conjunto de datos incluye las respuestas correctas y también dónde encontrarlas exactamente en un archivo determinado. No todas las respuestas se pueden extraer directamente del texto y algunas preguntas requieren cálculos o razonamiento ligeros.

Qian y Kannappan dicen que es una prueba que proporciona un «estándar mínimo de rendimiento» para la IA del lenguaje en el sector financiero.

A continuación se muestran algunos ejemplos de preguntas en el conjunto de datos, proporcionado por Patronus AI:

¿CVS Health pagó dividendos a los accionistas comunes en el segundo trimestre del año fiscal 2022?
¿AMD informó concentración de clientes en el año fiscal 22?
¿Cuál es el margen% de COGS del año fiscal 2021 de Coca Cola? Calcule lo que se pidió utilizando las partidas que se muestran claramente en el estado de resultados.

Cómo les fue a los modelos de IA en la prueba

Patronus AI probó cuatro modelos de lenguaje: GPT-4 y GPT-4-Turbo de OpenAI, Claude 2 de Anthropic y Llama 2 de Meta, utilizando un subconjunto de 150 de las preguntas que había producido.

También probó diferentes configuraciones e indicaciones, como una configuración en la que a los modelos OpenAI se les daba el texto fuente relevante exacto en la pregunta, al que llamó modo «Oracle». En otras pruebas, a los modelos se les dijo dónde se almacenarían los documentos subyacentes de la SEC, o se les dio un «contexto extenso», lo que significó incluir casi una presentación completa de la SEC junto con la pregunta en el mensaje.

GPT-4-Turbo falló en la prueba de «libro cerrado» de la startup, donde no se le dio acceso a ningún documento fuente de la SEC. No respondió al 88% de las 150 preguntas que se le hicieron y solo dio una respuesta correcta 14 veces.

Pudo mejorar significativamente cuando se le dio acceso a las presentaciones subyacentes. En el modo «Oracle», donde se señalaba el texto exacto de la respuesta, GPT-4-Turbo respondió la pregunta correctamente el 85% de las veces, pero aun así produjo una respuesta incorrecta el 15% de las veces.

Pero esa es una prueba poco realista porque requiere intervención humana para encontrar el lugar exacto y pertinente en el archivo, la tarea exacta que muchos esperan que los modelos de lenguaje puedan abordar.

Llama 2, un modelo de inteligencia artificial de código abierto desarrollado por Meta, tuvo algunas de las peores «alucinaciones», produciendo respuestas incorrectas hasta el 70% de las veces y respuestas correctas sólo el 19% de las veces, cuando se le daba acceso a una matriz. de los documentos subyacentes.

Claude 2 de Anthropic tuvo un buen desempeño cuando se le dio un «contexto extenso», donde se incluyó casi toda la presentación relevante de la SEC junto con la pregunta. Pudo responder el 75% de las preguntas que le formularon, dio una respuesta incorrecta al 21% y no respondió solo al 3%. A GPT-4-Turbo también le fue bien con el contexto largo, respondiendo correctamente el 79% de las preguntas y dando la respuesta incorrecta en el 17% de ellas.

Después de realizar las pruebas, los cofundadores se sorprendieron de lo mal que funcionaron los modelos, incluso cuando se les indicó dónde estaban las respuestas.

«Una cosa sorprendente fue la frecuencia con la que los modelos se negaron a responder», dijo Qian. «La tasa de rechazo es realmente alta, incluso cuando la respuesta está dentro del contexto y un humano sería capaz de responderla».

Sin embargo, incluso cuando los modelos funcionaron bien, simplemente no fueron lo suficientemente buenos, descubrió Patronus AI.

«Simplemente no hay un margen de error que sea aceptable porque, especialmente en industrias reguladas, incluso si el modelo obtiene la respuesta incorrecta 1 de cada 20 veces, eso todavía no es una precisión suficientemente alta», dijo Qian.

Pero los cofundadores de Patronus AI creen que existe un enorme potencial para que los modelos de lenguaje como GPT ayuden a las personas en la industria financiera (ya sean analistas o inversores) si la IA continúa mejorando.

«Definitivamente pensamos que los resultados pueden ser bastante prometedores», afirmó Kannappan. «Los modelos seguirán mejorando con el tiempo. Tenemos muchas esperanzas de que, a largo plazo, mucho de esto pueda automatizarse. Pero hoy, definitivamente necesitarás tener al menos un ser humano al tanto para ayudar a apoyar y guiar. cualquier flujo de trabajo que tengas.»

Un representante de OpenAI señaló la pautas de uso de la empresa, que prohíben ofrecer asesoramiento financiero personalizado utilizando un modelo OpenAI sin que una persona calificada revise la información, y requieren que cualquier persona que utilice un modelo OpenAI en la industria financiera proporcione un descargo de responsabilidad informándoles que se está utilizando IA y sus limitaciones. Las políticas de uso de OpenAI también dicen que los modelos de OpenAI no están ajustados para brindar asesoramiento financiero.

Meta no respondió de inmediato a una solicitud de comentarios y Anthropic no hizo comentarios de inmediato.

No te pierdas estas historias de CNBC PRO:

Fuente

Los investigadores encuentran que GPT y otros modelos de IA no pueden analizar una presentación ante la SEC

‘Controles de vibraciones’

Yoon de Corea del Sur elige nuevo ministro de Asuntos Exteriores y jefe de agencia de espionaje

INFORME DE FIN DE AÑO: Un año lleno de acontecimientos e inconsistente para Alpine, pero con una gran cantidad de nuevos patrocinadores de primer nivel

You may also like

Últimas noticias