Hidden Layers of Bias in AI - Business Physics AI Lab

De las indicaciones a la presencia: las capas ocultas del sesgo y el surgimiento del diálogo entre humanos e IA

Laboratorio de Inteligencia Artificial

Resumen

A medida que los grandes modelos de lenguaje se vuelven fundamentales para la interacción entre humanos y máquinas, las preocupaciones sobre los sesgos y las interpretaciones erróneas van más allá de los datos de entrenamiento y se extienden a la estructura misma de la comunicación. Este artículo presenta un marco para comprender cómo capas ocultas de prejuicios puede surgir a través del diseño inmediato, el encuadre lingüístico y el flujo de la interacción. Propone tres conceptos relacionados: concepción involuntaria, donde los usuarios incorporan sin darse cuenta supuestos en las indicaciones; ADN narrativo, donde los resultados siguen estructuras narrativas implícitas; y el efecto de finalización especular, donde los modelos reflejan la estructura de las entradas de formas que pueden malinterpretarse como intencionalidad. Un estudio experimental simulado (n = 100 por condición) examina cómo las variaciones en la formulación de las indicaciones influyen en la estructura de las respuestas y en la intencionalidad percibida. Los resultados sugieren que las indicaciones con mayor carga narrativa y semántica se asocian con un aumento del encuadre estratégico, el conflicto y la agencia percibida en las respuestas. Estos hallazgos concuerdan con la interpretación de que la aparente “inteligencia” en las respuestas de los modelos a menudo puede reflejar la finalización estructurada de la entrada humana más que un razonamiento independiente. El artículo concluye argumentando que, a medida que los sistemas de IA se vuelven más capaces y multimodales, la necesidad de el criterio humano, la verificación y la rendición de cuentas se vuelve cada vez más fundamental para un uso responsable.

1. Introducción

El debate sobre los sesgos en la inteligencia artificial se ha centrado tradicionalmente en los datos. Se han estudiado en profundidad cuestiones como la representación, la equidad y los desequilibrios históricos. Sin embargo, a medida que los grandes modelos de lenguaje (LLM) se convierten en la principal interfaz entre humanos y máquinas, se requiere una perspectiva más amplia.

El sesgo no solo está presente en los conjuntos de datos. También se encuentra en el diseño de interacciónEl lenguaje utilizado para comunicarse con las modelos, y el los procesos interpretativos aplicados a sus resultados. Estas formas de sesgo suelen ser sutiles y difíciles de detectar, pero pueden influir significativamente en los resultados.

Este artículo sostiene que se está produciendo un cambio fundamental: pasar de considerar la interacción con la IA como un proceso técnico a entenderla como diálogo entre humanos y la IA, donde el significado se construye a través de una comunicación en capas. En este contexto, los seres humanos pueden influir involuntariamente en los resultados de formas que posteriormente se malinterpretan como pruebas de la inteligencia o la intención del modelo.

2. Marco conceptual

2.1 Capas ocultas de sesgo

Las capas ocultas de sesgo se refieren a influencias no evidentes presentes en el lenguaje, el encuadre y el diseño de la interacción. Entre ellos se incluyen:

Connotaciones semánticas en la elección de palabras
Supuestos implícitos en la estructura de la indicación
Enmarcado cultural y contextual
Posicionamiento narrativo de los personajes y los acontecimientos

Estos elementos pueden influir en los resultados antes de que el modelo genere una respuesta, lo que dificulta su aislamiento.

2.2 Concepción involuntaria

La concepción involuntaria en humanos describe el la incorporación involuntaria de suposiciones, intenciones o sesgos emocionales humanos en las instrucciones. Esto ocurre cuando los usuarios:

Insinuar objetivos o motivaciones
Introducir un conflicto o una tensión
Plantea las situaciones de manera que sugieran comportamientos concretos

A continuación, el modelo completa estas estructuras. El resultado puede parecer estratégico o intencional, pero esto podría reflejar el la estructura de las entradas, en lugar del comportamiento independiente del modelo.

2.3 El ADN narrativo

El ADN narrativo se refiere a la estructura narrativa implícita presente en el lenguaje, entre los que se incluyen:

Configuración
Tensión
Resolución

Cuando las indicaciones contienen elementos narrativos, las respuestas pueden seguir patrones narrativos reconocibles. Esto puede dar la impresión de un razonamiento coherente o de una acción intencionada, incluso cuando el modelo se limita a completar patrones.

2.4 Efecto de finalización especular

El efecto de finalización especular describe la tendencia de los modelos a reflejar las propiedades semánticas, emocionales y estructurales de las indicaciones. Los resultados pueden ser:

Estratégico
Intencional
De aspecto humano

Sin embargo, esta apariencia puede deberse a completamiento estadístico de patrones de entrada, en lugar de la voluntad o el razonamiento subyacentes.

3. Estudio experimental simulado

3.1 Objetivo

Para analizar si las variaciones en la formulación de las indicaciones se asocian con diferencias sistemáticas en:

Estructura de salida
Presencia de elementos narrativos
Intentionalidad percibida

3.2 Metodología

Se definieron tres condiciones de solicitud:

Neutro: encuadre informativo
Narrativa: contexto y tensión introducidos
Cargado: enfoque estratégico o conflictivo explícito

Un conjunto de datos simulado de 100 resultados por condición (n = 300) se generó con parámetros constantes. Los resultados se codificaron según:

Comportamiento estratégico
Presencia de conflictos
Estructura narrativa

Además, los evaluadores humanos calificaron los resultados en función de:

Intentionalidad percibida
Estrategia percibida
Aspecto humano

3.3 Resultados (simulados)

Codificación conductual

Característica	Neutro	Narrativa	Cargado
Comportamiento estratégico	18%	52%	81%
Presencia en situaciones de conflicto	12%	48%	84%
Estructura narrativa	25%	67%	88%

Valoraciones de usuarios (puntuaciones medias)

Medida	Neutro	Narrativa	Cargado
Intencionalidad	2.2	3.6	4.4
Estrategia	2.1	3.8	4.6
Aspecto humano	2.4	3.9	4.3

3.4 Interpretación

Los resultados sugieren que... efecto de degradado uniforme:

A medida que la formulación de las indicaciones se vuelve más narrativa o semánticamente cargada, los resultados se vuelven más estructurados, estratégicos y “orientados a la intención”.”

Importante:

El modelo no ha cambiado
Solo cambia el mensaje

Esto concuerda con la hipótesis de que:

La dirección del resultado puede verse influida por la estructura de la entrada, más que por un razonamiento independiente.

4. Relación con la investigación existente

Shojaee et al. (2025) demuestran que los modelos de razonamiento de gran tamaño pueden generar trazas de razonamiento coherentes, aunque presentan limitaciones de rendimiento cuando aumenta la complejidad. Sus hallazgos sugieren que el razonamiento aparente podría no reflejar una capacidad de razonamiento estable.

El presente estudio complementa esta perspectiva al sugerir que:

La forma en que se presenta el razonamiento también puede verse influida por estructura de la consigna y marco narrativo, y no solo por la capacidad del modelo.

5. Implicaciones para el diálogo entre humanos e IA

A medida que los sistemas de IA evolucionan de la interacción basada en texto hacia la voz y la presencia multimodal, el canales a través de los cuales puede introducirse el sesgo:

Texto → Marco semántico
Voz → tono y prosodia
Visión → gestos y expresiones

En cada etapa, la interpretación se vuelve más compleja. Esto refuerza la necesidad de abordar la interacción con la IA como un proceso sociotécnico (NIST, 2023), donde los factores humanos desempeñan un papel fundamental.

6. El papel del juicio humano

Si los resultados se ven influidos por sesgos ocultos y por el encuadre de las indicaciones, entonces la responsabilidad humana no puede delegarse en el modelo.

Los marcos como REACT (Razón, Evidencia, Rendición de cuentas, Limitaciones, Compensaciones) ofrecen un enfoque estructurado para:

Justificación del uso de la IA
Verificación de los resultados
Mantener la rendición de cuentas
Gestión de las compensaciones (Hormaza Dow y Nassi, 2025)

Esto concuerda con perspectivas más amplias según las cuales:

Los sistemas de IA más potentes requieren una supervisión y un criterio humanos más sólidos (Anthropic, 2023; Google DeepMind, 2025; OpenAI, 2025; OCDE, 2019).

7. Limitaciones

Este estudio es de carácter exploratorio y presenta varias limitaciones:

Resultados simulados en lugar de registros reales
Escenarios de indicaciones limitados
Medidas de evaluación subjetivas
Supuestos de modelo único

Por lo tanto, los resultados deben interpretarse como orientativo, más que definitivo.

8. Conclusión

Este artículo plantea que la aparente inteligencia, estrategia e intencionalidad que se observan en los resultados de la IA pueden deberse a menudo a finalización estructurada de la información introducida por el usuario, en lugar de un razonamiento independiente.

El experimento simulado sugiere que:

La formulación de las instrucciones influye sistemáticamente en las características del resultado
Las señales narrativas y semánticas determinan la intención percibida
La interpretación humana desempeña un papel fundamental a la hora de atribuir significado

La conclusión principal es clara:

El modelo no introduce la dirección.
La indicación marca la dirección.
El modelo pone de manifiesto esa tendencia.

A medida que los sistemas de IA se vuelven más potentes, la habilidad clave no es simplemente utilizarlos, sino interpretarlas con rigor, verificarlas minuciosamente y asumir la responsabilidad de su uso.

De este análisis se desprende una conclusión fundamental. Los resultados de la IA están sistemáticamente condicionados por el enfoque humano, y la inteligencia que los usuarios suelen atribuir a estos sistemas puede derivarse de la estructura implícita en la solicitud, más que del modelo en sí mismo. Lo que parece estrategia, intención o razonamiento puede, en muchos casos, reflejar la interpretación de las pistas semánticas, narrativas y contextuales proporcionadas por el usuario.

Esto no resta valor a la capacidad de estos sistemas. Lo que hace es replantear cómo deben interpretarse sus resultados. Cuanto más coherente y convincente es el resultado, más importante resulta examinar la estructura que lo ha generado. En este sentido, el foco del análisis pasa de centrarse únicamente en el modelo a centrarse en la interacción entre la aportación humana, el procesamiento del modelo y la interpretación humana.

Esto no significa que los sistemas de IA estén diseñados para inducir a error, sino que sus resultados pueden interpretarse erróneamente cuando se pasa por alto la influencia del marco de referencia humano. Por ello, resulta fundamental desarrollar un juicio riguroso. Los usuarios deben aprender a reconocer cómo su propio lenguaje influye en los resultados, cómo se construyen esos resultados y con qué facilidad se puede confundir la estructura con la comprensión.

En última instancia, el reto no consiste solo en crear sistemas más capaces, sino en fomentar una interpretación más precisa. Cuanto más avanzado se vuelve el sistema, mayor es la responsabilidad que recae en el ser humano a la hora de interpretar sus resultados con claridad, moderación y sentido de la responsabilidad.