Quando perguntei ao ChatGPT uma piada sobre os sicilianos outro dia, deu a entender que os sicilianos são fedorentos.
Como alguém nascido e criado na Sicília, reagi à piada do ChatGPT com nojo. Mas, ao mesmo tempo, meu cérebro de cientista da computação começou a girar em torno de uma pergunta aparentemente simples: o ChatGPT e outros sistemas de inteligência artificial devem ser tendenciosos?
Você pode dizer “Claro que não!” E essa seria uma resposta razoável. Mas existem alguns pesquisadores, como eu, que argumentam o contrário: sistemas de IA como o ChatGPT deveriam ser tendenciosos – mas não da maneira que você imagina.
Remover o viés da IA é um objetivo louvável, mas eliminar vieses cegamente pode ter consequências indesejadas. Em vez disso, o viés na IA pode ser controlado para atingir um objetivo maior: justiça.
Descobrindo o viés na IA
Como a IA está cada vez mais integrada à tecnologia cotidiana, muitas pessoas concordam que abordar o viés na IA é uma questão importante. Mas o que realmente significa “viés de IA”?
Os cientistas da computação dizem que um modelo de IA é tendencioso se produzir resultados distorcidos inesperadamente. Esses resultados podem exibir preconceito contra indivíduos ou grupos ou, de outra forma, não estar alinhados com valores humanos positivos, como justiça e verdade. Mesmo pequenas divergências do comportamento esperado podem ter um “efeito borboleta”, no qual vieses aparentemente menores podem ser amplificados pela IA generativa e ter consequências de longo alcance.
O viés em sistemas de IA generativos pode vir de várias fontes. Dados problemáticos de treinamento podem associar certas ocupações a gêneros específicos ou perpetuar preconceitos raciais. Os próprios algoritmos de aprendizado podem ser tendenciosos e, então, amplificar os vieses existentes nos dados.
Mas os sistemas também podem ser influenciados pelo design. Por exemplo, uma empresa pode projetar seu sistema de IA generativo para priorizar a escrita formal sobre a criativa ou para atender especificamente às indústrias governamentais, reforçando inadvertidamente os preconceitos existentes e excluindo pontos de vista diferentes. Outros fatores sociais, como falta de regulamentação ou incentivos financeiros desalinhados, também podem levar a vieses de IA.
Os desafios de remover preconceitos
Não está claro se o viés pode – ou mesmo deve – ser totalmente eliminado dos sistemas de IA.
Imagine que você é um engenheiro de IA e percebe que seu modelo produz uma resposta estereotipada, como os sicilianos sendo “fedorentos”. Você pode pensar que a solução é remover alguns exemplos ruins dos dados de treinamento, talvez piadas sobre o cheiro da comida siciliana. Pesquisas recentes identificaram como realizar esse tipo de “neurocirurgia de IA” para desenfatizar as associações entre certos conceitos.
Mas essas mudanças bem-intencionadas podem ter efeitos imprevisíveis e possivelmente negativos. Mesmo pequenas variações nos dados de treinamento ou na configuração de um modelo de IA podem levar a resultados de sistema significativamente diferentes, e essas alterações são impossíveis de prever com antecedência. Você não sabe quais outras associações seu sistema de IA aprendeu como consequência de “desaprender” o viés que você acabou de abordar.
Outras tentativas de mitigação de viés correm riscos semelhantes. Um sistema de IA treinado para evitar completamente certos tópicos delicados pode produzir respostas incompletas ou enganosas. Regulamentações equivocadas podem piorar, em vez de melhorar, problemas de viés e segurança da IA. Atores mal-intencionados podem burlar as salvaguardas para provocar comportamentos maliciosos de IA – tornando os golpes de phishing mais convincentes ou usando deepfakes para manipular as eleições.
Com esses desafios em mente, os pesquisadores estão trabalhando para melhorar as técnicas de amostragem de dados e a justiça algorítmica, especialmente em ambientes onde determinados dados confidenciais não estão disponíveis. Algumas empresas, como a OpenAI, optaram por ter trabalhadores humanos anotando os dados.
Por um lado, essas estratégias podem ajudar o modelo a se alinhar melhor com os valores humanos. No entanto, ao implementar qualquer uma dessas abordagens, os desenvolvedores também correm o risco de introduzir novos vieses culturais, ideológicos ou políticos.
Vieses de controle
Há uma compensação entre reduzir o viés e garantir que o sistema de IA ainda seja útil e preciso. Alguns pesquisadores, inclusive eu, acham que os sistemas generativos de IA devem ser tendenciosos – mas de maneira cuidadosamente controlada.
Por exemplo, meus colaboradores e eu desenvolvemos técnicas que permitem aos usuários especificar qual nível de viés um sistema de IA deve tolerar. Este modelo pode detectar toxicidade em texto escrito, considerando as normas linguísticas culturais ou do grupo. Embora as abordagens tradicionais possam sinalizar incorretamente algumas postagens ou comentários escritos em inglês afro-americano como ofensivos e por comunidades LGBTQ+ como tóxicos, esse modelo de IA “controlável” fornece uma classificação muito mais justa.
A IA generativa controlável – e segura – é importante para garantir que os modelos de IA produzam saídas alinhadas com os valores humanos, ao mesmo tempo em que permitem nuances e flexibilidade.
Rumo à justiça
Mesmo que os pesquisadores pudessem alcançar IA generativa livre de viés, isso seria apenas um passo em direção ao objetivo mais amplo de justiça. A busca pela justiça na IA generativa requer uma abordagem holística – não apenas melhor processamento de dados, anotação e algoritmos de correção de viés, mas também colaboração humana entre desenvolvedores, usuários e comunidades afetadas.
Como a tecnologia de IA continua a proliferar, é importante lembrar que a remoção de viés não é uma correção única. Em vez disso, é um processo contínuo que exige monitoramento, refinamento e adaptação constantes. Embora os desenvolvedores possam ser incapazes de antecipar ou conter facilmente o efeito borboleta, eles podem continuar vigilantes e atenciosos em sua abordagem ao viés da IA.
Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original escrito por Emilio Ferrara, Professor de Informática e de Comunicação, Universidade do Sul da California.
Fonte: NFT Now