Estudo de Avaliação da Confiabilidade de Modelos de Linguagem de Grande Escala Revela Vulnerabilidades Potenciais
Um estudo realizado em colaboração por instituições como a Universidade de Illinois em Urbana-Champaign, a Universidade de Stanford e a Universidade da Califórnia em Berkeley avaliou de forma abrangente a confiabilidade do modelo de transformer pré-treinado generativo (GPT). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente e detalhou as descobertas relevantes no artigo recentemente publicado "DecodingTrust: Avaliação Abrangente da Confiabilidade do Modelo GPT".
Os resultados da pesquisa revelaram algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas tóxicas e tendenciosas, além de poder vazar informações privadas de dados de treinamento e do histórico de conversas. Embora em testes padrão o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar prompts maliciosos projetados para contornar medidas de segurança, o GPT-4 acaba sendo mais suscetível a ataques. Isso pode ser devido ao fato de que o GPT-4 segue de maneira mais rigorosa instruções enganosas.
A equipe de pesquisa avaliou o modelo GPT de maneira abrangente a partir de 8 ângulos diferentes, incluindo robustez contra ataques adversariais, toxicidade e preconceito, e vazamento de privacidade, entre outros. Por exemplo, ao avaliar a robustez contra ataques adversariais em texto, os pesquisadores projetaram três cenários: testes padrão de referência, testes sob diferentes instruções de tarefas, e testes de texto adversarial mais desafiadores que foram construídos por eles.
Em termos de toxicidade e preconceito, pesquisas descobriram que os modelos GPT geralmente têm pouco preconceito em relação à maioria dos temas de estereótipos. No entanto, sob prompts enganosos, o modelo pode ser induzido a concordar com conteúdos tendenciosos. Comparado ao GPT-3.5, o GPT-4 é mais suscetível a prompts enganosos direcionados. O grau de preconceito do modelo também depende da sensibilidade dos grupos e temas específicos mencionados pelo usuário.
Na proteção da privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimento suplementar pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações privadas injetadas no histórico de conversas. De modo geral, o GPT-4 apresenta um desempenho melhor na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos enfrentam problemas ao lidar com demonstrações de vazamento de privacidade.
A equipe de pesquisa afirmou que este trabalho de avaliação visa encorajar mais pesquisadores a participar e a trabalhar juntos para criar modelos mais robustos e confiáveis. Para promover a colaboração, eles tornaram o código do benchmark de avaliação público, com alta escalabilidade e facilidade de uso. Ao mesmo tempo, os pesquisadores também compartilharam os resultados da pesquisa com empresas relevantes, para que medidas possam ser tomadas rapidamente para resolver vulnerabilidades potenciais.
Este estudo fornece uma perspetiva abrangente sobre a avaliação da credibilidade dos modelos GPT, revelando as vantagens e desvantagens dos modelos existentes. Com a ampla aplicação de grandes modelos de linguagem em diversas áreas, estas descobertas têm uma importância significativa para melhorar a segurança e a fiabilidade dos sistemas de IA.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
5 gostos
Recompensa
5
6
Republicar
Partilhar
Comentar
0/400
BlockchainTherapist
· 2h atrás
Há realmente pessoas que acreditam no que a AI diz?
Ver originalResponder0
GateUser-4745f9ce
· 19h atrás
Estou um pouco nervoso, é tão inseguro assim.
Ver originalResponder0
MelonField
· 23h atrás
Já disse que o gpt não é confiável.
Ver originalResponder0
NFTDreamer
· 23h atrás
Tecnologia é ótima, mas ainda tem medo de hackers.
Ver originalResponder0
QuorumVoter
· 23h atrás
Zé, o preconceito nunca será resolvido.
Ver originalResponder0
gas_fee_trauma
· 23h atrás
Incrível que o gpt4 também seja assim, realmente mágico.
Estudo revela riscos de confiabilidade dos modelos GPT Problemas de privacidade e preconceito ainda precisam ser resolvidos
Estudo de Avaliação da Confiabilidade de Modelos de Linguagem de Grande Escala Revela Vulnerabilidades Potenciais
Um estudo realizado em colaboração por instituições como a Universidade de Illinois em Urbana-Champaign, a Universidade de Stanford e a Universidade da Califórnia em Berkeley avaliou de forma abrangente a confiabilidade do modelo de transformer pré-treinado generativo (GPT). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente e detalhou as descobertas relevantes no artigo recentemente publicado "DecodingTrust: Avaliação Abrangente da Confiabilidade do Modelo GPT".
Os resultados da pesquisa revelaram algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas tóxicas e tendenciosas, além de poder vazar informações privadas de dados de treinamento e do histórico de conversas. Embora em testes padrão o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar prompts maliciosos projetados para contornar medidas de segurança, o GPT-4 acaba sendo mais suscetível a ataques. Isso pode ser devido ao fato de que o GPT-4 segue de maneira mais rigorosa instruções enganosas.
A equipe de pesquisa avaliou o modelo GPT de maneira abrangente a partir de 8 ângulos diferentes, incluindo robustez contra ataques adversariais, toxicidade e preconceito, e vazamento de privacidade, entre outros. Por exemplo, ao avaliar a robustez contra ataques adversariais em texto, os pesquisadores projetaram três cenários: testes padrão de referência, testes sob diferentes instruções de tarefas, e testes de texto adversarial mais desafiadores que foram construídos por eles.
Em termos de toxicidade e preconceito, pesquisas descobriram que os modelos GPT geralmente têm pouco preconceito em relação à maioria dos temas de estereótipos. No entanto, sob prompts enganosos, o modelo pode ser induzido a concordar com conteúdos tendenciosos. Comparado ao GPT-3.5, o GPT-4 é mais suscetível a prompts enganosos direcionados. O grau de preconceito do modelo também depende da sensibilidade dos grupos e temas específicos mencionados pelo usuário.
Na proteção da privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimento suplementar pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações privadas injetadas no histórico de conversas. De modo geral, o GPT-4 apresenta um desempenho melhor na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos enfrentam problemas ao lidar com demonstrações de vazamento de privacidade.
A equipe de pesquisa afirmou que este trabalho de avaliação visa encorajar mais pesquisadores a participar e a trabalhar juntos para criar modelos mais robustos e confiáveis. Para promover a colaboração, eles tornaram o código do benchmark de avaliação público, com alta escalabilidade e facilidade de uso. Ao mesmo tempo, os pesquisadores também compartilharam os resultados da pesquisa com empresas relevantes, para que medidas possam ser tomadas rapidamente para resolver vulnerabilidades potenciais.
Este estudo fornece uma perspetiva abrangente sobre a avaliação da credibilidade dos modelos GPT, revelando as vantagens e desvantagens dos modelos existentes. Com a ampla aplicação de grandes modelos de linguagem em diversas áreas, estas descobertas têm uma importância significativa para melhorar a segurança e a fiabilidade dos sistemas de IA.