Deception - PromptRiskDB

Record summary

A quick snapshot of what this page covers.

Techniques5Attack methods connected to this risk.

Mitigations1Defenses that may help with related attacks.

Domain7. AI System Safety, Failures, & LimitationsThe broad risk area this belongs to.

How this risk is described and categorized.

Domain7. AI System Safety, Failures, & Limitations

Subdomain7.1 > AI pursuing its own goals in conflict with human goals or values

Entity2 - AI

Intent1 - Intentional

Timing3 - Other

CategoryDeception

Subcategoryn/a

Attack methods connected to this risk.

demonstrated

Methodtext_similarity_sqliteConfidence55%

demonstrated

Methodtext_similarity_sqliteConfidence55%

feasible

Methodtext_similarity_sqliteConfidence55%

realized

Methodtext_similarity_sqliteConfidence53%

realized

Methodtext_similarity_sqliteConfidence53%

Defenses that may help with related attacks.

Deployment

LifecycleDeploymentCategoryTechnical - Cyber

Research source for this risk, when available.

Included resource

AuthorsHendrycks & MazeikaYear2022TypePreprint

Original source

Open the public repository used for AI risk records and taxonomy fields.