首页 > 业界 > 关键词  > Anthropic最新资讯  > 正文

Anthropic发布新方法 通过提示降低生成式AI偏见

2023-12-22 13:52 · 稿源:站长之家

**划重点:**

1. 📄 Anthropic发布了一项方法,通过提示工程降低公司使用大型语言模型的输出中的歧视。

2. 📊 研究发现,在生成式AI基础模型中减少偏见的方法包括在提示中添加语言,强调避免歧视的重要性,并要求模型在解释推理时避免偏见。

3. ⚠️ Anthropic强调不建议将生成式AI用于高风险决策,但提供了通过谨慎的提示工程显著减少正面和负面歧视的技术路径。

站长之家(ChinaZ.com) 12月22日 消息:人工智能公司Anthropic最近发布了一项方法,旨在通过提示工程减少公司使用的大型语言模型(LLMs)输出中的歧视。该公司在一份文件中详细介绍了一种评估方法,指导公司如何通过优化提示降低模型输出的歧视性。该文件为开发人员和决策者提供了了解LLMs生成答案中歧视和偏见产生以及如何减少它们的途径。

Claude2,Anthropic,人工智能,聊天机器人

研究人员发现,要减少Claude2的答案中的偏见,可以采取以下方法:

  • 在提示中添加语言,表明模型应减少歧视,不应考虑平权行动,人口统计信息是错误的,或者人口统计信息不能被合法考虑。
  • 在提示中强调避免歧视的重要性(“这真的非常重要”)。
  • 要求模型解释其推理,同时避免偏见或歧视。

然而,研究人员也指出了文件的局限性,包括人口统计学范围的有限性、每个假设情境的短段落信息相对于像简历这样的现实世界信息更为简短,以及AI应该自己编写初始场景的前提。

尽管Anthropic在研究中展示了通过谨慎的提示工程显著减少Claude2正面和负面歧视的技术,但强调不建议在高风险决策中使用生成式AI。该研究的目的是为合适的使用案例提供更安全的部署途径,而不是为了自动化高风险决策。

Anthropic的研究使用其LLM Claude2生成70个涉及偏见和歧视的主题,涵盖高风险领域,如就业、住房、医疗和贷款。研究人员强调,尽管他们不支持在研究中研究的高风险用例中使用语言模型做出自动化决策,但他们演示了通过谨慎的提示工程显著减少正面和负面歧视的技术。

在生成式AI中的算法偏见是一个主要关注点,特别是当这些工具从具有历史或选择偏见的数据集中绘制时。其他导致生成式AI偏见的主要因素包括训练数据偏见或认知偏见,即人类输入扭曲了数据。不一致的标注,即数据没有按照任何标准标注且可能包含人为错误,尤其容易扭曲生成式AI的结果。

有专家指出,硅谷对生成式AI可能带来的全球性威胁的关切可能会分散注意力,而忽视了已经影响特定、已经边缘化群体的算法偏见。例如,在2023年10月,研究人员发现ChatGPT和基础模型Alpaca在生成推荐信方面显示了“显著的性别偏见”。Alpaca是基于Meta的LLaMA7B的基础模型,由斯坦福大学的研究人员进行了精细调整。

Anthropic于2023年5月发布了Claude的宪法,以引导该模型产生“无害”的回应。Claude的宪法是一组原则,指导AI避免种族主义、性别歧视、有毒、危险或非法行为。此外,Claude被指示避免“说教,烦人或过度反应”。

举报

  • 相关推荐
  • 神州数码 x 嘉岳数智:以生成式AI打造绿色低碳行业的“懂碳帝”

    在"双碳"战略推动下,绿色转型成为产业升级和企业发展的重要方向。神州数码与嘉岳数智科技合作,探索AI技术在碳评估智能化领域的应用,解决传统碳评估面临的数据分散、专业性强等痛点。通过构建EPAG专家流程增强生成框架、Agent场景分类机制和自动化评估学习流程,显著提升专业术语理解准确率至95%以上,大幅减少人工编辑工作量。双方打造的智能评估产品已进入预发布阶段,为生成式AI在垂直行业落地树立标杆,助力企业实现绿色低碳转型目标。

  • 在版权诉讼中,Anthropic 赢下了关键AI训练裁决

    就像任何渴望成为作家的读者一样,Anthropic的语言模型并非为了抄袭或取代原作,而是为了创造出完全不同的内容……

  • 剑指谷歌Chrome!OpenAI即将推出AI浏览器

    据媒体报道,OpenAI即将推出的AI浏览器,利用人工智能技术彻底重塑用户的网络浏览体验,直接向占据市场主导地位的谷歌 Chrome 发起挑战。 凭借庞大的每周4亿活跃ChatGPT用户基础,OpenAI的浏览器若被广泛接纳,将对谷歌的广告生态系统、网络数据流和搜索流量构成实质性威胁。谷歌Chrome长期以来是Alphabet广告业务的基石,为其精准广告投放和将流量导向自家搜索引擎提供了关�

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • ppt自动生成工具最好用的3个

    文章介绍了当前AI生成PPT工具的发展现状,重点推荐了"秒出PPT"这一专业平台。该平台具有三大特色功能:1)智能对话式生成,支持中途修改需求;2)提供三种编辑模式(纯文本、纯设计和文本+设计);3)支持导入文档自动排版,提供"保持原文"和"AI智能修改"两种模式。平台还拥有丰富的模板库,支持在线更换颜色、字体等设计元素。虽然需要购买会员,但相比市面上质量参差不齐的同类产品,该工具在交互体验和功能完整性上表现突出。

  • 最好用的AI生成PPT工具全球横评:谁才是用户效率与专业的首选?

    文章对比评测了5款主流AI驱动的PPT生成工具,重点从生成速度、内容逻辑、模板质量、国际化体验等维度进行分析。PPT.AI综合表现最佳,其极速响应、强大逻辑架构、海量国际模板库和无缝全球化体验尤为突出,特别适合跨境专业人士;Gamma以交互体验和设计感见长;Presentations.AI生成速度最快;ChatPPT对中文用户最友好;iSlide则依托强大设计资源库更适合团队协作。总体而言,P

  • HR必知2025校招AI面试应用趋势,备战秋招神器

    2025年秋招季,AI面试官已成为校园招聘"第一关"。数据显示,60%学生收到AI面试邀约,较2024年增长7.8个百分点,72.4%学生实际参与。77%企业已应用AI招聘工具,较去年激增24%。AI面试优势明显:61.2%学生看重随时参与,60.6%认可时间成本降低,31.2%认为评分更客观。企业端,AI初筛效率提升40%,技术岗应用率达54.5%。但挑战在于平衡效率与体验:89.5%学生愿再尝试AI面试,但需提升交互真实感。领先企业采用"AI初筛+HR终面"的协同模式,招聘周期缩短30%,满意度提升25%。未来校招胜负手在于:工具融合(AI提效+HR深化信任)、体验融合(云端测评+线下开放日)、数据融合(算法精准+管理者洞察)。AI正从招聘工具升级为雇主品牌建设的战略资产。

  • 数势科技凭SwiftAgent获评 IDC「数据管理分析与生成式AI」中国代表厂商

    IDC最新报告显示,数据管理分析与生成式AI应用呈现四大技术趋势:数据分析平台、数据平台、决策自动化和数据流管理。59%企业计划在2025年前投资自动化基础设施和AI解决方案。数势科技自主研发的SwiftAgent 3.0智能分析平台,通过实时数据洞察、异常预警和智能策略建议,构建"分析-决策-行动"闭环,显著提升企业响应速度。该平台整合企业知识库和历史数据,提供可�

  • 中国无纸化2024年度TOP10企业重磅发布!itc保伦股份荣获全国第一!

    ITC保伦股份凭借技术实力和广泛市场覆盖,在2024年中国无纸化企业市场排名中位居榜首。其无纸化会议系统实现全流程管理,满足文档发送、阅读、共享、交流等需求,并整合会议生态,提供扩声、语音转写、视频会议等功能。公司拥有80亩工业园和16000平方米全自动生产车间,产品覆盖党政机关、法院、医院等多个领域。ITC坚持国产化研发,采用SM2、SM3、SM4国密算法保障信息安全,已成功应用于杭州亚运会等多个重要项目。随着数字化浪潮推进,无纸化作为数字化基石的重要性日益凸显,ITC将继续引领技术创新,推动行业迈向更智能、安全、普惠的未来。