Anthropic发布新方法通过提示降低生成式AI偏见

2023-12-22 13:52 · 稿源：站长之家

**划重点:**
1. 📄 Anthropic发布了一项方法，通过提示工程降低公司使用大型语言模型的输出中的歧视。
2. 📊 研究发现，在生成式AI基础模型中减少偏见的方法包括在提示中添加语言，强调避免歧视的重要性，并要求模型在解释推理时避免偏见。
3. ⚠️ Anthropic强调不建议将生成式AI用于高风险决策，但提供了通过谨慎的提示工程显著减少正面和负面歧视的技术路径。

站长之家(ChinaZ.com) 12月22日消息:人工智能公司Anthropic最近发布了一项方法，旨在通过提示工程减少公司使用的大型语言模型（LLMs）输出中的歧视。该公司在一份文件中详细介绍了一种评估方法，指导公司如何通过优化提示降低模型输出的歧视性。该文件为开发人员和决策者提供了了解LLMs生成答案中歧视和偏见产生以及如何减少它们的途径。

Claude2，Anthropic，人工智能，聊天机器人

研究人员发现，要减少Claude2的答案中的偏见，可以采取以下方法:

在提示中添加语言，表明模型应减少歧视，不应考虑平权行动，人口统计信息是错误的，或者人口统计信息不能被合法考虑。
在提示中强调避免歧视的重要性（“这真的非常重要”）。
要求模型解释其推理，同时避免偏见或歧视。

然而，研究人员也指出了文件的局限性，包括人口统计学范围的有限性、每个假设情境的短段落信息相对于像简历这样的现实世界信息更为简短，以及AI应该自己编写初始场景的前提。

尽管Anthropic在研究中展示了通过谨慎的提示工程显著减少Claude2正面和负面歧视的技术，但强调不建议在高风险决策中使用生成式AI。该研究的目的是为合适的使用案例提供更安全的部署途径，而不是为了自动化高风险决策。

Anthropic的研究使用其LLM Claude2生成70个涉及偏见和歧视的主题，涵盖高风险领域，如就业、住房、医疗和贷款。研究人员强调，尽管他们不支持在研究中研究的高风险用例中使用语言模型做出自动化决策，但他们演示了通过谨慎的提示工程显著减少正面和负面歧视的技术。

在生成式AI中的算法偏见是一个主要关注点，特别是当这些工具从具有历史或选择偏见的数据集中绘制时。其他导致生成式AI偏见的主要因素包括训练数据偏见或认知偏见，即人类输入扭曲了数据。不一致的标注，即数据没有按照任何标准标注且可能包含人为错误，尤其容易扭曲生成式AI的结果。

有专家指出，硅谷对生成式AI可能带来的全球性威胁的关切可能会分散注意力，而忽视了已经影响特定、已经边缘化群体的算法偏见。例如，在2023年10月，研究人员发现ChatGPT和基础模型Alpaca在生成推荐信方面显示了“显著的性别偏见”。Alpaca是基于Meta的LLaMA7B的基础模型，由斯坦福大学的研究人员进行了精细调整。

Anthropic于2023年5月发布了Claude的宪法，以引导该模型产生“无害”的回应。Claude的宪法是一组原则，指导AI避免种族主义、性别歧视、有毒、危险或非法行为。此外，Claude被指示避免“说教，烦人或过度反应”。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
AI浪潮来袭，戴尔发力生成式AI解决方案

业内人士指出，以人工智能技术为代表的生成式AI解决方案备受关注，几乎所有的IT厂商都在押注重要资源，期待在全新的市场机遇期把握机会，获得新的增长曲线。据IDC预计，到2027年，全球AI解决方案支出将增长超过5，000亿美元。”值得一提的是，在近期发布的《ForresterWave™:AI基础架构解决方案，2024年第1季度》报告中，戴尔荣获"领导者象限"地位。

人工智能技术生成式AI解决方案 IT厂商
荐生成式AI：三块短板、两道难题、一个悖论

闫德利腾讯研究院资深专家炼大模型，大炼模型近年是全球风险投资的低潮，生成式AI却逆市起，去年的融资笔数和融资额分别增长66%和400%，融资额高居所有细分领域第一位。去年美国前5大风险投资中，OpenAI、Anthropic和InflectionAI三家GenAI公司占据了4个，融资额分别高达100亿美元、40亿美元、20亿美元和13亿美元，主要投资者是微软、亚马逊、谷歌和英伟达等巨头。本文写作中，�

生成式AI
Fireworks.ai开源API使任何开发者都能使用生成式AI

随着人们对生成式AI的热情不断高涨，越来越多的公司试图涉足这一领域。Fireworks.ai就是其中之一。该公司在2022年获得了2500万美元的融资，由Benchmark领投，SequoiaCapital和未透露姓名的天使投资者参与。

Fireworks.ai 生成式AI AI头条
荐谷歌将免费提供3款，生成式AI图像编辑工具

4月11日，谷歌在官网宣布从5月15日起，将向所有谷歌相册用户免费提供MagicEditor、PhotoUnblur和MagicEraser三款生成式AI编辑工具。通过这三款强大的AI图像编辑工具，用户可以轻松将模糊的图片变高清，实现一键PS/调色/光影，删除图片多余内容等。现在通过MagicEraser可以一键完美去除它们了。

谷歌
Cohere发布开发者工具包，加速企业生成式AI应用开发

Cohere发布了一个开发者工具包，旨在加快企业生成式AI应用的构建过程。这个工具包包含了一个开源存储库，可以立即在任何云提供商上部署应用。Cohere的工具包可在该公司的GitHub存储库上获取。

Cohere AI头条
37%专业人士使用生成式AI工具每周节省 5-10 小时

根据最新数据显示，近四分之一的专业人士通过使用生成式人工智能工具，每周能够节省5-10小时的工作时间。这项研究揭示了GenerativeAI工具在提升工作效率方面的潜力。随着这种工具的不断发展和完善，可以预见，更多专业人士将会受益于GenerativeAI技术的帮助，实现工作时间的节省和工作效率的提升。

生成式AI AI工具 AI头条
印度具备生成式AI技能的技术人员工资增长 30-50%

印度的技术人员通过额外的AI、生成AI和相关技能驱动工资增长，相比没有这些技能的人员，他们的工资增长了30-50%。据Careernet称，GenAI专业人员可分为三大类别:GenAI技术开发人员、GenAI产品开发人员和GenAI用户。通过不断学习和提升技能，技术人员可以在这一潮流中实现个人职业发展的飞跃。

生成式AI
微软投资1000亿美元推动生成式AI，这支股票有望大涨

据科技商业刊物TheInformation报道，微软和OpenAI计划在一个名为Stargate的新超级计算机上投资1000亿至1150亿美元，加速生成人工智能应用的基础设施建设。尽管微软和OpenAI尚未发布详细信息，但两家公司据称正处于一个五阶段项目的第三阶段，其中Stargate将是第五阶段。考虑到微软基于Stargate的需求，Arm的盈利可能会更强劲，因此想要购买人工智能股票的投资者最好在其股价飙升前�

微软生成式AI AI头条
三星表示需要通过生成式AI升级重新定义其语音助手Bixby

他们可能会将生成式人工智能技术应用于其语音助手Bixby，这是该公司一名高管告诉CNBC的。Bixby于2017年随三星GalaxyS8智能手机推出。苹果宣布将于6月举办其年度开发者大会WWDC，届时公司有望在产品各方面介绍一些AI功能。

三星语音助手 Bixby
MediaTek DaVinci GenAI Platform官网体验入口联发科生成式AI平台使用地址

MediaTekDaVinciGenAIPlatform是一个强大的生成式AI平台，能提供自然流畅的人工智能对话体验，充当个人助理。平台还能整合多种信息源，帮助用户全方位了解相关信息。MediaTekDaVinciGenAIPlatform的使用场景多种多样，包括：编写高质量文章快速了解技术文档内容根据需求扩展平台功能MediaTekDaVinciGenAIPlatform的产品特色直接聊天文档分析插件扩展希望通过此平台提高工作和生活效率，获取所需信息和服务的用户可以尝试使用MediaTekDaVinciGenAIPlatform。

MediaTekDaVinci 联发科

今日大家都在搜的词：

热文

3 天
7天

Anthropic发布新方法 通过提示降低生成式AI偏见

今日大家都在搜的词：

热文

站长商机

Anthropic发布新方法通过提示降低生成式AI偏见