CMU 研究人员推出 Zeno：机器学习(ML) 模型行为评估框架

2023-07-21 14:25 · 稿源：站长之家

站长之家(ChinaZ.com) 7月21日消息:CMU 的研究人员开发了一种名为 Zeno 的框架，用于评估机器学习（ML）模型的行为。这种框架可以帮助研究人员和从业者发现和纠正模型的局限性和失败。

Zeno 包括 Python 的应用程序编程接口（API）和图形用户界面(GUI)，可以进行数据发现、切片创建、测试创建和性能监控等操作。通过 Zeno，用户可以更简单、更快速、更准确地进行行为评估。

人工智能大脑大模型

机器学习系统可能存在社会偏见和安全问题，如人行道检测模型中的种族偏见或特定医学图像的错误分类。传统的评估方法通常只关注整体指标，而忽视了对子群体或输入数据切片的模型输出模式的理解。因此，研究人员强调了进行行为评估的重要性。然而，目前市面上的行为评估工具往往无法支持实际应用中的模型、数据和行为。

Zeno 与其他系统合作，结合了其他方法的优点。它可以进行滑动测试和变形测试，适用于任何领域或任务。通过 Zeno 的 API，用户可以构建主要的行为评估和测试界面，实现模型输出、度量指标、元数据和修改实例等功能。Zeno 的前端界面包括数据发现和切片创建的 “Exploration UI” 以及测试创建、报告创建和性能监控的 “Analysis UI”。

Zeno 可以通过一个 Python 脚本向公众开放。用户可以在命令行中指定必要的设置，然后从命令行启动 Zeno 的处理和界面。Zeno 的前端界面采用 Svelte 编写，使用 Vega-Lite 进行可视化和 Arquero 进行数据处理。Zeno 可以作为 URL 端点部署在本地或服务器上，用户可以从自己的设备上访问。此外，Zeno 已经在包含数百万实例的数据集上进行了测试，并且在大规模部署场景中应该能够良好地扩展。

研究团队进行了几个案例研究，展示了 Zeno 的 API 和 UI 如何帮助从业者发现数据集和任务中的主要模型缺陷。研究结果表明，行为评估框架可以在不同的数据和模型类型中发挥作用。

总的来说，Zeno 是一个灵活的平台，可以帮助用户在各种人工智能相关的任务中进行深入的评估。尽管人工智能的发展给我们带来了许多希望，但其复杂性与其能力的增长速度相当。因此，我们需要强大的工具来支持基于行为的开发，并确保构建符合人类价值观的智能系统。Zeno 为用户提供了进行这种深入研究的平台。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
新机器学习框架DRAGIN:用于大语言模型中的动态检索增强，胜过传统方法

研究人员从清华大学和北京理工大学开发了DRAGIN，这是一种针对大型语言模型设计的动态检索增强生成框架。该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息，从提高语言模型的性能。未来的工作旨在克服与自注意力可访问性相关的限制，并对查询构建技术的影响进行评估。

DRAGIN AI头条
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
微软研究人员指出，并非所有token都符合需求

微软研究人员挑战了语言模型预训练的传统方法，该方法在训练语料库中的所有token上均匀应用下一个token预测损失。他们提出了一种新的语言模型称为RHO-1，该模型利用选择性语言建模。SLM可以扩展到监督微调，以解决数据集中的噪声和分布不匹配，并通过训练一个强调帮助性、真实性和无害性的参考模型来获得在预训练期间获得本地对齐的基本模型。

AI数据 AI头条
苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型，旨在提升对移动应用用户界面的理解。这款模型经过特别优化，能够处理移动UI屏幕上的各种任务，并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的，显示出在理解和生成自然语言指令方面的高级能力。

模型 AI头条
蚂蚁集团等发布开源大模型知识抽取框架OneKE

蚂蚁集团和浙江大学合作开发了一个名为OneKE的开源大模型知识抽取框架。该框架旨在帮助处理信息抽取、文本数据结构化和知识图谱构建等任务，为研究人员和开发者提供有力工具。他们将持续优化知识抽取的性能，并将相关技术应用到金融、医疗、政务等领域，推动可控生成技术的产业落地。
商汤科技将发布「日日新 SenseNova 5.0」大模型

商汤科技宣布，将于明日推出全新版本的「日日新5.0」，继续带来技术的创新和突破。日日新是商汤科技推出的大模型体系，包括自然语言处理模型“商量”、文生图模型“秒画”和数字人视频生成平台“如影”等。用户可以通过自然语言输入，利用大模型的意图识别、逻辑理解与代码解释器的能力，实现自动数据转化为有意义的分析和可视化结果。
会颠勺的国产机器人来了：大模型加持，家务能力满分

随着AI向AGI的圣杯方向加速发展，大模型与机器人的结合是必然趋势。单一用途机器人市场已趋于饱和，AI通用机器人的巨大潜力急待开垦。有此长期志向的伙伴，欢迎加入我们，让AI机器人从梦想变为现实。

机器人
荐国产大模型卷翻机器人！这些火遍全网的机器人，都装上了星火「大脑」

【新智元导读】大模型这把火点燃了整个机器人行业的热情。纵观全世界，过去几个月，国内外大模型大厂和机器人初创公司的合作也是动作不断。科大讯飞所做的，就是用技术革新，让机器人走进每个家庭。

大模型
苹果新AI模型研究Ferret-UI：或将提升Siri，读懂屏幕内容

尽管苹果在生成式AI热潮开始后并未推出任何AI模型，但近期公司正在着手一些AI项目。苹果研究人员分享了一篇揭示公司正在研发的新语言模型的论文，内部消息称苹果正在研发两款AI驱动的机器人。由于模型对用户应用屏幕的全面理解以及执行某些任务的知识，Ferret-UI可以用于强化Siri，让其为用户执行任务。

AI模型 Ferret-UI Siri
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条

今日大家都在搜的词：

热文

3 天
7天

CMU 研究人员推出 Zeno：机器学习(ML) 模型行为评估框架

今日大家都在搜的词：

热文

站长商机