首页 > 业界 > 关键词  > AI最新资讯  > 正文

MIT等机构推出数据溯源平台 解决AI领域的数据透明危机

2023-10-26 10:21 · 稿源:站长之家

🔍 划重点:

1. 研究人员联合MIT、Cohere for AI等机构发布了Data Provenance Platform,旨在解决AI领域的数据透明危机。

2. 他们对近2,000个广泛使用的微调数据集进行了审计和追踪,这些数据集已被下载数千万次,是许多自然语言处理(NLP)突破的基础。

3. 报告指出,数据集的溯源和透明度问题可能导致数据泄漏、暴露个人身份信息、出现意外偏见或行为,从而降低了模型的质量,同时也带来了法律和伦理风险。

站长之家(ChinaZ.com) 10月26日 消息:研究人员来自麻省理工学院(MIT)、Cohere for AI以及其他11个机构,他们共同发布了Data Provenance Platform,旨在应对AI领域的数据透明危机。这一平台的推出旨在解决AI模型训练数据集的来源和使用透明度不足的问题,这是当前AI领域亟待解决的挑战之一。

脑机接口 AI机器人

图源备注:图片由AI生成,图片授权服务商Midjourney

这个跨机构合作的倡议审计和追踪了近2,000个广泛使用的微调数据集。这些数据集被下载了数千万次,被认为是许多自然语言处理(NLP)领域突破的基础。这一举措的发起者包括MIT Media Lab的博士候选人Shayne Longpre和Cohere for AI的负责人Sara Hooker。

这个跨学科倡议的结果是迄今为止规模最大的AI数据集审计。这些数据集首次包含了标签,用于指示原始数据来源、多次重新授权、创建者和其他数据属性。为了使这些信息实际可操作并易于获取,他们还开发了一个名为"Data Provenance Explorer"的互动平台,允许开发人员根据法律和伦理考虑来跟踪和筛选成千上万个数据集,同时也让学者和记者探索流行AI数据集的组成和数据渊源。

与此同时,他们还发布了一份名为"The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI"(数据来源倡议:人工智能中数据集许可和归属的大规模审计)的研究报告。报告指出,越来越多的广泛使用的数据集被视为单一整体,而不是一系列数据来源,这些数据经过多次包装和重新授权。这种处理方式的缺点在于,它们通常不充分注明数据来源和版权信息,这导致了对训练数据的理解不足。这一不足可能导致训练数据和测试数据之间的数据泄漏,暴露个人身份信息,导致意外的偏见或行为,最终降低了模型的质量。此外,这也带来了伦理和法律风险,例如,模型发布与数据使用条款可能相互抵触。这些挑战都不容易解决,因为在数据上训练模型既昂贵又基本不可逆转。

Data Provenance Platform的推出有望改善AI领域的数据透明度,提高数据集的质量和伦理合规性,从而推动AI技术的可持续发展。这一举措也将有助于减少AI模型中的潜在问题,如偏见、数据泄漏和法律风险,为AI技术的广泛应用提供更可靠的基础。

举报

  • 相关推荐
  • 格创东智CIM AI Insight实现“数据追人”,产能决策时间压缩90%

    半导体制造面临数据迷雾困境:晶圆生产涉及上千道精密工序,良率波动0.1%即可能造成千万级损失。传统数据分析依赖人工跨系统提取数据,效率低下且难实时联动。格创东智推出CIM+AI+Insight解决方案,通过自然语言交互、多智能体协作和动态仪表板三大创新,实现"数据找人"的智能化转型。该系统具备三大核心价值:1)自然语言查询替代SQL编写;2)ChatYMS等智能体自�

  • 阿里云携手博登智能,升级AI数据标注服务——以数据驱动人工智能

    博登智能与阿里云达成战略合作,共同推动AI数据标注智能化发展。博登智能自主研发的BASE平台通过AI技术实现数据标注自动化,最高提升600%效率,降低成本40%,已服务自动驾驶、智慧医疗等领域。双方将结合博登的数据服务优势与阿里云的技术实力,构建从数据采集到模型训练的全流程解决方案,推动AI技术在千行百业落地。此次合作将加速数据智能服务升级,让更多企业以更低门槛拥抱AI技术。

  • 金仓数据库:深耕民生领域 赋能数字化转型新征程

    第八届数字中国建设峰会4月29日在福州召开,以"二十五载奋进路 数字中国谱新篇"为主题,展示数字技术在交通、医疗、教育等民生领域的创新应用。电科金仓数据库在峰会亮相,其国产数据库已应用于地铁票务、公积金管理、医疗信息化等场景,支撑了合肥地铁自动售票、大连公积金管理等系统,日均处理数千万笔交易。在医疗领域,金仓数据库赋能100多家医院信息化建设,助力联勤保障部队第907医院构建AI医疗生态。未来将继续拓展在政务、制造等关键领域的应用,推动产业数字化转型。

  • 三星将斥资 121 亿元收购 FläktGroup,进军数据中心领域

    近几个季度,三星盈利下滑,股价表现也不佳,部分原因是竞争加剧。为此,三星将寻求有意义的并购,以推动未来增长。收购FläktGroup代表着三星朝着这一方向迈出了切实的一步……

  • 金仓数据库:在网信领域持续打造有竞争力的产业生态

    电科金仓总裁杜胜在第八届数字中国建设峰会上指出,单打独斗的企业模式已不适应网信领域国际竞争,构建产业生态才是关键。我国数据库产业发展迅速,电科金仓通过成立金兰组织,联合700多家企业、3200余生态伙伴,实现11000余款产品兼容互认,推动产业协同发展。企业强调开放合作生态,重视用户反馈机制,与高校共建实习基地、联合实验室,培养实战型数据库人才。目前电科金仓已与中国移动等大型企业合作创新,并积极参与行业标准制定,通过产学研融合推动产业高质量发展。

  • 捷停车×广州融数:数据赋能乡村振兴,以“AI+停车”共建停车服务

    深圳捷停车与广州融数科技签署智慧出行战略合作协议,双方将聚焦广州市番禺区数字乡村建设,以"车位共享+数据融合"为核心,为170余个村(居)打造城乡一体化智慧停车解决方案。通过数字化手段整合分散的城乡停车资源,构建统一管理平台,实现车位状态实时监控与跨区域共享调度。合作将探索科技赋能乡村振兴与智慧城市协同发展的创新路径,未来计划向广州全市及全国推广,为新型城镇化建设提供智慧停车参考方案。

  • 太极华青以全矩阵解决方案护航电子凭证会计数据标准推广应用

    财政部等九部门联合发文推广电子凭证会计数据标准,推动电子凭证全流程无纸化处理。太极华青作为会计软件服务商,推出覆盖电子凭证全生命周期的解决方案,包括"凭证通"电子凭证服务平台、"轻松报"智能报销平台等,助力单位实现业务财务一体化管理。试点期间436家单位累计处理电子凭证超2亿张,验证了标准的科学性和有效性。方案融合AI、RPA等技术,实现智能采集、验签、解析等功能,并与预算管理一体化系统无缝对接,提升财务管理效率。通过事前防控、事中纠偏、事后溯源的全流程监管机制,有效防范财务风险,推动会计工作数字化转型。

  • 警告!你的大脑数据正在被出售……

    与其他个人数据不同,神经数据是直接从人类大脑中获取的,即使经过匿名处理,也能揭示出心理健康状况、情绪状态和认知模式。这些信息不仅非常私密,从战略角度看也极为敏感……

  • GPT-4.5功臣遭驱逐,奥特曼盛赞工作出色,美国深陷AI人才危机

    OpenAI核心开发者Kai Chen因绿卡申请被拒面临离境困境。作为GPT-4.5核心开发者之一,她的遭遇引发业内震动。同时,1700多名国际学生和研究人员签证受阻,《自然》调查显示75%的美国科学家正考虑离开。移民政策收紧正导致美国AI领域人才流失,可能动摇其技术领先地位。OpenAI员工透露公司高度依赖海外人才,去年提交了80多份H-1B签证申请。乔治城大学研究显示,美国66%顶尖AI公

  • 金蝶信科王宏:AI重塑小微信贷流程 数据“替企业说真话”

    金蝶信科总裁王宏在金融学术会议上指出,持续使用收款码6个月的小商户获得信贷可能性超60%,36个月后可达90%。这展现了数据信用化的现实价值,企业经营数据正成为新型信用资产。通过AI技术分析财税大数据,能更精准评估小微企业信用状况。金蝶信科已帮助70万家企业获得超1800亿元信贷支持,提炼出税负异常、开票频率等关键风控维度。其推出的企业关系图谱和AI融资匹配服务,已覆盖300万家企业交易数据。未来将持续投入"AI+企业信用数据"研发,构建可信的数字信用生态,为普惠金融提供中国方案。