首页 > 业界 > 关键词  > AI训练数据集最新资讯  > 正文

OpenAI与第三方机构合作,构建新的AI训练数据集

2023-11-10 11:22 · 稿源:站长之家

**划重点:**

- 🤖 OpenAI启动Data Partnerships计划,与第三方机构合作,创建用于AI模型训练的公共和私有数据集。

- 📚 OpenAI寻求多领域、多语言、多格式的数据,以提高AI模型的广泛理解。

- 💼 尽管有商业动机,OpenAI的Data Partnerships计划也引发了关于数据拥有者权益和透明度的讨论。

站长之家(ChinaZ.com) 11月10日 消息:OpenAI最近宣布了Data Partnerships计划,旨在与第三方机构合作,创建用于AI模型训练的公共和私有数据集。这一举措旨在解决现有AI模型训练数据集中存在的问题,其中包含有毒语言和偏见。

OpenAI的目标是培养更安全、更有益于全人类的AI。为了实现这一目标,他们计划采集“大规模”数据集,以反映人类社会,尤其是那些目前在网上难以获得的数据。这些数据将涵盖各种形式,包括图像、音频和视频,但重点是寻找能够表达人类意图的数据,例如长篇写作或对话,跨越不同语言、主题和格式。

OpenAI ChatGPT,人工智能,AI

OpenAI还承诺将与合作机构合作,必要时使用光学字符识别和自动语音识别工具将培训数据数字化,并在必要时删除敏感或个人信息。初期,他们计划创建两种类型的数据集:一个是公开的数据集,任何人都可以用于AI模型训练,另一个是用于训练专有AI模型的私有数据集,供希望保护数据隐私的机构使用。

尽管OpenAI提出了宏伟的目标,但也有人对其商业动机提出质疑。一些人认为,OpenAI的举措旨在改善其模型的性能,但可能会损害其他机构的利益,并未对数据拥有者作出合理的赔偿。这引发了关于透明度和数据使用权益的讨论。

OpenAI的Data Partnerships计划旨在推动AI模型的发展,但其实施和影响还有待观察。在克服数据集偏见等挑战方面,OpenAI是否能做得更好,仍有待验证。

举报

  • 相关推荐
  • 重磅!标贝科技推出「十万音色·自然语音数据集」 重构AI语音训练基础设施

    标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • AI火花集|AI火花先锋添新力,拆解保险、客服、物联网AI落地实战

    AI正加速渗透产业,2025年全球AI投资预计达2000亿美元,年增长近翻倍。保险、电商客服、智能家居成为落地先锋。暖哇科技、云起未来、蜂助手分别聚焦保险理赔自动化、电商智能客服、5G+AI物联网,通过实战方案推动AI从概念验证走向规模化应用。面临数据价值陷阱、流通壁垒等挑战,企业需构建专业知识库并优化人机协同。未来AI将深入产业毛细血管,汇聚零散创新火花,�

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • 卖家精灵火热亮相郑州跨交会,AI+大数据助力华中跨境电商跑出“加速度”

    8月28日至30日,郑州国际跨境电商交易博览会成功举办。卖家精灵作为亚马逊认证服务商参展,展示AI+大数据选品与运营解决方案,现场人气火爆。展会聚焦产业带与跨境服务融合,汇聚近百家服务商和400家工厂。卖家精灵重点演示AI选品工具,日均接待超千人咨询,数百份资料首日领完。定制品牌水成为交流纽带,促进业务对接。卖家精灵将持续以数据驱动帮助卖家科学决策,把握全球市场新机遇。

  • 卖家精灵火热亮相长沙跨交会,AI+大数据赋能湘品差异化出海!

    8月29日至31日,湖南长沙成功举办跨境电商交易会。卖家精灵作为亚马逊认证服务商受邀参展,展示AI+大数据驱动的选品、运营与出海赋能方案,展位人气高涨。重点推出AI市场洞察、实时查竞价等功能,助力卖家数据化决策。现场吸引众多产业带负责人洽谈合作,未来将持续迭代产品服务,陪伴更多卖家从经验驱动走向数据驱动,共赢跨境新机遇。

  • OpenAI CEO:GPT-6将具备个性化记忆 记住用户偏好习惯

    OpenAI的首席执行官萨姆奥尔特曼(Sam Altman)在近日的一次专访中,透露了下一代大模GPT-6的最新进展。他表示,GPT-6 的开发正在积极推进中,其发布节奏将比从GPT-4到GPT-5的周期更快。 奥尔特曼特别强调,GPT-6将不再局限于单纯回答问题,而是朝着与用户深度适配”的方向演进。他举例描述

  • AI与数据库双向赋能,达梦靠自主创新把握弯道超车机遇

    AI时代下,数据库行业正经历深刻变革。达梦数据副总经理李庄庄指出,AI与数据库双向赋能、深度融合,带来多模态数据处理、高并发低延迟等新需求。数据库需提升智能化自治能力,通过架构升级、AI技术集成及生态开放应对挑战。达梦通过AI4DB和DB4DB双路径布局,已在智能参数调优、多引擎数据库等领域取得进展。未来,数据库将更智能、普惠,技术硬实力与落地价值是关键竞争力。

  • 百度正式发布AI搜索APP“梯子AI”:主打无广告智能搜索!

    百度旗下的AI搜索AppTizzy.ai”已完成了前期的测试,并正式更名为梯子AI”上架。 这款应用最初于8月10日发布,当时名称为Tizzy.ai”,更新后版本号从1.0.0直接跳至1.2.0。 据介绍,梯子AI定位为智能搜索助手,依托百度多个大模型能力开发而成,主打无广告智能搜索,整合深度思考、资源检索及影视娱乐功能,致力于为用户提供简单搜索,一触即达”的极致体验。

今日大家都在搜的词: