首页 > 业界 > 关键词  > 正文

​新AI框架 AboutMe:用网页中自我描述来记录英语预训练数据过滤器的效果

2024-01-19 14:07 · 稿源:站长之家

划重点:

- 💡 研究人员介绍了一个名为 AboutMe 的新数据集和框架,用于记录数据过滤对文本的影响。

- 💡 通过分析网页的 “关于我” 部分,研究团队测量了网站作者的兴趣、社会角色和地理位置等信息。

- 💡 研究强调了预训练数据筛选过程中的复杂性,并呼吁进一步研究其社会影响。

站长之家(ChinaZ.com)1月19日 消息:随着自然语言处理和自然语言生成的进步,大型语言模型(LLMs)在实际应用中得到了广泛使用。由于它们能够模仿人类行为,并具有通用性,这些模型已经涉足各个领域。

虽然这些模型引起了相当大的关注,但它们代表了一组受限和偏向的人类观点和知识。预训练数据的组成是造成这种偏见的原因,因为它对模型的行为产生了重大影响。

黑客

图源备注:图片由AI生成,图片授权服务商Midjourney

研究人员一直在努力着重理解和记录在预训练之前对数据所做的转换。预训练数据的筛选是一个多步骤的过程,其中有多个决策点,这些决策点通常基于主观的文本质量判断或与基准测试的性能。

最近,来自艾伦人工智能研究所、加利福尼亚大学伯克利分校、埃默里大学、卡内基梅隆大学和华盛顿大学的研究人员介绍了一个名为 AboutMe 的新数据集和框架。该研究强调了数据筛选工作流中存在的许多未经质疑的假设。通过 AboutMe,研究团队试图记录对社会和地理背景相关的文本进行数据过滤的影响。

在自然语言处理中,缺乏与语言数据相关联的广泛的自我报告社会人口学数据是一个问题。文本可以追溯到维基百科等一般来源,但在更细粒度的层面上,通常不知道谁创建了这些信息。在这项研究中,研究团队利用 Web 数据中的预设模式,找到了网站,特别是 “关于我” 页面。这使得我们可以对被网络爬虫获取的文本中所代表的语言的创作者有前所未有的了解。

研究人员将网络文本(一种流行的预训练数据源)与其社会和地理背景联系起来。研究团队使用来自网站的 “关于我” 部分的数据,进行社会语言学分析,测量了网站作者的兴趣、社会角色、关联地理位置等。他们创建了一个包含1030万个网站创建者自我描述的新数据集,并提取有关他们是谁、来自哪里的信息:他们的主题兴趣、社会角色和地理归属。

然后,他们对这些网页应用了之前在 LLM 开发研究中使用的十个质量和英语 ID 过滤器,以检查过滤对保留或删除页面的影响。

研究团队表示,他们的主要目标是发现在过滤器内部和之间,与网站来源相关的行为趋势。结果显示,基于模型的质量过滤器显示出对特定主题领域的隐含偏好,导致与各种专业和职业相关的文本以不同的比率被删除。此外,那些假设页面是单语言的过滤技术可能无意中删除了来自非英语地区的内容。

这项研究突显了 LLM 开发过程中数据筛选的复杂性以及对语言模型中各种观点呈现的影响。该研究的主要目标是提高人们对预训练数据筛选程序的细节的认识,尤其是在考虑社会因素时。研究团队强调了对预训练数据筛选程序及其社会影响进行更多研究的需求。

项目网址:https://github.com/lucy3/whos_filtered

论文网址:https://arxiv.org/abs/2401.06408

举报

  • 相关推荐
  • AI日报:国内首个多模态AI程序员上岗;字节启动Top Seed计划招募AI人才;DeepSeek R1T Chimera上线OpenRouter

    【AI日报】今日AI领域重要动态:1.百度发布文心快码3.5及多模态AI程序员"文心快码Comate Zulu",提升开发效率;2.字节跳动启动"Top Seed"计划,招募30名AI博士人才;3.DeepSeek开源R1T Chimera模型上线OpenRouter平台;4.阿里AI工程师余亮获"全国劳动模范"称号;5.开源图像编辑工具Step1X-Edit登陆Hugging Face,性能媲美GPT-4o;6.谷歌被曝每月向三星支付巨额资金预装Gemini应用

  • 《极限挑战》官号疑似被卖上热搜:导演分享歌曲Sold Out

    知名综艺《极限挑战》官方账号异常动态引发网友广泛关注。该账号近期频发带货视频,内容风格大幅变化,被部分网友解读为可能已遭转让。社交平台讨论迅速升温,有评论借节目经典台词调侃“首次看到官方账号被卖出的情景”,更有网友直指“官方行为,或因压力所致”。作为东方卫视推出的现象级真人秀,《极限挑战》以六位固定成员为核心的“极限男人帮”为重心,通过惊险刺激的环情节奏打造高密度情节综艺,曾获“亚洲最具影响力综艺奖项”。此次账号事件不仅涉及平台运营调整,更触动对节目未来走向的关切。目前,相关方尚未正式回应,事件仍在持续发酵中。

  • AI网页版扎堆上线,华为、理想、OPPO们打的什么算盘?

    一切为了「多终端一致体验」和「用户数据闭环」。过去三年,大模型带来了对话式 AI 的全新体验,也带来了一股 Web 产品的复古潮,就连诞生于移动 APP 时代的字节跳动,都给「豆包」开发了网页版。事实上,目前几乎所有主流大模型,都开发了自己的网页版来提供大模型的对话服务。但手机厂商甚至汽车厂商,为什么也要「不务正业」开发 AI 助手的网页版?这几天,有网友�

  • AI日报:kimi宣布降价;OpenRouter发布免费模型Quasar Alpha;Midjourney V7重磅上线

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、IDC:到2028年中国人工智能投资将突破1000亿美元根据国际数据公司的预测,中国在人工智能领域的投资将显著增长,预计到2028年总投资将突破1000亿美元,年均复合增长率达到35.2%。

  • eBay 与 Checkout.com 达成全球支付收单战略合作

    此次合作将升级拓展 eBay 的全球支付平台功能,优化消费者购物体验并提升运营效率。美国圣何塞与英国伦敦— 2025 年 4 月 16 日 — 全球电商领军企业 eBay 今日宣布与国际领先数字支付平台 Checkout.com 达成战略合作伙伴关系。通过此次合作,eBay 将进一步扩展其全球支付平台能力,为消费者提供更流畅的交易体验,同时实现降本增效。作为全球最大的电商平台之一,eBay 平台目�

  • 《Whiteout Survival》全球收入第1 盛趣游戏跃升Top30 世纪华通海外国内双线狂飙

    《Whiteout Survival》登顶全球手游收入榜第1,盛趣游戏跃升中国手游发行商收入Top30,这是Sensor Tower今天发布的 2025 年 3 月数据。 世纪华通旗下两大核心全资子公司正以亮眼的表现重塑行业格局。据Sensor Tower数据显示,点点互动凭借末日生存SLG手游《Whiteout Survival》(国内版《无尽冬日》)登顶全球手游收入榜;与此同时,盛趣游戏携经典IP重制手游《龙之谷世界》跻身中国手游

  • Create2025百度AI开发者大会举行 文心4.5 Turbo、X1 Turbo发布

    百度在武汉举办Create2025+AI开发者大会,李彦宏强调AI应用创造价值的关键。他指出当前AI模型迭代加速,MCP成为行业标准,但开发者担忧应用快速过时。李彦宏建议开发者选对场景和基础模型,并学习调优方法。百度发布文心大模型4.5 Turbo和X1 Turbo,价格大幅下降80%和50%,性能提升且成本更低,为开发者提供更实惠高效的工具选择。

  • 苹果AI广告具有误导性:苹果官网页面紧急调整

    苹果官网近日移除了Apple Intelligence页面的"Available Now"标识。此前广告监管部门NAD认定苹果AI广告具有误导性,因未说明部分AI功能仅限iPhone16系列使用。苹果证实将推迟发布新一代AI语音助手Siri,预计明年推出。新版Siri可访问用户邮件、消息等数据,但开发进度慢于预期。据悉苹果内部对AI进展不满,CEO库克已调整管理层,由Vision Pro负责人Mike Rockwell接管Siri业务。

  • 三星推出Exynos Auto UA100:首款车载UWB芯片

    快科技4月14日消息,三星电子近日发布全球首款车载超宽带(UWB)芯片Exynos Auto UA100,标志着汽车互联技术迈入新纪元。这款创新芯片集射频、基带、存储和电源管理于一体,采用28nm车规级工艺和先进FCFBGA封装技术,不仅大幅降低系统成本,更以卓越的能效表现重新定义了车载连接标准。Exynos Auto UA100的核心优势在于其厘米级精度的测距能力。通过创新的飞行时间(ToF)和到达

  • Create2025百度AI开发者大会上热搜 4.5Turbo、X1Turbo发布

    百度在武汉举办2025AI开发者大会,正式发布文心大模型4.5Turbo和X1Turbo两大版本。4.5Turbo在多模态处理能力上实现突破,支持文本、图像、语音跨模态交互,调用成本较前代直降80%,仅为竞品价格的40%。X1Turbo强化深度推理能力,价格较上代降50%,成本仅占竞品的25%。两款产品围绕"多模态、强推理、低成本"三大特性展开,其中4.5Turbo提升逻辑推理与代码生成效率,X1Turbo支持多步骤复杂推理和跨工具调用能力。百度此次定价策略极具竞争力,4.5Turbo成本降至行业主流水平的1/5,瞄准中小企业及个人开发者;X1Turbo虽定位高端,但成本仅为竞品1/4,主要面向科研机构、金融分析等高要求领域。