新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

2024-01-19 14:07 · 稿源：站长之家

划重点:
- 💡 研究人员介绍了一个名为 AboutMe 的新数据集和框架，用于记录数据过滤对文本的影响。
- 💡 通过分析网页的 “关于我” 部分，研究团队测量了网站作者的兴趣、社会角色和地理位置等信息。
- 💡 研究强调了预训练数据筛选过程中的复杂性，并呼吁进一步研究其社会影响。

站长之家（ChinaZ.com）1月19日消息:随着自然语言处理和自然语言生成的进步，大型语言模型（LLMs）在实际应用中得到了广泛使用。由于它们能够模仿人类行为，并具有通用性，这些模型已经涉足各个领域。

虽然这些模型引起了相当大的关注，但它们代表了一组受限和偏向的人类观点和知识。预训练数据的组成是造成这种偏见的原因，因为它对模型的行为产生了重大影响。

图源备注：图片由AI生成，图片授权服务商Midjourney

研究人员一直在努力着重理解和记录在预训练之前对数据所做的转换。预训练数据的筛选是一个多步骤的过程，其中有多个决策点，这些决策点通常基于主观的文本质量判断或与基准测试的性能。

最近，来自艾伦人工智能研究所、加利福尼亚大学伯克利分校、埃默里大学、卡内基梅隆大学和华盛顿大学的研究人员介绍了一个名为 AboutMe 的新数据集和框架。该研究强调了数据筛选工作流中存在的许多未经质疑的假设。通过 AboutMe，研究团队试图记录对社会和地理背景相关的文本进行数据过滤的影响。

在自然语言处理中，缺乏与语言数据相关联的广泛的自我报告社会人口学数据是一个问题。文本可以追溯到维基百科等一般来源，但在更细粒度的层面上，通常不知道谁创建了这些信息。在这项研究中，研究团队利用 Web 数据中的预设模式，找到了网站，特别是 “关于我” 页面。这使得我们可以对被网络爬虫获取的文本中所代表的语言的创作者有前所未有的了解。

研究人员将网络文本（一种流行的预训练数据源）与其社会和地理背景联系起来。研究团队使用来自网站的 “关于我” 部分的数据，进行社会语言学分析，测量了网站作者的兴趣、社会角色、关联地理位置等。他们创建了一个包含1030万个网站创建者自我描述的新数据集，并提取有关他们是谁、来自哪里的信息:他们的主题兴趣、社会角色和地理归属。

然后，他们对这些网页应用了之前在 LLM 开发研究中使用的十个质量和英语 ID 过滤器，以检查过滤对保留或删除页面的影响。

研究团队表示，他们的主要目标是发现在过滤器内部和之间，与网站来源相关的行为趋势。结果显示，基于模型的质量过滤器显示出对特定主题领域的隐含偏好，导致与各种专业和职业相关的文本以不同的比率被删除。此外，那些假设页面是单语言的过滤技术可能无意中删除了来自非英语地区的内容。

这项研究突显了 LLM 开发过程中数据筛选的复杂性以及对语言模型中各种观点呈现的影响。该研究的主要目标是提高人们对预训练数据筛选程序的细节的认识，尤其是在考虑社会因素时。研究团队强调了对预训练数据筛选程序及其社会影响进行更多研究的需求。

项目网址：https://github.com/lucy3/whos_filtered

论文网址：https://arxiv.org/abs/2401.06408

（举报）

相关推荐

关键词：

荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

本期AI日报聚焦多项技术突破：字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频；爱诗科技PixVerse V5全球上线支持多场景创作；腾讯开源Youtu-agent框架提升AI开发效率；百度智能云发布百舸AI计算平台5.0；OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现，展现人工智能领域快速发展的技术迭代与生态建设。

AI视频生成 OmniHuman-1.5 字节跳动
豆包未成年人保护模式上线：推荐视频、浏览第三方网页等默认关闭

豆包今日正式上线未成年人保护模式。未成年人模式是为家长提供的工具，以方便关闭部分功能，防止小朋友拿到设备后可能的不适当使用。家长输入密码开启该模式后，推荐视频、浏览第三方网页、和豆包以外的智能体对话、AI创作功能将被默认关闭。翻译、深入研究等功能仍能正常使用。近日，多位家长反映豆包App存在隐蔽的短视频入口：孩子在豆包内提问时，答案下�

未成年人保护模式豆包App 短视频入口
腾讯元宝上线AI口语陪练，人人都能免费练英语了

腾讯元宝8月29日上线AI口语陪练功能，提供24小时在线英语陪练，支持中英对照、口语评测、跟读等模式，帮助用户随时随地提升口语能力。该功能免费开放，支持实时字幕和中文提问，还能根据用户水平自适应调整难度，并支持角色扮演进行场景化练习。腾讯表示将持续迭代，为用户提供免费好用的AI工具。

腾讯元宝 AI口语陪练英语口语
天翼云TeleDB通过信通院“可信数据库”安全专项测试

中国信通院公布2025上半年“可信数据库”评估结果，天翼云TeleDB高可用关系型数据库通过安全专项测试，产品性能与安全能力达行业领先水平。TeleDB具备高性能、高可用、高可靠、高安全、易扩展、易管理等优势，已在政务、物联网、新能源、医疗等行业广泛应用，助力企业数字化转型。此次评测进一步验证了国产数据库的技术实力，推动我国数据库产业快速发展。

可信数据库天翼云 TeleDB
苹果官网更新：三款MacBook被列为过时产品

今天苹果官网过时产品名单中新增了三款Mac电脑，具体如下。 MacBook Air（11英寸，2015款） MacBook Pro（13英寸，2017款，配备4个雷雳3端口） MacBook Pro（15英寸，2017款）据悉，某款设备自苹果停止分销之日起超过7年，便会被归为过时产品”，苹果零售店及苹果授权服务提供商通常不维修过时产品，但苹果表示，MacBook在停止分销后长达10年内仍可能符合电池更换条件，具体取决于

苹果 Mac电脑过时产品
智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

智谱今天，终于发了AutoGLM2.0。想一想，AutoGLM1.0的版本，距离我第一次首发写他们，已经过去快10个月了。那个时候，他们掀起了一波Agent热潮，甚至连A股都出现了智谱概念股，他们也开启了Agent的另一条支线，用视觉的方式来操控原有设备。当时，我对着我的手机说:我29号要去一趟深圳，你帮我定个罗湖地铁站附近的酒店，预算600元以内，大床房。然后，我的手机，就像

文章搜索核心标签 AutoGLM2.0
DeepSeek崩了引热议官方深夜回应：网页/API已恢复

8月11日，DeepSeek服务突遭全面宕机，API接口、网页平台以及App均无法访问或响应。许多网友也通过微博话题#DeepSeek崩了#反馈服务异常。

DeepSeek宕机 AI大模型服务恢复
腾讯Kuikly框架进一步开源，新增支持Web，开启一码五端新体验！

腾讯开源的跨端开发框架Kuikly基于Kotlin Multiplatform技术，新增Web版支持H5和微信小程序。相比主流跨端方案，Kuikly Web版采用DOM渲染，包体积仅463KB，加载速度快，兼容性好，支持SEO优化。已在腾讯多款业务中应用，日活用户超5亿。未来将持续优化性能，探索WASM技术，并计划开源Electron适配版本。

Kuikly 跨端开发 Kotlin
哪里找最新AI工具官网？如何快速对比ChatGPT替代品？AI工具导航指南 - AIbase

文章探讨了在AI工具爆炸式增长的时代，用户面临的信息过载和筛选困难问题。主要内容包括：1）AI领域迭代速度远超传统软件，个人追踪信息效率低下且容易错过关键更新；2）AIbase.cn平台致力于解决这一问题，通过聚合主流AI工具、严格审核信息来源、持续更新行业动态；3）平台提供多维对比功能，结构化呈现工具参数，帮助用户快速定位适合需求的解决方案；4）建议用户定期浏览平台资讯栏目，善用搜索筛选功能，通过对比视图做出明智选择。核心价值在于降低信息筛选成本，让用户更高效地获取有价值的AI工具和前沿资讯。

AI工具导航信息筛选参数对比
美网抢帽子男子系波兰富豪球员暖心再赠新帽

近日，美国网球公开赛现场发生了一幕令人瞠目结舌的场景。在球员迈赫扎克赢得比赛后，他满心欢喜地将自己的帽子递给场边一名小男孩，作为对小球迷的鼓励与回馈。然而，令人意想不到的是，旁边一名成年男子竟突然伸手将帽子一把抢走，并迅速装进了自己的包里。这一粗鲁无礼的举动，瞬间在社交媒体上掀起了轩然大波。网友们纷纷表达愤怒之情，指责该男子“素

美国网球公开赛迈赫扎克斯泽雷克

今日大家都在搜的词：

热文

3 天
7天

新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

豆包未成年人保护模式上线：推荐视频、浏览第三方网页等默认关闭

腾讯元宝上线AI口语陪练，人人都能免费练英语了

天翼云TeleDB通过信通院“可信数据库”安全专项测试

苹果官网更新：三款MacBook被列为过时产品

智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

DeepSeek崩了引热议官方深夜回应：网页/API已恢复

腾讯Kuikly框架进一步开源，新增支持Web，开启一码五端新体验！

哪里找最新AI工具官网？如何快速对比ChatGPT替代品？AI工具导航指南 - AIbase

美网抢帽子男子系波兰富豪球员暖心再赠新帽

今日大家都在搜的词：

热文

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为MatePad Mini外观公布支持蜂窝网络通话功能

特斯拉Model 3长续航后轮驱动版降价1万元售价25.95万起

小米汽车8月交付量超3万台全年交付量有望冲击42万

小鹏汽车：8月共交付新车37709台单月交付量创历史新高

苹果上架翻新版Apple Pencil Pro售价849元

零跑汽车8月交付57066台增长超88%

苹果首款折叠iPhone或不会采用屏下指纹将于明年发布

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

realme真我15000mAh电池容量手机亮相

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为三折叠屏手机Mate XTs非凡大师上架开启预约

站长商机

​新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

今日大家都在搜的词：

热文

站长商机

新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果