11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
在线文本识别模型取得了显著进展,但数学表达识别作为更为复杂的任务仍未得到足够关注。谷歌研究团队推出了MathWriting,一个专注于在线手写数学表达的数据集,包含230k人工编写和400k合成样本,超越了类似IM2LATEX-100K的离线HME数据集。未来的研究可以专注于优化训练/验证/测试分割以及开发针对数学表达的语言模型。
MetaAI研究人员今天发布了OpenEQA,这是一个新的开源基准数据集,旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界,从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准,其中包含超过1,600个关于180多个真实环境的问题。为了衡量人工智能代理的性能,研究人员使用大型语言模型自动评分,衡量人工智能生成的答案与人类答案的相似程度。
MetaAI最近发布了MMCSG数据集,该数据集包含使用ProjectAria录制的25小时以上的双向对话。CHiME-8MMCSG任务的重点是转录使用智能眼镜录制的对话,这些眼镜配备了多个传感器,包括麦克风、摄像头和惯性测量单元。MMCSG数据集的提供为在动态现实环境中开发和评估转录系统提供了宝贵资源。
AutoMathText是一个引人注目的数学文本数据集,拥有约200GB的高质量内容。每一条信息都经过先进的语言模型Qwen的自主选择和评分,确保了高水平的相关性和内容质量。要了解更多信息并开始您的数学与人工智能之旅,请访问AutoMathText官方网站。
ANIM-400K 是一个综合的数据集,包含超过425, 000 个日语和英语动画视频片段。这个数据集专为研究用途设计,支持自动配音、同声翻译、视频摘要以及流派/主题/风格分类等多种视频相关任务。公开提供给研究者,助力于各种视频处理和分析技术的开发。点击前往ANIM-400K官网体验入口谁可以从ANIM-400K中受益?ANIM-400K是为研究者和开发者提供的理想工具,特别适用于那些需要大量
根据斯坦福互联网观察站周三发布的一项新研究,流行的人工智能图像生成器的基础数据库中隐藏着数千张儿童性虐待图片。作为对这一研究的回应,一些最大和最常用的图像数据库的运营商关闭了对它们的访问权限。LAION的创始人是德国研究员和教师ChristophSchuhmann,他今年早些时候表示,公开提供如此庞大的视觉数据库的部分原因是为了确保AI发展的未来不受少数强大公司的�
OpenAI最近宣布了DataPartnerships计划,旨在与第三方机构合作,创建用于AI模型训练的公共和私有数据集。这一举措旨在解决现有AI模型训练数据集中存在的问题,其中包含有毒语言和偏见。在克服数据集偏见等挑战方面,OpenAI是否能做得更好,仍有待验证。
OpenAI宣布将与合作伙伴共同生成用于训练AI模型的公共/私有数据集,以推动AI的未来发展并让更多组织从中受益。为了实现这一目标,OpenAI计划收集反映人类社会、涵盖不同语言、主题和格式的大量数据,并寻求合作伙伴的帮助以数字化并删除敏感信息。OpenAI表示,通过这些举措,旨在推动AI技术的进一步发展,并确保其造福全人类。
TogetherAI最近发布了RedPajamav2,这是一个庞大的在线数据集,包含了30万亿token,成为目前公开可用的最大数据集之一,专门用于学习型机器学习系统的培训。对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM,高质量的数据至关重要,但由于HTML到纯文本的转换引发的异常、通常质量较低的数据来源以及网络内容传播中固有的偏见,这些数据未经精细处理,不适合直接用于LLM的培训。这一工作将为LLM领域的研究和应用提供更多的有力数据支持。
GoogleAI最近推出了名为SANPO的数据集,旨在帮助AI模型更好地理解户外人类主观场景。这一数据集的重要性在于,它不仅包括真实世界的数据包括合成数据,以及丰富的注释和多属性特征。研究人员的隐私承诺使这一数据集能够支持其他研究人员开发面向视障人士的视觉导航系统,并推动先进的视觉场景理解领域的发展。
【新智元导读】4千个沙雕视频31万条鉴赏文本,让AI模型学习更准确的视频理解,反常识推理,幽默感,和准确的自由文本生成。人们很容易就能在反直觉视频中获得愉悦感,这吸引力不仅来自于视频对人类的视觉感官刺激,更来自于人类与生俱来的理解和发现快乐的能力,即能够理解并在出乎意料和反直觉的时刻找到乐趣。基于FunQA的算法大赛2023年7月,奖金100万美元的算法大赛FunQAChallenge正式开启报名。
美国艾伦人工智能研究所最近发布了一个名为Dolma的开源数据集,其包含了3万亿个token,这些词汇来自包括网络内容、学术出版物、代码和书籍等广泛的来源。Dolma是目前公开可用的同类数据集中最大的一个。它还应该最大限度地减少风险,尤其是那些可能影响个人的风险。
即使有许多公开的数据集,也缺乏足够的规模来训练最先进的模型。艾伦人工智能研究所的Dolma数据集旨在实现这一目标,以便研究人员能够在大规模上研究数据效应。未来的版本可能会扩展到其他语言,从满足不同语言背景下的研究需求。
反盗版组织成功要求在线盗版书籍资源库TheEye下线AI训练数据集"Books3"的事件。"Books3"数据集是一个大规模的盗版书籍资源,包含了37GB的文本,用于训练人工智能模型。Books1和Books2都占GPT-3训练数据的近15%。
开源数据集因侵权问题,惨遭下架。如LLaMA、GPT-J等,都用它训练过。所以也有声音调侃说,AI不仅带来了新的技术突破,也给反盗版组织带来了新任务。
艾伦人工智能研究所发布了名为Dolma的开放式文本数据集,旨在促进AI语言模型的透明度和创新。Dolma作为AI2开放式语言模型计划的核心,将为研究人员和开发者提供免费的数据资源,以支持更广泛的AI研究。用户可通过HuggingFace平台访问Dolma,这是一个对AI领域的积极重要的发展。
人工智能的发展引起了人们对于价值观对齐的关注。为了解决AI和人类价值观不一致的问题,天猫精灵和通义大模型联合团队联合一些专家和机构,共同发起了这样一个开源大模型治理项目——「给AI的100瓶毒药」。这项研究对于解决AI的人类价值观问题提供了重要的参考和思路。
今天SemiAnalysis的DylanPatel和GeraldWong发表了一篇题为《GPT-4Architecture,Infrastructure,TrainingDataset,Costs,Vision,MoE》的文章,揭示GPT-4的所有细节。文章中详细介绍了GPT-4的架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型等非常具体的参数和信息。架构肯定会发展到超越当前简化的基于文本的密集和/或MoE模型的阶段。
说到看体育比赛,内行看门道,外行看热闹。一场精彩的比赛,离不开一个好的解说员。标贝科技体育解说合成数据库语种:中文普通话,中英混合采集环境:专业录音棚,信噪比不低于35dB数据时长:8小时中文,2小时中英混录音语料:体育解说话术采样格式:无压缩PCMWAV格式采样率:48KHz24bit标注内容:音字校对,韵律校对,重音拖音,情感语气词适用领域:体育赛事解说,游戏解说欢迎对以上数据集感兴趣的行业伙伴联系我们~如果以上数据不能满足您当前的需求,标贝科技还可以针对特定人群、特定场景、特定语种提供相应的数据定制化服务,全力帮助企业客户得到满意的数据服务。
阿里巴巴旗下的天猫精灵与通义大模型团队联合多位领域学者和组织,推出了一个名为100PoisonMpts的大语言模型治理开源中文数据集,宣布十余位知名专家学者成为首批“给AI投100瓶毒药”的标注工程师。标注人各提出100个含有偏见和歧视回答的棘手问题,并标注出大型模型的回答,完成由AI"投毒"和"解毒"的攻防。100PoisonMpts数据集预计在6月份开放第一批问答数据�
在谷歌宣布生成式AI+Bard开启公测后,微软研究院首席研究员Kate+Crawford在社交媒体发布文章,质疑Bard的训练数据集调用了Gmail的数据。Crawford质疑谷歌为了训练AI,侵犯了所有使用Gmail用户的隐私。如果谷歌在Bard的训练集中加入了Gmail的数据,将对大量用户的个人隐私数据,甚至是企业的商业数据,造成泄露。
Facebook今天开源了一个数据集,旨在体现计算机视觉和音频机器学习模型中的年龄、性别和肤色偏见。该公司声称,这个语料库Casual Conversations,是第一个以付费者为主角的语料库,他们明确提供了自己的年龄和性别,而不是由第三方来标注这些信息或使用模型来估计。Casual Conversations包含3000名参与者的4100多段视频,其中一些来自Deepfake Detection Challenge,旨在通过加入 "明显 "肤色的标签来对抗这种偏见。Facebook表示,
作为教育科技的先行者,好未来近日开放了一批长达 587 小时教学场景中的中英文混合语音数据集。该数据集源自语种混合最具代表性场景之一——教师英语授课场景。好未来此次开放的数据集是迄今教育行业最大的语音开源数据集之一,也是目前已知全球较大的中英文混合场景开源数据集,有效填补了中英文混合语音识别研究的数据稀缺空白。 算法、算力、数据是人工智能技术发展的三大基石。一个AI模型从设计到训练,再到部署使用,整个过?
谷歌今天发布一个免费的、深度伪造视频大数据集来帮助研究人员更好的设计检测方法。该公司与科技孵化器Jigsaw合作开发了这个数据集,其中整合了“FaceForenesics Benchmark”项目,可以研究人员创造检测人工视频的技术。
腾讯AI Lab宣布将于 9 月底开源“Tencent ML-Images”项目,该项目由多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最高的深度残差网络ResNet- 101 构成。
随着语言与智能领域的新发展,由中国中文信息学会(CIPS)、中国计算机学会(CCF)和百度公司联手举办的“ 2018 机器阅读理解技术竞赛”将于 2018 年 3 月 1 日正式开启报名通道。报名地址及赛事详情请登录 2018 机器阅读理解技术竞赛官网http://mrc2018.cipsc.org.cn/。获胜团队将分享总额 10 万人民币的奖金,并将在第三届“语言与智能高峰论坛”上进行技术交流和颁奖。 机器阅读理解的任务就是让机器阅读文本,回答和阅读内容相关
懂场景者得AI短短一年多,全国已有197个AI大模型完成备案,行业大模型占比近70%。伴随这一快速增长的趋势,一个现实问题不容忽视,如果不能和普通商家的现实需求紧密结合,大模型体验再好,也无法帮助大模型厂商自动完成商业闭环:扎堆商场一楼的新能源车销量大不如前,如何让高昂租金的产出性价比更高?某大型服装厂的数据表累积超过3亿多行,如果提炼不出价值,就�
随着算力、数据库、大数据等底层技术的发展,大模型的建设与在各个领域的应用正在加速推进,那么,这些迹象是否预示着AGI正在到来?最先进的大模型技术又有哪些共同表现?回到国内,大模型当前的应用场景面临哪些挑战,应该如何解决?有哪些趋势和机遇值得创业者关注?为解答以上问题,近日,腾讯云TVPAI创变研讨会系列第二期「AI下半场,探创新与应用风向」在深圳腾讯滨海大厦举行,邀请多位AI领域资深专家进行前沿分享,并特别设置了全场嘉宾的深度分组脑暴,现场思维火花碰撞,精彩观点迸发。在《通用人工智能的现在与未来》主题演讲中,达观数据副总裁、腾讯云TVP王文广首先追溯了从神经网络概念的最初提出,到如今这一技术在大模型上的延续。在本次TVPAI创新研讨会上,无论是嘉宾演讲还是线下讨论,都会在技术之上加入对AGI的社会性思考和哲学思辨,这也是本次活动的超预期收获。
随着ChatGPT、Copliot等生成式AI产品的快速迭代,对训练数据的需求呈指数级增长,同时也是提升大模型性能的关键环节之一。为了解决训练数据短缺和质量差的难题,微软研究院发布了一个专门用于生成高质量合成数据的的AIAgent——AgentInstruct。Orca-3在多项指标上也超越了LLAMA-8B-instruct和GPT-3.5-turbo等其他模型。
9月5日,2024Inclusion·外滩大会正式开幕。作为全球金融科技与前沿科技的顶级对话平台,大会聚集10余位享有盛誉的中外院士、500多位行业领军人物莅临现场。