智源研究院开源代码生成训练数据集与评测基准TACO

2023-12-25 14:06 · 稿源：站长之家

站长之家(ChinaZ.com) 12月25日消息:TACO 是一个专注于算法的代码生成数据集，旨在为代码生成模型提供更具挑战性的训练数据集和评测基准。

与当前主流代码评测基准相比，TACO 在数据规模、数据质量和细粒度评测方案上具有明显优势。它包括更大规模的训练集和测试集，每个题目都具备多样化的解题答案，并提供了细粒度的标签，如任务主题、算法、编程技能和难度等级。

实验结果表明，当前流行的代码生成模型在 TACO 评测中与 GPT-4存在显著差异，说明这一领域仍有巨大的提升空间。

TACO 数据集不仅提供了一个挑战性的测试方法，还能作为研究和改进模型性能的训练数据。通过社区的共同努力，可以激发更多创新的解决方案，进一步推动代码生成领域的发展。

微信截图_20231225140816.png

具体特性如下：

规模更大:TACO 包括训练集（25443道题目）和测试集(1000道题目)，是当前规模最大的代码生成数据集。
质量更高:TACO 数据集中的每个题目都尽可能匹配多样化的解题答案，答案规模高达155万条，确保训练时模型不易过拟合以及评测结果的有效性。
提供细粒度标签:TACO数据集中每个题目均包含任务主题、算法、技能及难度等细粒度标签，为代码生成模型的训练与评测更精确的参考。

TACO 开源地址：

论文:https://arxiv.org/abs/2312.14852
智源开放数据仓库:https://data.baai.ac.cn/details/BAAI-TACO
GitHub:https://github.com/FlagOpen/TACO
Hugging Face:https://huggingface.co/datasets/BAAI/TACO

新鲜AI产品点击了解：https://top.aibase.com/

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

MetaAI研究人员今天发布了OpenEQA，这是一个新的开源基准数据集，旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界，从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准，其中包含超过1，600个关于180多个真实环境的问题。为了衡量人工智能代理的性能，研究人员使用大型语言模型自动评分，衡量人工智能生成的答案与人类答案的相似程度。

Meta OpenEQA AI头条
荐AI日报：天工SkyMusic开启公测；UP主用AI技术“复活”巨人族；通义千问开源代码模型CodeQwen1.5；免费AI音乐生成工具Sonauto

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/昆仑万维「天工3.0」与「天工SkyMusic」音乐大模型开启公测昆仑万维推出的「天工3.0」和「天工SkyMusic」音乐大模型开启公测，彰显了其在AI领域的技术实力和创新能力。亮点提要:⭐3

天工SkyMusic
CodeGemma官网体验入口谷歌AI代码生成辅助工具使用地址

CodeGemma是谷歌公司推出的先进大语言模型，专注于生成代码、理解和追踪指令，旨在为全球开发人员提供高质量的代码辅助工具。包括20亿参数的基础模型，70亿参数的基础模型和用于指导追踪的70亿参数模型，针对代码开发场景进行优化和微调。要获取更多详细信息并开始体验高质量的代码辅助工具，请访问CodeGemma官方网站。

CodeGemma
Pile-T5官网体验入口 AI编程代码生成辅助工具下载使用地址

Pile-T5是EleutherAI推出的一款自然语言处理模型，它在原有的T5模型基础上，采用了Pile数据集和LLAMA分词器进行训练，以改善对代码任务的理解能力。该模型经过了2万亿个token的训练，是原T5模型训练量的两倍。欢迎前往Pile-T5官网了解更多详情。

Pile-T5
纽约时报指责OpenAI、谷歌和Meta绕过法律边界进行AI训练数据

OpenAI、谷歌和Meta被指控在训练人工智能模型时存在不当行为。纽约时报的报告指出，OpenAI使用名为Whisper的语音识别工具从YouTube视频中转录音频，并据称OpenAI员工曾讨论这一行为可能违反视频网站的规则。纽约时报的报道引起了关于AI公司训练数据的合法性和道德性的讨论，也凸显了AI行业在数据获取方面面临的挑战和争议。

OpenAI AI训练 AI头条
荐AI日报：北大开源最强aiXcoder-7B代码大模型；OpenAI创始大神手搓千行C代码训练GPT；Stability AI图像模型竟能精细到这程度；在Vercel上一键部署Morphic

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

aiXcoder-7B
蚂蚁集团CodeFuse 发布“图生代码”功能，支持产品设计图一键生成代码

4月11日，蚂蚁集团自研的智能研发平台CodeFuse推出“图生代码”新功能，支持开发人员用产品设计图一键生成代码，大幅提升前端页面的开发效率。目前相关功能正在内测。“AI目前主要集中在辅助编程，要从copilot走向co-worker，实现整个研发生命周期的智能化、自动化有很长的路要走。

AI编程智能研发平台代码生成
通义千问开源基于Qwen1.5的代码模型CodeQwen1.5

通义千问昨晚开源了基于Qwen1.5的代码模型CodeQwen1.5，这是一个基于Qwen语言模型的代码专家模型。CodeQwen1.5拥有7B参数，采用GQA架构，经过约3Ttokens代码数据的预训练，支持92种编程语言，并且能够处理最长64K的上下文输入。开源社区对CodeQwen1.5的发布充满期待，希望它在代码助手、CodeAgent等方面为社区做出贡献，并在未来的代码智能建设中发挥重要作用，实现真正的AI程序员。

通义千问 CodeQwen1.5 AI头条
AI漫画自动生成器Al Comic Factory 支持批量生成不同语言的漫画

AlComicFactory是一个独特的项目，它运用先进的技术自动生成具有情感和故事性的漫画内容。这个项目的核心是大型语言模型和SDXL技术，它们共同工作，根据用户提供的简单文本提示，自动创建出包含人物对话和场景描述的漫画。无论你是漫画创作者是只是想为你的创意添加视觉元素，AlComicFactory都能为你提供帮助。

AI漫画 AI头条
北大开源最强aiXcoder-7B代码大模型专为企业级软件开发场景设计

在当今科技快速发展的时代，AI代码生成技术正逐渐成为软件开发领域的热门话题。尽管AI在解决编程问题方面表现出色，但在真实的企业开发环境中，其应用似乎还不够理想。随着代码大模型能力的日益增强，我们有理由相信，aiXcoder-7B将为程序员们带来更多的创新潜能，推动编程自动化的浪潮向前发展。

aiXcoder-7B AI头条

SafeSpeak:保护个人和企业，实时检测电话诈骗攻击

SafeSpeak是一款使用先进AI技术，实时准确检测电话诈骗攻击的产品。它能够保护个人和企业免受电话诈骗的侵害，并提供及时的安全警报。SafeSpeak的主要优点是高准确率和实时检测，能够有效地阻止电话诈骗。该产品定位于帮助个人和企业提高电话安全，避免财产损失和个人信息泄露。

电话诈骗安全 AI

Magifind:智能网站搜索工具

Magifind是一款智能网站搜索工具，利用先进的人工智能和自然语言处理技术，能够准确理解用户搜索的意图，提供高度相关的搜索结果。它能够提升用户体验，提高在线零售转化率，并能够帮助用户快速找到他们想要的产品。

智能搜索人工智能自然语言处理

Handwriting OCR:将手写笔记、表格、文件等转换为数字文本，使用我们基于人工智能的OCR引擎，无与伦比的准确性。

手写文字转换为文本的最准确工具，采用人工智能技术，能够将各种难以辨认的手写文字转换为数字文本，大大节省了编辑时间，提高了工作效率。产品的主要优点是准确性高、速度快，可适用于各种手写文本的转换需求。价格灵活，可按页收费或订阅。

OCR 手写文字转换数字文本

Intrvu Space:全自动AI面试代理，实现端到端自动化面试，包括面试流程、评估报告、自动审批等功能。

Intrvu SPACE是一款端到端自动化面试平台，通过自动化面试流程，评估报告和自动审批等功能，简化了面试流程。它提供了标准化的面试，与职位描述相匹配，为招聘决策提供了全面的评估报告。Intrvu SPACE还支持与候选人的无缝沟通，提高了候选人评估和选择的效率。

招聘面试候选人评估

NoteButler:是一个可以在Notion中使PDF文档具有搜索功能的工具。

NoteButler通过自动将PDF转换为文本，并在同一页添加AI摘要，使得在Notion中的PDF文档具有搜索功能。它能够提供OCR功能，并添加AI摘要，让那些通常无法在Notion中搜索的内容变得可搜索和可访问。

生产力 PDF 搜索

The Grok App:全球首个文档搜索平台

Grok是一款AI驱动的文档搜索平台，能够帮助用户上传并分析各种格式的文档。通过深入剖析文档内容，Grok可以揭示文档中隐藏的模式、趋势和关联，为用户提供全面的理解。用户可以向AI提问具体细节，观察智能算法提取相关见解，并给出简明答案。此外，Grok还支持使用AI解释复杂的代码库。Grok可以帮助用户找到文档中重要的功能或技术，并强调其主要优点和背景信息，定位和价格等。

文档搜索 AI分析代码解释

ChatGPT Online ChatGPTXOnline:ChatGPT Online是一个无需注册或登录即可直接通过网络浏览器访问的ChatGPT版本。它允许您与AI助手进行互动式聊天，无需安装任何额外的软件。

ChatGPT Online是一个无需注册或登录即可直接通过网络浏览器访问的ChatGPT版本。它基于OpenAI的GPT-3和GPT-4技术，具有自然语言处理和生成能力，可以与用户进行各种主题的自然对话。它是一个强大的AI助手，可以用于客户支持、学习支持、内容创作等领域。

聊天人工智能语言模型

Model Muse AI:虚拟时尚模特为电子商务服装品牌展示。

Model Muse是一个为电子商务服装品牌提供虚拟时尚模特的平台。它利用最新的人工智能图像生成技术，为品牌创造独特的模特形象，以代替传统高成本的拍摄。该平台可以轻松定制模特的特征，使其成为品牌的真实声音。

时尚电子商务模特

Astrology Book:通过占星阅读、星座和出生图解开宇宙的奥秘，获得自我认知。

Astrology Book是一本通过ChatGPT提供占星阅读的网站。它利用星座和出生图来揭示宇宙的奥秘，并帮助人们获得关于自己的更多了解。该产品的主要优点是提供个性化的占星阅读，让人们深入了解自己的性格、特点和潜能。它的定位是为个人提供心灵成长和自我探索的工具。

占星学心灵成长自我探索

IdeaPicker:用AI扫描Reddit帖子，找到人们的痛点。来自真实人们的真实痛点！

IdeaPicker是一款用于生成创业点子的AI工具。我们通过扫描Reddit寻找痛点，从真实人们身上找到真实痛点。我们发现问题，然后AI为这些问题提供可以解决的创业点子。无论你是创业者还是寻找新创意的企业，我们都为你提供了解决方案。从我们的周报中获取挑选好的创业点子。

创业 AI Reddit

Chinese Feng Shui Online Calculator:我们提供集成AI智能分析的中国风水在线计算工具，包括中国风水计算、易经占卜和八字算命服务。我们的先进技术提供准确的结果。

我们提供集成AI智能分析的中国风水在线计算工具，包括中国风水计算、易经占卜和八字算命服务。我们的先进技术提供准确的结果。该工具能够帮助优化您的生活或商业环境，提升财富和幸福感。它通过准确预测中国风水能量来提供帮助。

风水易经八字算命

Menusso:是一个完整的餐厅菜单系统，可在仪表板上管理您的餐厅菜单。

Menusso是一个帮助餐厅管理菜单的应用程序。它具有多语言翻译功能，可提供15种语言的翻译服务。Menusso使餐厅能够轻松管理菜单，并提供了一些主要优点，如背景信息、价格和定位等。

餐厅菜单管理多语言翻译

Sponsor Stream:找到与你的YouTube频道相关的赞助商，让你的收入更多，不再等待。

Sponsor Stream是一个帮助YouTube频道找到赞助商的平台。它可以帮助用户省去繁琐的寻找赞助商的过程，通过AI搜索算法提供与用户频道相关的赞助商列表。这个平台可以节省用户大量的时间和精力，提高与赞助商联系的效率。

赞助商 YouTube频道广告合作

Psychpedia:300位更加自我认知的用户，学习心理学知识和自我提升，获取教育性和指导性的心理学内容，跟踪最新事件，并通过正念实践来发现自我。

Psychpedia是一个心理学和自我提升的学习平台。它提供AI支持的多样化心理学课程，涵盖各种层次，价格便宜且实惠。用户可以通过阅读每日更新的文章、查看心理学期刊、浏览工作机会和活动等来保持最新动态。平台还提供情绪跟踪工具，帮助用户记录和分析情绪模式，增加自我认知。

心理学自我提升教育

SpamCheck.ai:使用SpamCheckAI保护您的内容，有效防止垃圾信息。

SpamCheckAI是一款专为防垃圾信息而设计的免费形式JSON API，提供IP过滤、内容分析和电子邮件验证等功能。它可以帮助您识别和阻止垃圾信息，并提供全面的数据分析，让您做出明智的决策。

防垃圾信息 IP过滤内容分析

Humanizer AI:AI Humanizer是一个工具，可以将AI生成的文本转换为类似人类的文本，绕过所有AI检测器，产生出色的人类质量评分。

AI Humanizer是一个工具，可以将AI生成的文本转换为类似人类的文本，绕过所有AI检测器，产生出色的人类质量评分。它创建高质量、真实的内容。

AI Humanizer AI检测 AI生成的文本

ColdCraft:帮助您打造个性化、有效的冷邮件，节省时间并提高回复率。

ColdCraft是一个AI平台，可以帮助您将简单的要点和LinkedIn个人资料转化为有效的冷邮件。它可以节省时间并提高回复率。该插件可以直接在Gmail中将要点转化为完整的冷邮件，并可以从LinkedIn个人资料直接撰写和发送电子邮件。

冷邮件个性化有效

nexai:Nexai是一个AI聊天机器人，可以帮助您进行搜索、提供信息和回答问题。

Nexai是一个基于人工智能的聊天机器人，它可以通过自然语言处理技术理解用户的问题并提供相关信息。它具有快速、准确的搜索能力，可以回答各种问题，并提供实用的建议和指导。Nexai还可以进行智能对话，与用户进行交流和互动。

AI 聊天机器人搜索

Inboxly AI:Inboxly是一个AI邮箱，带有内置的AI助手，可从所有平台整理、优先处理和回复邮件，让您不再错过有价值的新机会。

Inboxly是一个AI邮箱，可以帮助用户整理、优先处理和回复来自各个平台的邮件。它的主要优点是提高工作效率、节省时间和保护隐私。Inboxly适用于个人和小型企业，提供AI助手、自动回复、智能过滤等功能。它是一个具有高影响力的低成本解决方案。

AI邮箱工作效率时间管理

Truva:AI是一款AI助手，为您的应用提供新的工作方式。超越点击，在聊天中完成任务等更多操作。让您的应用从您身上学习，并随着时间的推移变得更好。

TruvaAI是一款AI助手，为软件平台提供智能导航和自动化操作功能，帮助用户更轻松地使用应用程序。通过TruvaAI，用户可以快速定位到正确的工具、功能和信息，并且还可以代表用户执行操作。TruvaAI不仅提高了用户的NPS，还为每个用户提供了个人账户经理的体验，实时可用。TruvaAI还能够根据用户的反馈和行为学习，不断改进自身。

智源研究院开源代码生成训练数据集与评测基准TACO

今日大家都在搜的词：

热文

站长商机