首页 > 关键词 > 开源数据最新资讯
开源数据

开源数据

出门问问宣布,将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集,命名为“序列猴子开源数据集1.0”。作为出门问问的核心技术之一,具备强大的通用表示与推理能力,已在问答系统、自然语言处理、机器翻译、文本摘要等多个领域展现出其卓越的性能,极大地提高了生产效率和数据处理能力。开源数据集的发布将促进学术交流与合作,加速相关领域的创新步伐。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅提供资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

与“开源数据”的相关热搜词:

相关“开源数据” 的资讯20493篇

  • 出门问问开放大模型“序列猴子”开源数据集

    出门问问宣布,将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集,命名为“序列猴子开源数据集1.0”。作为出门问问的核心技术之一,具备强大的通用表示与推理能力,已在问答系统、自然语言处理、机器翻译、文本摘要等多个领域展现出其卓越的性能,极大地提高了生产效率和数据处理能力。开源数据集的发布将促进学术交流与合作,加速相关领域的创新步伐。

  • 阿里云免费开源数据库AI算法PilotScope

    现有的数据库系统非常复杂,要求非常稳定,即使将单一的AI算法与数据库进行匹配调试,也需要工程师们数周甚至数月的紧密配合,效率低下,效果不佳,导致业界迟迟无法将AI算法应用到数据库中。为了解决这个问题,阿里云提出了PilotScope,通过在数据库和AI系统级别的抽象和通用化模块及接口定义,开发出一个全新的中间件系统平台,实现了AI算法在数据库中的“一键部�

  • 英伟达发布HelpSteer:一个用于构建有用LLM的开源数据集

    英伟达最近宣布了NVIDIANeMoSteerLM技术作为英伟达NeMo框架的一部分。这项技术使用户能够在推断过程中控制大型语言模型的响应。这个新的开源数据集为开发人员提供了一个有用的工具,帮助他们更好地理解和应用NVIDIANeMo框架中的SteerLM技术。

  • 《开源数据库生态发展研究报告》发布 GreatSQL为MySQL5.7最佳替代方案!

    随着数字化转型深入推进和数据量的爆炸式增长,行业应用对数据库的需求变化推动数据库技术加速创新。数据库作为数字经济基础底座,连接上层应用和底层基础资源,在数字经济时代展现出巨大的价值和潜能。四、国内开源数据库产业展望最后,针对我国MySQL技术路线开源数据库产业发展,报告进行以下展望:1、开源数据库发展应符合开源生态建设及产业引领要求,积极参与完善开源产业治理;2、加强相关方对开源协议认知,合法合规利用开源协议;3、利用国内MySQL现有技术生态,结合产业需求,加强独立演进开源分支的能力;4、大力推进开源数据库技术规范化、智能化发展。

  • 大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了

    说到科技圈的近期新闻,没有比小马和小扎约架这件事更热闹的八卦话题了。马斯克直播了自己上门寻找扎克伯格的过程。想要了解数据集的更多细节,请参考OpenDriveLab发布在Github上的DriveLM演示数据。

  • AI2发布大语言模型开源数据集Dolma 包含3万亿个token

    美国艾伦人工智能研究所最近发布了一个名为Dolma的开源数据集,其包含了3万亿个token,这些词汇来自包括网络内容、学术出版物、代码和书籍等广泛的来源。Dolma是目前公开可用的同类数据集中最大的一个。它还应该最大限度地减少风险,尤其是那些可能影响个人的风险。

  • LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集

    开源数据集因侵权问题,惨遭下架。如LLaMA、GPT-J等,都用它训练过。所以也有声音调侃说,AI不仅带来了新的技术突破,也给反盗版组织带来了新任务。

  • 阿里天猫精灵推出AI治理开源数据集 预计在6月份开放第一批问答数据

    阿里巴巴旗下的天猫精灵与通义大模型团队联合多位领域学者和组织,推出了一个名为100PoisonMpts的大语言模型治理开源中文数据集,宣布十余位知名专家学者成为首批“给AI投100瓶毒药”的标注工程师。标注人各提出100个含有偏见和歧视回答的棘手问题,并标注出大型模型的回答,完成由AI"投毒"和"解毒"的攻防。100PoisonMpts数据集预计在6月份开放第一批问答数据�

  • 刷机时代结束,魔趣 ROM 宣告所有开源数据已删除

    国内最大的安卓开源系统魔趣ROM创始人@马丁龙猪宣布停止更新魔趣项目,目前所有数据均已被删除,网站、社区也已无法访问。魔趣开源项目前身为MartinCZ在ITFunz摩托罗拉手机论坛上推出的魔趣OS,是基于AOSP二次开发的一个Android分支版本,是国内首个完整开源的Android项目。我自己也过了刷机的年纪,想问问各位读者,你有多久没有刷机了?

  • 开源数据库大热,“石原子们”的机会来了

    对此,作为一个初创公司即大力投入开源的石原子CEO叶建林表示,开源的价值,包含两个层面的意思:一是开源软件对企业发展的助益,二是企业对形成良好开源生态的反哺...具体到数量,美国开源数据库为 107 个,商用数据库产品 116 个,比较均衡;但中国开源数据库为146,商用数据库仅为 29 个......

  • 某军校特邀摄星智能CAO做人工智能专题讲学:开源数据支撑下的人物与装备分析

    基于开源互联网数据,融汇贯穿泛军事、全球化、全链路、多模态、多语言的开源信息,综合运用人工智能和大数据技术,实现了智能数据采集、深度知识挖掘、多模态情报分析、智能态势感知和辅助决策等能力,为互联网上的广大军事爱好者、军工从业人员、现役军人以及其它用户群体,提供军事动态实时推送、目标图像精准识别、人物/装备一点链网、军事文献深析汇聚、军事知识综合检索等功能和服务......

  • 开源数据库软件制造商MariaDB寻求通过SPAC在纽交所上市

    来自芬兰的开源数据库软件制造商 MariaDB,刚刚完成了 1.04 亿美元的 D 轮私募融资。与此同时,该公司正打算通过 SPAC 的方式,与特殊目的收购企业 Angel Pond Holdings 后,于纽约证券交易所公开上市。届时该公司将披上 MariaDB plc 的名称,并由现任首席执行官 Michael Howard 负责领导职务。(来自:MariaDB) Tech.EU 预计这项 SPAC 合并可于 2022 财年下半年敲定,并且符合成交的既定条件,包括拿到美国证券交易委员会(SEC)和纽交所(NYSE)的批准。 当前 MariaDB 的投资者中包括了英特尔资本、阿里巴巴集团、欧洲投资银行、Runa C

  • 人大金仓KINGBASE数据库与主流开源数据库性能实测

    近年来,人大金仓的数据库产品受到了外界诸多的关注。做产品,免不了要接受用户的对比和选择,数据库因其行业的自身特点,还有很多开源的技术产品同台比拼,用户因此也会产生诸多疑问,国产数据库相比开源数据库到底如何,今天我们选择数据库的一项核心能力——性能,将金仓KingbaseES和目前业界主流的两种开源数据库MySQL、PostgreSQL进行该能力层面的对比,以期为用户创造更丰富、公平的视角来解读国产数据库当前的发展现状。为?

  • 华为开源数据虚拟化引擎openLooKeng:统一SQL接口

    华为在开源软件上又迈出了坚定一步,正式宣布开源数据虚拟化引擎openLooKeng,开源社区官网(https://openlookeng.io)同步上线。openLooKeng致力于为大数据用户提供极简的数据分析体验,让用户

  • 华为开源数据库能力 开放openGauss数据库源代码

    今日,华为正式宣布开源数据库能力,开放openGauss数据库源代码,并成立openGauss开源社区,社区官网(opengauss.org)同步上线。

  • 苹果加入开源数据传输项目 Data Transfer Project

    苹果加入了开源数据传输项目 Data Transfer Project。该项目 2018 年上线,旨在创建一个开源的服务到服务数据可移植平台,以便其网站用户和其他人可以轻松将数据从一个平台迁移到另一个平台。

  • 华为云成开源数据库专业委员会首批会员

    日前,由中国计算机行业协会开源数据库专业委员会(以下简称:“专委会”)和中国MySQL/MariaDB用户组联合举办的“2018 ACMUG全球年会”在CNTV多功能演播厅顺利举行。专委会为首批会员单位颁发会员牌照,华为云获副会长单位授牌。双方将通力合作推进国产数据库发展,从不同视角剖析中国开源数据库发展路径,共同探寻新时代背景下开源数据库产业的创新变革之路。中国计算机行业协会是我国信息产业具有权威性的民间社团之一,协会注册会员共?

  • RadonDB亮相3306π技术沙龙 深度解读开源数据库核心技术

    日前,「3306π」上海站成功落下帷幕,青云QingCloud数据库高级技术专家张雁飞出席并发表了《开源分布式数据库RadonDB的核心技术与实现》的主题演讲,从数据库架构、分布式执行、高可靠、高可用等角度,结合开源代码深度解析了RadonDB的核心技术与实现。「3306π」社区主要围绕 MySQL 核心技术,将互联网行业中最重要的数据化解决方案带到传统行业中,还囊括其他开源技术,如Redis、MongoDB、HBase、Hadoop、Elasticsearch、Storm?

  • 谷歌将告别MySQL移步至MariaDB开源数据库

    据外媒报道,近日,谷歌高级系统工程师对其数据库MySQL生态系统现状的展示中显示,谷歌开源数据库已大部分由MySQL迁移至MariaDB,这是MySQL被Oracle收购后又一次被重量级用户抛弃。

  • MySQL倒下了 开源数据库发展或将很受伤

    MySQL被称为是“最受欢迎的开源数据库”,如今,它的命运却取决于Oracle与Sun并购案的结果。有消息说,正在调查该交易的欧盟委员会将在11月19日做出是否批准该交易的决定。2008年2月被Sun以10亿美元收购的MySQL,前路仍然难料。

  • Sun宣布扩大与MySQL开源数据库互操作性

    4月24日消息 Sun近日宣布,将扩大其身份管理组件与MySQL开源数据库之间的互操作性。公司称,此举能够降低公司的运作成本,同时还能增强数据库的功能。

  • 我们开源啦!一键部署免费使用!Kubernetes上直接运行大数据平台!

    导语:市场上首个K8s上的大数据平台,开源了!智领云自主研发的首个完全基于Kubernetes的容器化大数据平台KubernetesDataPlatform开源啦!开发者只要准备好命令行工具,一键部署Hadoop,Hive,Spark,Kafka,Flink,MinIO...就可以创建以前要花几十万甚至几百万才可以买到的大数据平台无需再花大量的时间和经费去做重复的研发高度集成,单机即可体验大数据平台在高级安装模式下用户可在现有的K8s集群上集成运行大数据组件不用额外单独建设大数据集群项目地址:https://github.com/linktimecloud/kubernetes-data-platform辛辛苦苦研究出来的成果,为什么要开源?这波格局开大,老板有话说问题1:我们为什么要开源?我们的产品一直是基于大数据开源生态体系建设的。之前就一直有开源回馈社区的计划,但是因为之前Kubernetes对于大数据组件的支持还不够成熟,我们也一直在迭代与Kubernetes的适配。贡献参考开发者指南,了解如何开发及贡献KDP。

  • Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

    MetaAI研究人员今天发布了OpenEQA,这是一个新的开源基准数据集,旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界,从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准,其中包含超过1,600个关于180多个真实环境的问题。为了衡量人工智能代理的性能,研究人员使用大型语言模型自动评分,衡量人工智能生成的答案与人类答案的相似程度。

  • 击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

    OpenAI给广大用户发放福利,在下场修复GPT-4变懒的问题后顺道上新了5个新模型,其中就包括更小且高效的text-embedding-3-small嵌入模型。嵌入是表示自然语言或代码等内容中概念的数字序列。要获得访问权限,用户需要先创建NomicAtlas帐户并按照contrastors存储库中的说明进行操作。

  • 史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训

    语言模型一直是自然语言处理技术的核心,考虑到模型背后的巨大商业价值,最大最先进的模型的技术细节都是不公开的。真·完全开源的大模型来了!来自艾伦人工智能研究所、华盛顿大学、耶鲁大学、纽约大学和卡内基梅隆大学的研究人员,联合发表了一项足以载入AI开源社区史册的工作——他们几乎将从零开始训练一个大模型过程中的一切数据和资料都开源了!论文:https://allenai.org/olmo/olmo-paper.pdf权重:https://huggingface.co/allenai/OLMo-7B代码:https://github.com/allenai/OLMo数据:https://huggingface.co/datasets/allenai/dolma评估:https://github.com/allenai/OLMo-Eval适配:https://github.com/allenai/open-instruct具体来说,艾伦人工智能研究所推出的这个开放大语言模型实验和训练平台,则提供了一个完全开源的大模型,以及所有和训练开发这个模型有关的数据和技术细节——训练和建模:它包括完整的模型权重、训练代码、训练日志、消融研究、训练指标和推理代码。她对机器学习的技术和认知科学的理论的融合应用充满了热情。

  • Allen人工智能研究所推开源模型LLM OLMo 提供模型数据、训练代码等

    Allen人工智能研究机构在HuggingFace和GitHub上发布了首个开放语言模型OLMo,意在通过提供数据、代码、模型和评估工具的开放访问,促进人工智能领域的共同研究。这一举措的首批模型包括7B和1B规模的变体,覆盖不同架构和训练硬件,为未来更大规模、指令调整等模型的发布奠定基础。通过提供权重的开放访问,并鼓励合作,Allen致力于共同构建全球最卓越的开放语言模型,助力人工智能技术的进步。

  • 卡内基大学开源TOFU框架,帮助大模型遗忘隐私数据

    TOFU框架是一个旨在提升大模型安全性的工具,由卡内基梅隆大学研究人员开发。该框架包含遗忘、数据集、评估等多个模块,帮助开发者提升大模型的安全性。这一框架的开源将为整个领域的发展带来新的动力和方向。

  • 快手Kwai Agents系统、模型、数据全部开源

    7B的模型也能玩转AIAgents了?快手开源了KwaiAgents,亲测发现,问它周末滑雪问题,它不但能帮你找到场地,连当天的天气都帮你考虑周到了。快手技术人员表示,AIAgents是一条非常有潜力的道路,未来一方面会在这个方向持之以恒地沉淀核心技术,并为整个社区不断地注入新的活力;另一方面,也会积极探索Agents技术与快手业务的结合,尝试更多有趣、有价值的创新应用落地。

  • Hugging Face:2023开源LLM大爆发,数据竞赛已开启!

    2023年的LLM开源社区都发生了什么?来自HuggingFace的研究员带你回顾并重新认识开源LLM2023年的大语言模型,让几乎所有人都燃起了热情。现在大多数人都知道LLM是什么,以及可以做什么。常用的方法包括bitsandbytes、GPTQ和AWQ。

  • 智源研究院开源代码生成训练数据集与评测基准TACO

    TACO是一个专注于算法的代码生成数据集,旨在为代码生成模型提供更具挑战性的训练数据集和评测基准。与当前主流代码评测基准相比,TACO在数据规模、数据质量和细粒度评测方案上具有明显优势。提供细粒度标签:TACO数据集中每个题目均包含任务主题、算法、技能及难度等细粒度标签,为代码生成模型的训练与评测更精确的参考。

热文

  • 3 天
  • 7天