11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
出门问问宣布,将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集,命名为“序列猴子开源数据集1.0”。作为出门问问的核心技术之一,具备强大的通用表示与推理能力,已在问答系统、自然语言处理、机器翻译、文本摘要等多个领域展现出其卓越的性能,极大地提高了生产效率和数据处理能力。开源数据集的发布将促进学术交流与合作,加速相关领域的创新步伐。
英伟达最近宣布了NVIDIANeMoSteerLM技术作为英伟达NeMo框架的一部分。这项技术使用户能够在推断过程中控制大型语言模型的响应。这个新的开源数据集为开发人员提供了一个有用的工具,帮助他们更好地理解和应用NVIDIANeMo框架中的SteerLM技术。
说到科技圈的近期新闻,没有比小马和小扎约架这件事更热闹的八卦话题了。马斯克直播了自己上门寻找扎克伯格的过程。想要了解数据集的更多细节,请参考OpenDriveLab发布在Github上的DriveLM演示数据。
美国艾伦人工智能研究所最近发布了一个名为Dolma的开源数据集,其包含了3万亿个token,这些词汇来自包括网络内容、学术出版物、代码和书籍等广泛的来源。Dolma是目前公开可用的同类数据集中最大的一个。它还应该最大限度地减少风险,尤其是那些可能影响个人的风险。
开源数据集因侵权问题,惨遭下架。如LLaMA、GPT-J等,都用它训练过。所以也有声音调侃说,AI不仅带来了新的技术突破,也给反盗版组织带来了新任务。
阿里巴巴旗下的天猫精灵与通义大模型团队联合多位领域学者和组织,推出了一个名为100PoisonMpts的大语言模型治理开源中文数据集,宣布十余位知名专家学者成为首批“给AI投100瓶毒药”的标注工程师。标注人各提出100个含有偏见和歧视回答的棘手问题,并标注出大型模型的回答,完成由AI"投毒"和"解毒"的攻防。100PoisonMpts数据集预计在6月份开放第一批问答数据�