11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
近几个月来,大型语言模型在人工智能社区中引起了极大的关注和流行。这些模型在文本摘要、问答、代码完成、内容生成等任务中展示出了强大的能力。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性,这种方法提供了一种可能的前进方式。
5月21日,2023祥符创新论坛转化医学产业高峰论坛在浙江嘉善举办。上海人工智能研究院、祥符实验室、转化医学国家科学中心联合重磅发布全国首个DNA存储领域预训练大模型“ChatDNA”。会上还围绕精准医学及生命科学前沿热点问题,诊断技术、基因测序、DNA存储、医学人工智能、生物材料及药物研发等前沿领域的最新进展,共同探讨当前转化医学产业的发展现状,分析热点和难点,分享实践经验和创新思路,推动医学产业的健康发展。
天翼云科技有限公司在2023云生态大会上表示,天翼云正在自主研发预训练大模型,目前已经进入内部测试阶段,将在近期适当的时候发布。天翼云科技有限公司,是中国电信子公司。天翼云是中国电信旗下云计算品牌,2016年,天翼云发布天翼云3.0。
谷歌AI研究团队最近提出了SpatialVLM,这是一种旨在增强视觉语言模型空间推理能力的创新系统。尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展,但它们在空间推理方面仍存在显著局限。-SpatialVLM的开发标志着人工智能技术的重大进步。
智源研究院提出了首个用于自然语言理解任务的1bit轻量化预训练模型BiPFT。与传统的FP32模型相比,BiPFT模型在推理阶段显著减少了操作数量和内存使用。该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。
开源大模型社区HuggingFace公布了最新的开源大模型排行榜,通义千问在预训练模型类别中脱颖出,占据榜首位置。HuggingFace开源大模型排行榜涵盖了全球上百个顶尖的开源大模型,并从阅读理解、逻辑推理、数学计算、事实问答等六个维度进行了全面评估。阿里云开源通义千问720亿参数模型。
最新研究警告,大型模型在基准评估中可能面临潜在危害,原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。对于未来的研究,需要进一步探讨不同程度的数据泄露对模型性能的影响,并在预训练中引入数据泄露进行更深入的模拟测试。
ULTRA是一个旨在推理知识图谱的预训练基础模型。ULTRA的关键创新在于它能够学习通用和可迁移的图表示无需依赖文本信息。ULTRA的通用性和可迁移性使其成为归纳和可迁移的知识图谱推理的有望选择,对于各种不同关系结构的新KGs都能表现出色。
科技公司戴尔发布了一款名为“DellValidatedDesignforGenerativeAIwithNVIDIAforModelCustomization”的生成式人工智能工具,旨在帮助企业从数据中提取智能。这一工具的特点在于提供了预训练的模型,用户无需从头开始构建模型,即可快速提取数据中的智能信息。生成式AI模型的定制和微调可以帮助企业更好地利用其数据资源,实现更高效的工作流程和更准确的决策。
陈丹琦团队近期发布了一项重要的研究成果,他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本,同时保持着SOTA水平的性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。
StableSR是一种创新性的AI方法,旨在通过利用预训练扩散模型的威力来增强超分辨率任务。传统的SR方法通常需要大量的计算资源来从头开始训练扩散模型,这可能会损害它们的生成先验知识。通过利用预训练的扩散模型并结合创新技术,如时间感知编码器、可控特征包装模块和渐进聚合采样策略,StableSR为将扩散先验知识应用于图像恢复任务的未来研究提供了坚实的基础。
微软研究人员最近在一篇论文中提出了一个新的语言模型Phi-1.5,该模型的参数量仅有13亿。研究人员主要关注Phi-1.5在常识推理方面的表现,因为这是对语言模型能力的重要考验。本研究表明,相比单纯追求模型规模,如何获取高质量训练数据可能更为重要,这为未来语言模型研究提供了新的思路。
随着语言和技术交叉的日益增多,对多功能和强大语言模型的需求也越来越大。传统的大型语言模型在文本理解或编码任务方面表现出色,但很少能够在两者之间达到平衡。有了Lemur,语言模型技术的未来将比以往任何时候都更加光明和多功能。
大型机器学习模型在各种任务中都表现出色。训练此类模型需要大量的计算机能力。HuggingFace上提供了演示。
AI创业公司潞晨科技宣布,旗下Colossal-AI首个开源了650亿参数LLaMA低成本预训练方案。相比业界其他主流选择,该预训练方案可提升预训练速度38%,仅需32张A100/A800即可使用,并且不限制商业使用。
650亿参数大模型的预训练方案,发布即开源。训练速度较传统方案提升38%。其背后公司潞晨科技,近期获得数亿元A轮融资,已在成立18个月内已迅速连续完成三轮融资。
11 月 7 日,华为全联接大会 2022 在深圳召开。在“华为云AI持续创新,加速AI应用走深向实”分论坛上,华为云发布《预训练大模型白皮书》,博瀚智能有限公司CEO郭玮,华为云EI服务产品部部长尤鹏,华为云人工智能领域首席科学家、IEEE Fellow、国际欧亚科学院院士田奇共同出席发布仪式。华为云将持续夯实盘古预训练大模型的能力,将AI技术以及行业落地经验云化、服务化,让企业创新触手可及。
这家从事大规模预训练模型研发的新型AI公司浮出水面。2021 年是大规模预训练模型的爆发之年,掀起了人工智能又一波热潮,并迅速成为AI领域的技术新高地,助推人工智能从1. 0 的感知智能向2. 0 的认知智能转变。自从 2012 年深度学习的应用元年以来,人脸识别、语音识别等技术通过机器学习实现了大量应用场景突破,不仅提升了社会工作效率,同时改变了人们的生活出行模式,建立了人类对人工智能技术的基础认知。但是经过多年的应用实践,传统人工智能基于特定场景、特定内容、特定需求的适配模式也暴露出很多短板,尤其在泛场景应用、小样?
11月8日,阿里巴巴达摩院公布了多模态大模型M6”的最新进展,其参数已从万亿跃迁至10万亿,成为全球最大的AI预训练模型。作为通用性AI大模型,M6拥有多模态、多任务能力,尤其擅长设计、写作、问答,在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。与传统AI相比,大模型拥有成百上千倍神经元”数量,认知和创造能力也更胜一筹,被普遍认为是未来的基础模型”。但是,大模型的算力成本相当高昂,比如训练1750亿参数语言?
阿里巴巴达摩院公布多模态大模型M6最新进展,其参数已从万亿跃迁至10万亿,规模远超谷歌、微软此前发布的万亿级模型,成为全球最大的AI预训练模型。
2018 年以来,以BERT、GPT等为代表的大规模预训练模型,带来了人工智能领域新的突破,由于其强大的通用性和卓越的迁移能力,掀起了预训练模型往大规模参数化发展的浪潮。其中微软、谷歌、Facebook、NVIDIA等诸多公司在预训练算法上持续大量投入。国内如百度、华为、阿里等公司也相继投入到大规模预训练模型算法的研究中。现阶段,在中文自然语言处理方向上,预训练也如雨后春笋一样涌现。现有算法主要依赖纯文本学习,缺少知识指导
阿里云百炼大模型服务平台近期宣布了一项重要的支持计划,即为Meta公司最新开源的Llama3系列大语言模型提供全方位的支持。这项服务包括限时免费的模型训练、部署和推理服务,旨在帮助企业和开发者在阿里云平台上构建和优化自己的专属大模型。通过结合阿里云强大的云计算资源和Llama3模型的先进性能,企业和开发者将能够开发出更加智能和高效的AI应用,加速AI技术的创
如何复盘大模型技术爆发的这一年?除了直观的感受,你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告,这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示,不同人群的观点存在显著差异,年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
【新智元导读】大语言模型的「逆转诅咒」,被解开了。来自MetaFAIR的研究人员推出了反向训练大法,让模型从反方向上学到了事实之间的逻辑,终于改进了这个困扰人们已久的问题。36年前的预言1988年,Fodor和Pylyshyn在《认知》刊物上发了一篇关于思维的系统性的文章。
快科技3月24日消息,中国电信官方宣布,首个国产单池万卡液冷算力集群,天翼云上海临港国产万卡算力池正式启用,首批用户也同时入驻。据介绍,这不仅是国内首个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中心。该集群采用新一代国产AI算力,通过高速RDMA连接各物理机节点,提供低延时、高吞吐量、无损通信网络和强大的并行计算能力,多项技术指标领跑全国。该集群还最高可支持万亿参数大模型,满足AI计算、深度学习、图形渲染等复杂训练任务对算力的要求。有机构认为,双碳背景下,IDC绿色化是大势
亚马逊云科技与英伟达扩展合作,加速生成式AI创新。双方将在亚马逊云科技上提供NVIDIABlackwell架构GPU,包括GB200GraceBlackwell超级芯片和B100TensorCoreGPU,以帮助客户解锁新的生成式AI能力。推出生成式AI微服务,推进药物发现和医疗领域的发展。
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/📰🤖📢AI新鲜事苹果大模型MM1入场:参数达到300亿超半数作者是华人全球最快AI芯片WSE-3发布性能碾压H100!Midjourney禁止用户生成拜登和特朗普图片Claude3HaikuAPI发布OpenAICTO承认Sora训练�
中兴通讯推出专为大规模模型训练设计的旗舰GPU服务器—R6900G5。该中兴服务器具备卓越的计算性能、高速网络通信能力以及创新的能效表现,有望为人工智能和深度学习等领域带来全新的突破。相信中兴通讯会继续深耕科技创新,为用户提供更加优质、高效的最强算力解决方案,推动数字经济的繁荣发展。
APUS与深圳大学大数据系统计算技术国家工程实验室联合训练伶荔Linly-70B中文大模型,并在GitHub上正式首发开源,这是APUS大模型3.0的首个开源大模型。APUS大模型3.0伶荔在中文基准测评榜单C-Eval上评分80.6分,中文能力超越GPT-4,在所有参评模型中排名第三,相比原始开源模型标杆LLaMa2-70B取得了大幅提升。APUS还将与大数据国家工程实验室持续推动模型的能力提升和应用拓展,积极探索深化大模型在工具使用、剧情生成和角色扮演、医疗等领域的专业能力,聚力构建大模型生态,让为中国打造的AI大模型真正驱动中国AI产业高质量发展,实现价值共创,赋能千行万业。