11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
对大模型进行量化、剪枝等压缩操作,是部署时最常见不过的一环了。这个极限究竟有多大?清华大学和哈工大的一项联合研究给出的答案是:90%。作者进一步分析了这种极低比特量化模型的能力和前景,并为未来的研究提供了指导。
清华大学和哈尔滨工业大学联合发布了一篇论文,成功将大模型压缩到1bit,仍保持83%的性能。这一成果标志着量化模型领域的一次重大突破。随着技术的不断进步,将有望实现将大型语言模型等大模型压缩到极低位宽,并实现在移动设备上高效运行的愿景。
微软和苏黎世联邦理工学院的研究人员联合开源了SliceGPT,该技术可以极限压缩大模型的权重矩阵,将模型体量压缩25%左右,同时保持性能不变。实验数据显示,在保持零样本任务性能的情况下,SliceGPT成功应用于多个大型模型,如LLAMA-270B、OPT66B和Phi-2。这一技术的推出,有望为广大开发者和企业提供更加便捷、高效的大模型应用解决方案。
WhisperKit是一个专为自动语音识别模型压缩与优化设计的强大工具。它不仅支持对模型进行压缩和优化提供详细的性能评估数据。通过WhisperKit官网,您可以详细了解该工具的功能和应用,并体验其卓越的自动语音识别模型优化能力。
SliceGPT是微软开发的一种新型的大语言模型压缩方法。通过SLICEGPT,可以在保持99%,99%,和90%零样本任务性能的同时,将LLAMA2-70B、OPT66B和Phi-2模型分别去除高达25%的模型参数。这种方法的核心优势在于,它允许模型在去除一定比例的参数后,仍然能够保持接近原始模型的性能,适用于资源受限的设备上部署大型模型,比如普通的个人电脑或者移动设备。
微软的研究团队开发了一种名为LLMLingua的独特粗细压缩技术,旨在解决大型语言模型中长提示带来的问题。LLMs以其强大的泛化和推理能力显著推动了人工智能领域的发展,展示了自然语言处理、自然语言生成、计算机视觉等方面的能力。该方法表现出色,并提供了一种改善LLM应用程序的效果和可负担性的有用方式。
RNA3D结构预测是一个长期存在的挑战。受最近蛋白质结构预测领域突破的启发,南开大学、山东大学以及北京理工大学的研究团队开发了trRosettaRNA,这是一种基于深度学习的自动化RNA3D结构预测方法。为了克服对已知RNA折叠的偏见,可以利用神经网络来学习力场或识别/组装局部图案不是直接预测全局3D结构。
联发科最新发布的一代旗舰级5G生成式AI移动芯片天玑9300,其创新的全大核架构设计与最新的AI处理器APU等联发科特色技术的合并,为生成式AI应用提供了强大的动力,以实现引人入胜、丰富多样的生成式AI体验。联发科也与大量的AI企业在业内进行深入合作,共同在移动平台上构造了一个充满活力的AI生态。联发科等生成式AI的领先者们正通过不断地技术革新和适当的生态布局,大力推动混合式AI计算,并为端侧生成式AI部署设计出了一套独自且高效的方法,全力以赴推进生成式AI在端侧的普及,旨在让更多的用户享受到端侧AI的个性化服务,带来全新的全方位智能体验,实现科技成果惠及全社会。
最新研究来自ISTA的科学家提出了一种创新的模型量化方法,称为QMoE,可以将庞大的1.6万亿参数SwitchTransformer压缩到令人难以置信的160GB以下,每个参数仅占用0.8位。这一方法实现了高达20倍的压缩率,为解决大型模型的高昂成本和内存需求问题提供了新的解决方案。这一创新性研究将有望为未来的深度学习和大型模型研究开辟新的方向。
在长文本场景中,ChatGPT等大语言模型经常面临更高算力成本、更长的延迟以及更差的性能。为了解决这三大难题,微软开源了LongLLMLingua。这充分证明LongLLMLingua可以在压缩提示的同时提升关键信息提取。
大型语言模型的发展迅猛,BERT成为其中最受欢迎和高效的模型,但其复杂性和可扩展性成为问题。为了解决这些问题,市面上目前由三种常见的模型压缩技术:知识蒸馏、量化和剪枝。DistilBERT通过知识蒸馏技术在保持性能的同时显著压缩了大型语言模型,为在资源受限设备上的部署提供了可能性。
Google旗下的人工智能子公司DeepMind发布的一项研究表明,大型语言模型除了在文本数据处理方面表现出色之外具备出色的图像和音频数据压缩能力。这一发现为重新审视LLMs的潜力提供了新的角度。这表明LLMs的性能与数据集的大小有关,压缩率可以作为评估模型对数据集信息学习的指标。
StableDiffusion是目前最强开源文本生成图片的扩散模型之一,但对于那些没有A100、H100的中小企业、个人开发者来说有一个很大缺点,需要花费高昂的训练成本。为了解决这一痛点,Wuerstchen开源模型采用了一种全新的技术架构,在保证图片质量的情况下实现了42倍极限压缩。Wuerstchen生成图片展示根据Wuerstchen展示的案例,该模型对文本的理解能力非常好,生成的质量效果也能媲美StableDiffusion等目前最强开源扩散模型。
随着LLM的突破性工作逐渐放缓,对于如何让更多人使用LLM成为时下热门的研究方向,模型压缩可能是LLM未来的一个出路。此前OpenAI首席科学家IlyaSutskever表示可以通过压缩的视角来看待无监督学习。常用基准包括但不限于HULK和ELUE。
根据Arxiv平台发布的信息,微软公司近期公开了一项关于In-contextAutoencoder模型的研究论文。这款模型的应用领域是大型语言模型,主要目的在于进行高效的上下文压缩。这也再次证明了微软公司在人工智能和自然语言处理领域的领先地位。
中国的大模型,已经震惊了外国科技圈。这几天商量大模型的更新,直接让外国网友惊呼:太疯狂了,中国的AI界究竟还有多少我们不知道的巨变?不怪这些网友太大惊小怪——最近全新升级的日日新·商量大模型5.0,在基础能力上再次重大更新,直接把大模型能力升级到新的阶段,直观印象可感的那种。还真是有点期待日日新6.0的诞生了。
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin,专为视觉语言时代设计。更多大模型算法相关岗位开放中。
新一代人工智能发展如火如荼,大模型如何落地推动数字转型赋能城市发展?4月25日,以“AI大模型打造城市新质生产力”为主题的城市云数字领军人才研修班在东莞举办。国家信息中心信息化和产业发展部主任单志广、东莞市发展与改革局副局长魏亚东、中国信息通信研究院云计算与大数据研究所政企数字化转型部主任徐恩庆、广东工业大学机电工程学院院长刘强、华为云中国区副总裁刘少华,全国20多个省市城市数字化建设相关负责人等政府、高校、研究院以及企业的专家、学者参加了此次活动。“城市云数字领军人才研修班”将针对不同层级、领域、区域的数字化建设者,建立差别化的课程体系,紧扣智慧城市、数字政府、数字化转型实际需要,增强学员的数字思维和专业素质,为全面增强数字城市建设效能提供重要人才保障。
Interactive3D技术为3D内容的创造和修改提供了一种极其灵活的方法。用户可以直接通过交互操作来指导3D模型的生成,这一过程不仅直观具有高度的创造性。无论是专业的3D设计师还是业余爱好者,都能通过这一技术轻松实现自己的创意构想。
阿里云宣布,EMO模型成功在通义APP中上线,并且完全开放给所有用户免费使用。在通义千问APP内,用户只需简单三步操作:选择模版、上传照片、生成视频,即可轻松实现照片中人物演戏唱歌的神奇效果。通义APP还不断推出实用功能,如超长文档解析、AI编码助手、AI会议助手等,为用户提供全方位的超级AI助手服务。
随着AI向AGI的圣杯方向加速发展,大模型与机器人的结合是必然趋势。单一用途机器人市场已趋于饱和,AI通用机器人的巨大潜力急待开垦。有此长期志向的伙伴,欢迎加入我们,让AI机器人从梦想变为现实。
4月26日,科大讯飞发布讯飞星火大模型V3.5的功能上新,其中一个重点就是面向用户各种场景中高效获取信息需求,发布首个长文本、长图文、长语音的大模型,能够支持文档、图文资料、会议录音等各种信息来源的快速理解和学习能够结合各种行业场景知识给出专业、准确回答。效果到底如何?今年人形机器人发展火热,我们将一份长达70多页的人形机器人报告,丢给了讯飞星火。科大讯飞将在6月27日发布讯飞星火大模型V4.0,进一步实现对GPT-4Turbo的对标。
摘要随着现代电力电子技术与数字控制技术的发展,电力电子与电机控制技术也在不断发展,实验教学是电力电子与电机控制课程非常重要的内容,对于培养学生掌握理论知识,分析和解决实际问题的能力具有重要作用。然不少学校的电力电子与电机控制实验平台依然是基于90年代的电力电子与电机控制技术发展来的实验平台架构,依然基于模拟信号触发与控制,与现代的电力
科大讯飞今日发布重大更新,讯飞星火大模型V3.5升级,不仅推出了首个长文本、长图文、长语音大模型首次将多情感超拟人合成技术引入市场,并同步推出了星火智能体平台。这一系列创新举措,旨在为招投标应用和合同应用提供更为强大的技术支持。插件市场和原生应用也为开发者和用户提供更多功能和工具选择,共同构建讯飞星火大模型生态。
Meta最近发布了LLama3,这是一款新的大型语言模型,用于实现更安全、更准确的生成式人工智能体验。除了LLM,Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具,以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性,可以推断出更高的AI硬件需求不会很快减少。
随着AI技术的不断发展和应用,工业生产等多个领域也开始逐渐开始拥抱AI,越来越多的企业希望通过利用人工智能技术实现降本增效。作为我国生活用纸头部企业,多年来维达国际也从未停止推动造纸行业进行革新随着维达国际将AI模型融入生产流程,企业在节能与质检方面上都取得了不小的进步。除了在节能与质检方面的进步,未来维达国际也将逐步将AI模型灵活融入企业生产、物流、营销等多个模块,并从标准化、数据化、过程化及风险思维等四个方面出发,努力推动整个行业向着向着更加高效、优质、可持续的方向发展。
4月25日晚,斯坦福大学日报消息,OpenAI联合创始人兼首席执行官SamAltman,在斯坦福大学的英伟达礼堂进行了公开演讲,超过1000名学生排队参加此次活动。Altman表示,从现在的技术创新和功能迭代来看,人类远远没有达到AI的极限,如果只是聚焦现在的AI能力将会是徒劳的。Altman则希望,二者之间的羁绊友谊可以继续长存下去。
京东创始人刘强东啊,他昨天又加班了。是他的AI数字人形象“采销东哥”,昨晚开启了自己生涯第四场直播。OneMoreThing聊着聊着,一个有趣的问题被抛出来。
【新智元导读】最大开源模型,再次刷爆纪录!Snowflake的Arctic,以128位专家和4800亿参数,成为迄今最大的开源模型。是又大又稀疏,因此计算资源只用了不到Llama38B的一半,就达到了相同的性能指标。他本人的研究兴趣是机器学习与系统的交叉领域。
4月24日,商汤集团在港交所暂停交易前股价上涨31.15%。商汤集团表示,其大模型日日新5.0发布会受到市场极大关注,公司将进一步刊发相关公告。商汤的生成式AI业务在2023年取得了显著增长,占总收入的35%。