11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
华中科技大学等机构发布了一项关于多模态大模型的全面评估新基准,旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型,包括谷歌Gemini、OpenAIGPT-4V等,覆盖了五大任务、27个数据集。这项研究不仅为多模态大模型的性能评估提供了新的思路,也为相关领域的研究和应用奠定了更加扎实的基础。
12 月 28 日,“大模型·大未来” 2023 人工智能大模型基准测试科创发展大会暨中西部数字经济峰会(下称“大会”)在成都举行。经过前期多轮系统评测,“ 360 智脑”在通用大模型类目的“语言知识、学科知识、数学推理、安全可靠”四个维度表现优异,荣获了“大模型基准评测专业委员会”颁发的四个奖项。 据悉,此次大会旨在深入了解当前国内大模型的能力水平以及大�
在中国科大等机构的最新研究中,科学家们发布了一项重要的成果,即SciGuard和SciMT-Safety。这一创新性方法的目标是保护AIforScience模型,以防止其在生物、化学、药物等领域被不当使用。这项研究呼吁全球科技界、政策制定者、伦理学家以及公众共同合作,加强对AI技术的监管,不断完善相关技术,以确保科技的进步是对人类的一次技术升级不是对社会责任和伦理的挑战。
最新研究警告,大型模型在基准评估中可能面临潜在危害,原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。对于未来的研究,需要进一步探讨不同程度的数据泄露对模型性能的影响,并在预训练中引入数据泄露进行更深入的模拟测试。
蚂蚁集团联合北京大学发布了面向DevOps领域的大语言模型评测基准——DevOps-Eval。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。DevOps-Eval将持续优化,丰富评测数据集,重点关注AIOps领域,并增加更多的评测模型。
【新智元导读】数学的命运齿轮从此开始转动。国内首个专为数学打造的千亿级大模型MathGPT正式上线,在多项基准测试中碾压GPT-4,刷新SOTA。随着公测的顺利进行,MathGPT的解题能力将得到持续提升,基于MathGPT的产品级应用也正在加速研发中,将于近期发布。
据中国信通院CAICT公众号消息,当前大模型已呈现出产业生态不断扩大、场景应用快速涌现、商业路径逐步清晰等特点,成为现阶段人工智能产业的技术创新主线。为进一步推动我国大模型技术创新发展及工程化应用落地,中国信息通信研究院(现启动大模型技术及应用基准构建工作,针对当前主流数据集和评估基准多以英文为主,缺少中文特点、文化以及难以满足关键行业应
最近,公司全体同事都在疯狂沉迷这款《大闹天宫MBTI》测试!各种直击打工人的灵魂拷问,让所有i人和e人在职场极限场景中反复拉扯。荣获WAIC2024SAIL之星作为世界人工智能大会的最高奖项,SuperAILeader的评选异常激烈:不仅吸引了众多国内外合作机构,囊括了大批优质创新项目今年的国际项目数量更是创下新高。AGI是阶跃星辰注定踏上的征途,也必将到达。
国内大模型的能力,又来到了一个新高度!6月27日,科大讯飞正式对外发布讯飞星火大模型V4.0,以及在医疗、教育、商业等多个领域的人工智能应用。随着新版本的发布,讯飞星火V4.0七大核心能力全面升级,在8个国际主流测试集中排名第一,整体超越GPT-4Turbo,领先国内大模型。一方面在不断提升底层核心语言能力,持续赶超全球顶级大模型,并打磨升级自身优势模型能力比如
近日,由山东省人工智能协会、青岛市人工智能产业协会携手发布了国内首 个针对生成式人工智能(AIGC)大模型测试的团体标准——《生成式人工智能(AIGC)大模型 功能测试指标体系》。标贝科技作为行业领先的AI技术创新及大模型应用企业受邀参与了标准的编制。该标准的发布对于规范大模型的研发和应用具有重要意义,为人工智能产业的健康、快速发展注入了新的活力。AIG
一项新的“大模型Benchmark”在推特上爆火,LeCun也点赞转发了!且无论是GPT-4还是Claude3,面对它都如同被夺了魂,无法给出正确答案。难倒一众大模型的,是逻辑学当中经典的“动物过河”问题,有网友发现,大模型对此类问题表现得很不擅长。前面网友针对训练数据和输出关系的分析,可能不无道理。
「你看,人类一败涂地了」这是一次「反向图灵测试」,几个全球最先进的大模型坐在一起,坐着火车唱着歌,但其中混进了人类:AI的任务,是把这个人类揪出来。一位昵称「ToreKnabe」的网友在X平台发布的一段视频引发了人们的讨论。AINPC要想顺利走入3A大作,开发者开发的LLM需要在以下几个方向努力:尽量不产生幻觉或偏离「事实」;必须将游戏世界模型理解为一组「事实」,�
2024年5月15日,在中国信通院组织的首批大模型驱动的智能数据分析工具专项测试中,数势科技大模型智能分析助手SwiftAgent顺利完成了专项测试的全部内容,成为首批完成此项测试的企业。《大模型驱动的智能数据分析工具》标准及测试简介中国信通院云计算与大数据研究所依托中国通信标准化协会大数据技术标准推进委员会,联合50余家企业的100余位专家共同编制完成了《大模型驱动的智能数据分析工具》标准,瓴羊为核心参编企业之一。数势科技也将持续精进技术,将丰富的分析经验沉淀到产品中,形成良性的“飞轮效应”,让产品更智能,让分析更简单,促进数据价值普惠化,帮助企业实现数字化升级。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、抖音试水AI电商测试AI购物小助手抖音电商正在测试首款面向C端的AI电商服务“AI购物小助手”,旨在为用户带来个性化购物体验和提升业务效率。微软已经采取了一系列措施来�
【新智元导读】前段时间,微软公布并开源了最新一代大模型WizardLM-2,号称性能堪比GPT-4。还未上线一天,模型权重和公告全被删除了,原因竟是......上周,微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。开发者们还需要耐心等待,微软团队承诺,会在测试完成后重新上线。
Meta发布超级彪悍的大语言模型Llama3之后,微软也很快推出了自己的新一代WizardLM28x22B,号称迄今最强大,完全超越Claude3OpusSonnet、GPT-4等竞品开源,但是马上又把它撤回去了。没有任何征兆,微软就删除了WizardLM2大模型的相关文件、代码一直没有任何公开解释。大模型幻觉产生的原因有很多,训练数据、预训练和对齐阶段、推理阶段都会出现缺陷。
阿里的通义千问,终于拼齐了1.5系列的最后一块拼图——正式开源Qwen1.5-32B。直接来看“成绩单”。GQA的引入就降低了注意力计算的数量,从加速了推理时间。
澜舟科技宣布,将于2024年3月18日举办大模型技术与产品发布会,主题为“创新落地,生态共赢”。该发布会旨在展示孟子大模型及“一横N纵”全方位技术与产品体系,分享在金融等领域的技术创新和落地实践案例。澜舟的解决方案覆盖金融、营销、文化创意等多个行业领域,帮助企业智能化升级。
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用1、百度推出视频生成模型UniVG可处理各种文本和图像的组合输入【AiBase提要:】⭐UniVG是一种“统一模态视频生成系统”。🔸研究强调了预训练数据筛选过程中的复杂
【新智元导读】AI在医疗领域再次发光!谷歌DeepMind团队发布的全新诊断对话式AI在测试中击败医生,通过了图灵测试,再次引领医疗AI的革命。我们需要研发对人类有益AGI的原因之一:OpenAI联创GregBrockman的一番话点明,当前先进AI系统还需不断演进,有望破解人类医学难题。AI医学,未来可期。
着力扩大内需是稳住经济大盘的重要任务,各行业各领域都围绕这一目标作出积极努力。消费金融公司是拉动内需的重要杠杆和有力工具。消费金融公司更需要定制化模型,并根据业务场景开展实时动态建模,构建动态风险治理体系。
12月22日,在全国信息技术标准化技术委员会人工智能分委会全体会议上,国内首个官方“大模型标准符合性评测”结果公布,360集团与百度、腾讯、阿里四家率先通过评测。该测试由中国电子技术标准化研究院发起,旨在建立大模型标准符合性名录,引领人工智能产业健康有序发展。今年7月,360被工信部电子标准院授予“国家人工智能标准化总体组大模型专题组”组长单位,
12月22日,国内首 个官方“大模型标准符合性评测”结果公布,首批仅360集团(601360.SH,下称“360”)、百度、腾讯、阿里通过。该测试由工信部中国电子技术标准化研究院(简称“工信部电子标准院”)发起,评测围绕多领域多维度模型评测框架与指标体系,从大模型的通用性、智能性、安全性等维度开展,涵盖语言、语音、视觉等多模态领域,旨在建立大模型标准符合性名
在12月22日的全国信息技术标准化技术委员会人工智能分委会全体会议上,腾讯混元大模型率先通过国家大模型标准符合性测试。本次评测由中国电子技术标准化研究院发起,基于32个细分维度,对国内主要的大模型进行测试。腾讯云还以提案牵头方身份启动《人工智能模型即服务功能要求》的讨论与编制,推动MaaS领域标准化。
BlueLM蓝心大模型是vivoAI全球研究院自主研发的大规模预训练语言模型,具有70亿模型参数量,能处理32K上下文长度。它基于260TB的多语言训练语料,提供了强大的语言理解能力,并可广泛应用于内容创作、知识问答、逻辑推理、代码生成等场景,持续为用户提供安全可靠的人机交互体验。以上就是BlueLM蓝心大模型的全部介绍了,感兴趣的小伙伴可以点击上方链接前往体验。
快科技12月8日消息,据国内媒体报道,日前,阿里智能信息事业群自研的夸克大模型已通过备案,将陆续在通识、健康、创作等领域升级内容产品与智能工具,落地一系列 AIGC 应用。夸克相关负责人表示,夸克大模型是面向搜索、生产力工具和资产管理助手的应用型大模型。在搜索应用中,将通过图文多模理解、专业知识生成、交互方式创新进一步拓宽应用场景,提升用户体�
微软宣布在AzureAI云开发平台中新增40个大模型,包括WhisperV3、StableDiffusion、Phi、Falcon、SAM、CLIP、CodeLlama等,支持文本生成、图像处理、代码编写、语音识别等多种功能。三星确认GalaxyS24是AI手机三星确认其即将推出的GalaxyS24系列将聚焦于人工智能,申请了与AI相关的商标,预计在1月17日发布,并计划推出多项AI功能。论文地址:https://arxiv.org/abs/2311.13110芝加哥大学研究人员推出3D�
AutoGPT的得分也凉凉。GPT-4自诞生以来一直是位「优等生」,在各种考试中都能得高分。该基准尽最大努力涵盖各种主题领域和文化,尽管数据集的语言仅限于英语。
一项重大漏洞使得ChatGPT3.5用户能够免费升级至GPT-4Plus,作者通过链接测试并确认漏洞实锤。不过目前该漏洞似乎已经被补上。项目地址:https://github.com/abi/screenshot-to-code多模态语言模型新基准AMBER评估和降低模型中的幻觉问题AMBER项目是为多模态语言模型设计的新基准,致力于评估和减少模型在生成文本、图像或音频等多模态数据时可能产生的幻觉问题,并提供开源库支持。
在2023年百度世界大会上,百度发布了文心大模型4.0,提升了理解、生成、逻辑、记忆等四个方面,现在开发者可以申请使用ERNIEBotSDK开发与接入该模型的应用。申请地址:https://aistudio.baidu.com/community/channel/105腾讯混元大模型开放文生图功能腾讯混元宣布开放文生图功能,利用强大的中文理解能力,根据关键词生成具有真实感和