11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
利用更丰富的NASA地球科学数据生成地理空间洞察,加速气候相关发现北京2023年8月8日--近日,IBM与开源AI平台HuggingFace共同宣布,基于美国宇航局卫星数据构建的IBMwatsonx.ai地理空间基础模型现已在HuggingFace发布。它将成为HuggingFace上至今最大的地理空间基础模型,也是首个与NASA合作构建的开源AI基础模型。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是IBM业务发展的基石。
IBM和开源AI平台HuggingFace宣布,IBM的watsonx.ai地理空间基础模型——使用NASA的卫星数据构建——现在将在HuggingFace上公开提供。它将成为HuggingFace上规模最大的地理空间基础模型,也是与NASA合作建立的首个开源AI基础模型。IBMwatsonx的地理空间模型的商业版本将于今年晚些时候通过IBMEnvironmentalIntelligenceSuite提供。
6月6日,腾讯发布针对腾讯混元文生图开源大模型的加速库,让推理效率大幅提升,生图时间缩短75%。混元DiT模型的使用门槛也大幅降低。也欢迎大家跟我们一起共建下一代视觉生成开源生态,推动大模型行业加速发展。
腾讯混元发布了针对开源文生图大模型混元DiT的加速库,可将推理时间缩短75%,生图时间大幅缩短。混元DiT模型也已部署至HuggingFaceDiffusers通用模型库,用户可通过三行代码调用模型,无需下载原始代码。腾讯混元表示将继续优化混元DiT的开源生态,共建视觉生成开源生态,推动大模型行业发展。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、抖音:将打击使用AI技术P图侮辱他人等行为抖音发布公告表示严厉打击网络暴力行为,已处置162件网暴舆情,警示教育施暴者近70万个。豆包的AI大模型系列涵盖了多种功能模型�
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、ChatGPTEdu版本来啦:支持GPT-4o、自定义GPT、数据分析ChatGPTEdu版本推出,为大学校园提供多功能ChatGPT,助力学生、老师提升学习质量和教学效率。技术创新点在于采用高斯点云生�
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、谷歌急了,终极杀器对打GPT-4o视频模型Veo硬刚Sora谷歌近日发布了一系列强大的AI工具,包括ProjectAstra、Veo视频模型和Gemini1.5Pro,旨在彻底颠覆谷歌搜索并挑战OpenAI。这一举措在�
腾讯开源了混元DiT图像生成模型,对英语和中文都有着精细的理解能力。Hunyuan-DiT能够进行多轮多模态对话,根据对话上下文生成并细化图像。它通过结合Transformer结构、文本编码和位置编码,以及训练一个多模态大型语言型,实现了对中英文的细粒度理解,并在图像生成等任务中取得了显著的效果。
腾讯旗下引人注目的混元文生图大模型宣布全面开源,这一重要举措标志着人工智能领域的又一里程碑。该模型已在HuggingFace和Github平台上发布,包含完整的模型权重、推理代码和算法,面向全球的企业与个人开发者免费开放商用。我们期待这一技术的进一步发展和应用,为人工智能领域带来更多的惊喜和突破。
香港大学数据智能实验室主任黄超团队开发了一款名为OpenGraph的图基础大模型,专注于在多种图数据集上进行零样本预测。该模型通过学习通用的图结构模式,仅通过前向传播即可对全新数据进行预测,有效缓解了图学习领域的数据饥荒问题。研究人员希望借助OpenGraph显著增强模型在零样本图学习任务中的泛化能力,并探索多种下游应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、干翻AIPC!苹果M4芯片首发新款iPadPro顶配超2万苹果公司在春季新品发布会上展示了最新技术和产品革新,包括配备M4芯片和双层OLED屏幕的新款iPadPro,以及ApplePencilPro和更大尺寸的iP
InternVL家族的开源套件提供了一种商用多模态模型的可行开源替代方案。最新发布的InternVL-Chat-V1.5模型在多个基准测试上取得了接近GPT-4V和GeminiPro的性能,这使得InternVL家族成为了当前最接近GPT-4V表现的可商用开源模型之一。InternVL家族的开源套件为多模态模型领域的发展注入了新的活力。
元象公司发布了首个多模态大型模型XVERSE-V,并将其开源。这一模型支持任意宽高比的图像输入,并在多个权威评测中取得了优异的成绩。除了图像识别,XVERSE-V还在多个实际应用场景中表现突出,包括信息图理解、视障场景处理、文本生成、教育解题等。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
LoRA的高效能力已在文生图领域获得广泛应用,可以准确渲染、融合图像中的特定元素,例如,不同字符、特殊服装或样式背景等,同时可对图像进行压缩、去噪、补全进行优化操作。但想在模型中应用多个LoRA构建更复杂的图像时,会出现图像失真、难以控制细节的难题。尤其是使用数量较多的LoRA组合时,生成高质量的效果更加明显。
单击画面中的火箭,输入“发射”prompt,瞬间起飞!就连想要回收火箭,也只需要输入“Launchdown”,再轻轻一点击:马斯克看了都要自我怀疑一下,这火箭发射这么简单,自家星舰成功进入太空怎么那么难??以上效果来自一个新的图生视频模型Follow-Your-Click,由腾讯混元、清华大学和香港科技大学联合推出。食用方法非常友好:任意一张照片输入模型,只需要点击对应区域,加上少量简单的提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。该团队已经作为技术合作伙伴,支持了《人民日报》的原创视频《江山如此多娇》。
香港大学发布了OpenGraph,这是一项突破性的成果,成功攻克了图基础模型领域的三大难题。该模型通过巧妙的技术实现了零样本学习,可以适配多种下游任务。OpenGraph的问世填补了图基础模型领域的空白,为通用图模型的发展提供了新的思路和技术支持,具有广泛的应用前景。
【新智元导读】StabilityAI放出了号称能暴打闭源模型的StableDiffusion3的技术报告,采用DiT构架的新模型在灵活性和性能上都达到了新的高度。StabilityAI在发布了StableDiffusion3之后,今天公布了详细的技术报告。网友热议网友们对StabilityAI不断撩拨用户但是不让用的行为显得有些不耐烦了,纷纷催促赶快上线让大家使用。
“绝不是简单的抠图。”ControlNet作者最新推出的一项研究受到了一波高度关注——给一句prompt,用StableDiffusion可以直接生成单个或多个透明图层!例如来一句:可以看到,AI不仅生成了符合prompt的完整图像,就连背景和人物也能分开。毕竟张吕敏也被网友调侃为“时间管理大师”,对LayerDiffusion感兴趣的小伙伴可以提前mark一波了。
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
2月13日,著名大模型开源平台StabilityAI在官网,开源了全新文本生成图像模型——StableCascade。SC是根据最新Würstchen基础模型开发成,大幅度降低了对推理、训练的算力需求,例如,训练Würstchen模型使用了约25,000小时性能却更强劲StableDiffusion2.1大约使用了200,000小时。在训练Würstchen基础模型时,参数总量比SDXL多14亿,但训练成本仅是其8分之一。
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
MGIE是一项由苹果开源的技术,利用多模态大型语言模型生成图像编辑指令,通过端到端训练,捕捉视觉想象力并执行图像处理操作,使图像编辑更加智能、直观。点击前往MGIE官网体验入口MGIE旨在满足以下需求人群:"用户可以通过自然语言直观地描述图像编辑需求,如改变颜色、调整大小等,无需复杂的描述或区域掩码,使图像编辑更加自由和轻松。欢迎访问MGIE官方网站,体验这一前沿的多模态大语言模型图像编辑工具。
库克在苹果电话会上证实,「今年晚些时候会发布生成式AI」。这一消息引起了广泛的关注,尤其在ChatGPT掀起全球热潮之后,苹果也在悄悄发力AI领域。随着这一技术的不断完善和推广,相信将会给用户带来更多惊喜和便利。
苹果开源了一种新的技术,名为多模态大语言模型引导的编辑,这项技术能够帮助用户通过自然语言指令来修改图片,使得编辑图片更加简单和自然。MGIE采用多模态大型语言模型进行图像编辑指令的生成,通过端到端训练,模型不仅捕捉视觉想象力执行图像处理操作。在实现更加直观和自由的图像编辑过程中,这一方法有望为未来的计算机视觉和图像处理研究提供新的思路。
一项开源项目MM-Interleaved引起了学者的广泛关注,该模型在多模态生成大模型方面取得了新的突破。项目引入了独创的特征同步器,刷新多项任务SOTA,拓展了多种图文生成及图像生成任务的应用领域,为多模态大模型的发展提供了新的活力。项目的问世不仅体现了其预训练阶段所展现的卓越性能,更在于微调后在各个具体下游任务上的全面表现,展现了MM-Interleaved框架成为一个无限创意的智能合作者,帮助用户轻松打造引人入胜的图文作品。
马里兰大学与北卡教堂山合作发布了Mementos,这是专为多模态大语言模型设计的图像序列基准测试,旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。测试结果令人震惊,GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这对于推动MLLM在图像领域的发展提出了挑战,并强调了进一步研究和优化的迫切性。
Taiyi-Diffusion-XL是一款开源的基于StableDiffusion训练的双语文生图生成模型。该模型支持英文和中文的文本到图像生成,相比之前的中文文生图模型有了显著提升。点击前往Taiyi-Diffusion-XL体验入口获取更多信息,释放创造力的无限可能。
SCEPTER是由阿里巴巴开发的一个专为生成模型设计的开源框架。它用于训练、微调和推理生成模型,涵盖诸如图像生成、转换和编辑等下游任务。这些方法特别适用于生成高质量、细节丰富的图像。
StabilityAI公司发布了其首个新型人工智能模型,商业许可的StableCode3B。字节复旦团队提出metaprompts扩散模型图像理解力刷新SOTA过去一年,扩散模型逐渐在文生图领域扩展,能否处理视觉感知任务呢?字节跳动和复旦大学技术团队提出了简单有效方案,旨在提高模型在视觉识别任务中的性能。