视觉大模型

美图宣布以总价3964.05万美元收购站酷，交易结构中，1778.4万美元将以配发及发行52，992，166股代价股份支付，余额2185.6万美元将以现金支付。站酷成立于2006年，汇聚了来自全球300多个城市的设计师、摄影师、插画师等视觉创意从业者，注册用户数量近1700万。此次收购还有助于美图在专业设计领域扩展业务，加强在版权和共创等方面的服务能力。...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“视觉大模型”的相关热搜词：

相关“视觉大模型” 的资讯2269篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
美图宣布2.85亿元收购站酷为自家AI视觉大模型生态带来优质协同效应

美图宣布以总价3964.05万美元收购站酷，交易结构中，1778.4万美元将以配发及发行52，992，166股代价股份支付，余额2185.6万美元将以现金支付。站酷成立于2006年，汇聚了来自全球300多个城市的设计师、摄影师、插画师等视觉创意从业者，注册用户数量近1700万。此次收购还有助于美图在专业设计领域扩展业务，加强在版权和共创等方面的服务能力。

美图视觉大模型
美图AI视觉大模型MiracleVision奇想智能正式上线

1月5日，美图公司自研AI视觉大模型MiracleVision正式上线。广大用户可在MiracleVision官网和美图秀秀、WHEE等美图旗下产品中率先体验。美图公司正式向行业客户、合作伙伴全面开放MiracleVision的模型能力，持续通过API、SDK、SaaS、模型训练等形式，助力多场景工作流，帮助企业降本增效。
美图AI视觉大模型MiracleVision奇想智能将向公众开放

1月2日，美图公司自研AI视觉大模型MiracleVision通过《生成式人工智能服务管理暂行办法》备案，将面向公众开放。美图AI视觉大模型MiracleVision于2023年6月内测，为美图秀秀、美颜相机、Wink、美图设计室、WHEE、美图云修等知名影像与设计产品提供AI模型能力的同时，也帮助美图公司搭建起由底层、中间层和应用层构建的人工智能产品生态。在通过备案的国内大模型当中，美图公司
美图自研AI视觉大模型MiracleVision发布4.0版本

美图自研AI视觉大模型MiracleVision发布4.0版本，最新版本带来了两大新能力:AI设计和AI视频。AI设计包括四大功能:矢量图形、文字特效、智能分层和智能排版。MiracleVision4.0将于2024年1月陆续应用于美图旗下产品，同时开放商业API，并提供多个套餐供用户选择。
AI公司「卓视智通」获数千万Pre-B+轮融资推进视觉大模型研发

北京卓视智通科技有限责任公司近日完成了数千万元Pre-B轮融资，由中交资本和腾飞资本共同投资。卓视智通成立于2012年，是一家基于AI的视频融合感知及车路协同解决方案提供商。卓视智通的创始人兼CEO吴柯维表示，公司将加大AI视觉大模型的研发投入，推进其在智慧交通场景的应用落地，并进一步将业务延伸到车端，为智能驾舱场景提供实时道路感知信息。
美图自研AI视觉大模型3.0发布，股价涨幅超9%

凤凰网科技讯10月10日，在美图公司15周年生日会现场，美图公司创始人、董事长兼首席执行官吴欣鸿发布了自研AI视觉大模型MiracleVision3.0版本，美图周二股价开盘即走强，截至发稿，该公司涨9.25%，报3.78港元。面世100天后，美图AI视觉大模型MiracleVision3.0将全面应用于美图旗下影像与设计产品，并将助力电商、广告、游戏、动漫、影视五大行业。吴欣鸿介绍说，三个月前，MiracleVision绘画水平还停留在初级阶段，如今3.0版本已经能描绘出真实细腻的画面细节，目前用户可以访问AI视觉创作工具“WHEE”官网体验。
修图更简单了！美图视觉大模型3.0发布：助力五大行业提效

在今天的美图公司15周年生日会现场，美图公司创始人、董事长兼首席执行官吴欣鸿发布了发布自研AI视觉大模型MiracleVision3.0版本。在今年6月份的时候，美图公司视觉大模型MiracleVision第一个版本。目前可以通过访问AI视觉创作工具WHEE”官网进行体验这一大模型。
荐 AI视野：文心大模型4.0将发布;Stability AI发布移动端语言模型Stable LM3B;OpenAI举办ChatGPT应用开发大赛；视觉中国、华为云携手打造视觉大模型

百度正在加速训练文心大模型4.0，并计划在10月17日的百度世界大会上发布。这一新版本将是文心大模型3.5的重要升级，重点提升基础模型能力，尤其在逻辑推理、代码和数学等方面取得显著进展。GoogleDeepMind提出DRaFT算法以高效优化扩散模型GoogleDeepMind最新提出的DRaFT算法用于高效优化扩散模型，提高了文本到图像生成等实际应用的效率和性能，成为机器学习领域的有价值工具�

文心大模型
美图自研AI视觉大模型MiracleVision奇想智能3.0版发布

美图公司在其15周年生日会上发布了自研AI视觉大模型MiracleVision3.0版本，并将全面应用于旗下的影像与设计产品。这一大模型将助力电商、广告、游戏、动漫、影视五大行业，提高工作流效率。美图公司还公布了其影像生产力工具的最新数据，包括AI视觉创作工具“WHEE”生成数已超过550万张，AI口播视频工具“开拍”月活跃用户数已突破35万，桌面端AI视频编辑工具“WinkStudio”已累计服务近10万名视频创作者，AI商业设计工具“美图设计室”正帮助近百万中小电商卖家降本增效，AI修图工具“RoboNeo”每天帮助近万名用户自动修图，比传统修图效率提升35%，AI数字人生成工具“DreamAvatar”已上线并提供“AI演员”数字人服务。
视觉中国与华为云合作携手打造视觉大模型

视觉文化发展股份有限公司与华为云计算技术有限公司正式签署关于视觉大模型的合作协议。双方将以华为云盘古大模型为基础打造视觉大模型。双方将充分发挥各自的优势，积极推动视觉大模型项目的落地，加速人工智能在互联网行业的创新应用，为不断拓展无限创意的内容产业未来开辟新的前景。
抖音、火山引擎等推出“经典影像修复计划” 采用视觉大模型修复经典老港片

8月16日，抖音、火山引擎、中国电影资料馆共同发布“经典影像修复计划”，将对100部香港经典老电影进行4K修复。火该计划将对100部香港经典老电影进行4K修复，首批完成的影片包括《武状元苏乞儿》《A计划》《蜀山・新蜀山剑侠》等。用户可以在抖音搜索“香港电影修复”观看。
美图吴欣鸿：自研视觉大模型MiracleVision已迭代至1.5版本

8月3日，美图创始人、董事长兼CEO吴欣鸿参加第四届中国人工智能大赛成果发布会。目前美图自研视觉大模型已迭代到1.5版本，并应用于美图旗下多款产品。也能在“深化社会美学素养”、“提升全民数字技能”上发挥重要作用。
荐每周AI大事件 | OpenAI或为AI建应用商店、美图发布视觉大模型、腾讯云行业大模型新进展

欢迎来到站长之家的[每周AI大事件]，这里记录了过去一周值得关注的AI领域热点内容，帮助大家更好地了解人工智能领域的动态和发展风向。Part1动态[国内要闻]腾讯云公布行业大模型进展腾讯云披露行业大模型方案进展，并公布MaaS能力全景图。他们短期内希望AI能够降本增效，但长期来看，更寄希望于把AI当成新的增长驱动力。

站长之家 AI大事件腾讯云
美图发布视觉大模型MiracleVision 盘中股价涨超15%

美图公司港股股价涨超15%。在今日的美图影像节上，美图发布了7款新产品，从生活娱乐场景拓展到生产力场景，涉及设计、视频生产等多个专业领域。视觉大模型MiracleVision具有强大的视觉表现力和创作力，并从绘画、设计、影视、摄影、游戏、3D、动漫等视觉创作场景反推技术演化，擅长亚洲人像摄影、国风国潮、商业设计等生成方向。

美图公司港股涨幅美图影像节
美图发布AI视觉大模型奇想智能MiracleVision

在今日主题为“AI时代的影像生产力工具”的第二届美图影像节上，美图发布了7款新产品，从生活娱乐场景拓展到生产力场景，涉及设计、视频生产等多个专业领域。美图公司发布了“懂美学的AI视觉大模型”MiracleVision，为行业客户提供AI视觉解决方案，并与创作者和开发者共建模型生态。

美图影像节 AI时代 AI视觉解决方案
360智脑-视觉大模型发布周鸿祎：多模态大模型与物联网结合是风口

周鸿祎在5月31日晚间的三六零智慧生活集团视觉大模型及AI硬件新品发布会上，发布了专业视觉及多模态大模型“360智脑-视觉大模型”。360智脑视觉大模型基于10亿级互联网图文数据进行清洗训练，并针对安防行业数据进行微调，融合千亿参数的"360智脑"大模型，从视觉感知能力角度进行打造。大模型将渗透到物联网设备中，成为物联网的大脑物联网设备则相当于大模型的感知端。

周鸿祎 360智脑多模态数据
中国电信将发布“星河”通用视觉大模型2.0

中国电信在数字中国建设峰会主论坛上表示，当前，云计算正在步入由人工智能驱动的新一轮发展浪潮。中国电信称，人工智能是引领新一轮科技革命和产业变革的战略性技术，近年来飞速发展的大模型算法正推动人工智能向更通用、更精准和更普惠的方向发展，可以说“没有AI就没有云的未来。天翼云已打造200多个细分场景解决方案，为335万家企业用户提供上云用云服务。

中国电信云计算人工智能
小扎亲自官宣！Meta发布视觉大模型DINOv2 可自我监督

Meta+发布了+DINOv2，这是一种最先进的计算机视觉自监督模型，可以在深度估计、语义分割和图像相似性比较等任务中实现+SOTA+级别的性能。该模型可用于从卫星图像生成森林高度图，在医学成像和作物产量估算等领域具有潜在应用。这种方法有可能显着减少训练计算机视觉模型所需的标记数据量这些数据的获取既费时又昂贵。

DINOv2 Meta 计算机视觉自监督模型
小扎亲自官宣Meta视觉大模型，自监督学习无需微调，多任务效果超OpenCLIP

无需文字标签，完全自监督的Meta视觉大模型来了!小扎亲自官宣，发布即收获大量关注度——在语义分割、实例分割、深度估计和图像检索等任务中，这个名叫DINOv2的视觉大模型均取得了非常不错的效果。甚至有超过当前最好的开源视觉模型OpenCLIP之势。官网上给出的图片效果还是挺不错的，输入铁塔照片，可以生成不少含铁塔的相似艺术图片:这里我们也试了试，输入一张华强买瓜，给出来的艺术图片大多数与西瓜有关:那么，这样的自监督视觉大模型可以用在哪里?从Meta给出的视频来看，目前有一些比较环保的用途，例如用于估计全球各地的树木高度:除此之外，如同扎克伯格所说，DINOv2还能被用于改善医学成像、粮食作物生长等。

DINOv2 Meta自监督学习视觉大模型
荐计算机视觉GPT时刻！UC伯克利三巨头祭出首个纯CV大模型，推理惊现AGI火花

UC伯克利的CV三巨头推出首个无自然语言的纯视觉大模型，第一次证明纯CV模型也是可扩展的。更令人震惊的是，LVM竟然也能做对图形推理题，AGI火花再次出现了?计算机视觉的GPT时刻，来了!最近，来自UC伯克利的计算机视觉「三巨头」联手推出了第一个无自然语言的纯视觉大模型，并且第一次证明了纯视觉模型本身也是可扩展的。下图展示了一些不容易用语言描述的提示——这是LVM可能最终胜过LLM的任务类型。

AGC
北大提出统一的视觉语言大模型Chat-UniVi 3天训练成果惊艳众人

北京大学和中山大学等机构的研究者提出了一种名为Chat-UniVi的视觉语言大模型，实现了统一的视觉表征，使其能够同时处理图片和视频任务。这一框架的独特之处在于，它不仅在深度学习任务中表现卓越仅需短短三天的训练时间，就能够训练出具有130亿参数的通用视觉语言大模型。Chat-UniVi的提出为视觉语言模型的研究领域带来了新的思路，通过统一的视觉表征实现了对多模态数据的高效处理，为深度学习模型的训练和推理提供了更加便捷和经济的解决方案。

大模型
提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这些结果证明了联合图片和视频一起训练能够促进LLM理解视觉表示。

Video-LLaVA SOTA
百度网盘首页改版引入青春感 UI 视觉和大模型智能助理

百度网盘宣布首页改版，新版采用了“多巴胺”配色和个性化字体设计，引入了左一屏汇总网盘常用功能组件，并通过feed流推荐个人网盘中的“尘封的记忆”。这是百度网盘近4年以来最大的一次首页改版，旨在通过更简单的交互方式、更青春感的UI视觉和大模型智能助理，全面提升个人文件的智能服务，使百度网盘更加好用。在AI重构方面，百度网盘的重点是提供智能化的个人文件服务。
革命性视频合成工具MAGVIT-v2 将视觉内容转化为大模型的标记

卡内基梅隆大学、Google研究以及乔治亚理工学院联合推出了一项名为MAGVIT-v2的视频标记工具，它成功地将图像和视频输入转化为大型语言模型可识别的标记。项目地址:https://magvit.cs.cmu.edu/MAGVIT-v2的独特算法让开发者可以实现令人惊叹的应用。MAGVIT-v2的发布，预示着视觉生成领域的一次重大突破。

视频合成
FAVOR：通过精细融合音频和视觉细节提升大模型视频理解能力

研究人员日前发布了一项名为"FAVOR"的创新技术，它能够在帧级别巧妙地融合音频和视觉细节，从增强大型语言模型对视频内容的理解能力。这一引入FAVOR方法的举措，为拓展大型语言模型在视频理解领域的潜力开辟了新的机遇。这些示例可以作为起点，帮助用户开始构建他们自己的多模态交互。

FAVOR
视觉中国：会基于开源大模型打造自己的垂直模型

8月21日，视觉中国在披露的投资者关系活动记录表中表示，丰富的数字内容版权交易场景也是公司的优势之一，公司会基于开源的大模型，结合公司的核心数据、业务场景，打造公司自己的垂直模型。公司版权保护收入占营业收入比重很小，公司将对版权保护工作进行重新审视与规划，把版权保护工作定位在“公益”属性，为创作者、使用方、服务机构提供版权保护、版权查询、正版服务推荐、法律援助等服务。视觉中国发布公告称，上半年实现营业收入3.71亿元，同比增长5.75%;净利润9087.17万元，同比增长65.72%;基本每股收益0.13元。
荐字节大模型新进展：首次引入视觉定位，实现细粒度多模态联合理解，已开源&demo可玩

字节大模型，BuboGPT来了。支持文本、图像、音频三种模态，做到细粒度的多模态联合理解。再来一张图片，并带有一段音频，BuboGPT也正确匹配了声音来源:Audio-8-bicycle_bell，量子位，22秒当然，它也会出现识别不成功，表述错误的情况，比如说下面这张图中并没有人，音频也只是钟声，但它的描述和图片似乎并不搭边。

大模型字节跳动 BuboGPT
LLaVA++：为Phi-3和Llama-3模型增加视觉处理能力

LLaVA项目通过扩展现有的LLaVA模型，成功地为Phi-3和Llama-3模型赋予了视觉能力。这一改进标志着AI在多模态交互领域的进一步发展。LLaVA的推出，预示着未来AI模型将更加智能和灵活，能够更好地服务于需要视觉与文本结合理解的复杂场景。

Phi-3 LLaVA++
荐字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

视觉语言模型屡屡出现新突破，但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin，专为视觉语言时代设计。更多大模型算法相关岗位开放中。

字节
更小更强大！Hugging Face发布8B开源视觉语言模型Idefics2

HuggingFace首次发布了其Idefics视觉语言模型，该模型于2023年首次亮相，采用了最初由DeepMind开发的技术。Idefics迎来了升级，新版本Idefics2拥有更小的参数规模、开放许可证以及改进的光学字符识别能力。Idefics2的发布是AI繁荣持续推出的许多多模态模型之一，包括Reka的新Core模型、xAI的Grok-1.5V和Google的Imagen2。

Idefics2 视觉语言模型 AI头条

热文

3 天
7天

视觉大模型

与“视觉大模型”的相关热搜词：

相关“视觉大模型” 的资讯2269篇

热文

站长商机