首页 > 热点 > 关键词  > 正文

美图吴欣鸿:自研视觉大模型MiracleVision已迭代至1.5版本

2023-08-04 08:05 · 稿源:站长之家

站长之家(ChinaZ.com)8月4日 消息:8月3日,美图创始人、董事长兼CEO吴欣鸿参加第四届中国人工智能大赛成果发布会。在会上,吴欣鸿透露,目前美图自研视觉大模型已迭代到1.5版本,并应用于美图旗下多款产品。

吴欣鸿认为,垂直大模型+应用场景+商业模式是大趋势。美图拥有深厚的计算机视觉技术沉淀,针对视觉领域搭建了完善的模型算法架构。美图在图片、视频、设计、数字人等领域具有丰富的应用场景和落地经验。此外,美图拥有清晰商业模式,可以让视觉大模型快速变现。

微信截图_20230804080527.png

据悉,目前,美图在AI层面有多个成功实践案例。“AI绘画”系列涵盖文生图、文字融合、图生图、涂鸦生图、线稿上色、头像制作、宠物头像等功能。“AI写真”可以帮助训练用户专属的AI模型,革新传统影楼拍摄方式。“AI扩图”能大幅提高图片素材利用率,拓展图片边界,同时用于生活与商业场景。

此外,美图设计室推出“AI潮鞋”功能,联合华为云发布SaaS应用“AI模特试衣”,为服装电商提供一站式AI解决方案。

吴欣鸿表示,美图自研视觉大模型可以帮助用户提高生产力、助力产业数字化升级。同时,也能在“深化社会美学素养”、“提升全民数字技能”上发挥重要作用。

举报

  • 相关推荐
  • 大家在看
  • 马斯克XAI发布Grok-1.5 Vision 多模态模型 可处理文本和片信息

    在人工智能领域,多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用,我们有理由相信,它将在多个领域发挥重要作用,推动人工智能技术向前发展。

  • Grok-1.5 Vision Preview官网体验入口 X.AI多模态AI模型详细介绍

    Grok-1.5VisionPreview是X.AI公司推出的首个多模态模型。除了强大的文本处理能力,Grok还能处理各种视觉信息,如文档、图表、截图和照片等。点击前往Grok-1.5VisionPreview官网体验入口需求人群:辅助决策分析内容生成工作效率提升使用场景示例:使用Grok-1.5V分析复杂的商业报告,快速提取关键数据和见解利用Grok-1.5V自动生成项目计划草稿,并优化资源分配通过Grok-1.5V理解工厂设备使用说明,提高维修效率产品特色:多学科推理文档理解图表解读现实世界理解图像处理掌握Grok-1.5VisionPreview,体验多模态AI的强大功能和无限潜力。

  • 戴尔Precision工作站:助力客户更有效地使用GenAI大语言模型

    如何配置个人电脑才能更有效地使用生成式AI大语言模型生成式人工智能彻底改变了计算世界,戴尔科技的用户都开始考虑借助大语言模型去开发能够提升其公司生产力、效率和创新力的新功能。戴尔科技拥有全球最丰富的AI基础设施产品组合,从云到客户端设备一应俱全[1],因此能够为用户提供满足其一切AI需求的端到端AI解决方案和服务。[1]基于戴尔科技集团的内部分析,2023年8月。

  • 讯飞星火大模型V3.5升级 推出长文本、长文、长语音大模型

    科大讯飞今日发布重大更新,讯飞星火大模型V3.5升级,不仅推出了首个长文本、长图文、长语音大模型首次将多情感超拟人合成技术引入市场,并同步推出了星火智能体平台。这一系列创新举措,旨在为招投标应用和合同应用提供更为强大的技术支持。插件市场和原生应用也为开发者和用户提供更多功能和工具选择,共同构建讯飞星火大模型生态。

  • Gemini 1.5 Pro API怎么申请注册使用?Gemini 1.5 Pro AI模型官网地址入口

    Gemini1.5Pro是Google开发者平台推出的下一代AI模型。它支持语音理解、系统指令、JSON输出等新功能,并推出了新一代文本嵌入模型Gecko,性能大幅提升。要了解更多关于Gemini1.5Pro的信息,并开始体验这一先进的AI模型,请访问Gemini1.5Pro官网。

  • AI日报:最强大模型Llama 3发布;Midjourney推社交新功能Room;超强AI视频自动剪辑工具Captions;手机上可以玩大模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、最强大模型Llama3正式发布Llama3是Meta公司最新发布的开源模型,拥有80亿和700亿参数规模,预计7月正式发布。教师免费使用该AI平台设计个性化课堂体验,提供实时洞察力支持学�

  • 通义千问开源基于Qwen1.5的代码模型CodeQwen1.5

    通义千问昨晚开源了基于Qwen1.5的代码模型CodeQwen1.5,这是一个基于Qwen语言模型的代码专家模型。CodeQwen1.5拥有7B参数,采用GQA架构,经过约3Ttokens代码数据的预训练,支持92种编程语言,并且能够处理最长64K的上下文输入。开源社区对CodeQwen1.5的发布充满期待,希望它在代码助手、CodeAgent等方面为社区做出贡献,并在未来的代码智能建设中发挥重要作用,实现真正的AI程序员。

  • AI日报:首个AI程序员Devin造假被抓;​Sora平替?StreamingT2V试玩地址公布;Udio AI还可以创作喜剧、演讲;XAI发布Grok-1.5Vision多模态模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用Sora平替?2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布UdioAI提供多功能音频生成还可以创作喜剧、演讲、电台广播等美图Wink“AI动漫”功能升级可将短剧作品转化为动漫风格StableDesign:适用于室内装修设计的SD方案文字提示就可修改室内设计图比换脸更强大!SwapAnything:替换图片中的任意元素AI延时视频生成工具MagicTime在线体验地址放出自动化写作工具STORM:可生成像维基百科一样的深度长篇内容Meta推出ViewDiff模型:文本生成多视角3D图像📰🤖📢AI新鲜事首个AI程序员造假被抓,Devin再次“震撼”硅谷!扒皮视频文字详解附上马斯克XAI发布Grok-1.5Vision多模态模型,可处理文本和图片信息360智脑7B参数大模型正式开源最长支持约50万字输入Adobe图像生成AI“Firefly”训练集中约有5%为AI图像代码、模型全开源!贾佳亚团队多模态模型Mini-Gemini登上热榜面壁智能开源MiniCPM2.0系列模型OCR等能力显著增强竞争升温!ChatGPT增长疲软3月全球访问量17.7亿次,Claude逐渐崛起InstantID团队推新风格迁移方法InstantStyle一键置身“梵高星空”——————每日midjourneyprompt:小说古风美女图源备注:图片由AI生成,图片授权服务商MidjourneyAbeautifulwomanfromancientChina,dressedinagorgeousredHanfu,withlonghairdrapedoverhershoulders,satinherboudoirwithasmile.Ancientstyle,hanfu,boudoir,gorgeous,palace,screen,carpet,softlight,eleganttemperament,ancientculture,inlinewithorientalaesthetics,richdetails,bestquality,exquisitemakeup,cleareyelinerpen,slendereyebrows,texturedskin,whiteskin,charmingheaddress,--ar3:4--niji6--styleraw一个中国古代美女,穿着华丽的红色汉服,长发披肩,微笑着坐在闺房内。

  • Kimi“颠儿了”以后:国产大模型危机感重重

    受Kimi影响,百度的文心一言和阿里的通义千问,用户访问量大幅下滑,降幅分别达到33.42%与45.05%。1此消彼长问世以来,Kimi就在不断“吊打”国内各大厂AI模型。但Kimi也并非这场技术竞赛的终点。

  • 模型未发API先至!Stable Diffusion 3 API 发布 性能比肩 Midjourney v6

    其开发者平台API现已支持最新版本的StableDiffusion3及其增强版本StableDiffusion3Turbo。这一发布标志着StabilityAI在文字到图像生成领域的技术进步,其性能已经达到甚至超越了行业内的一些领先模型,如DALL-E3和Midjourneyv6。公司承诺提供99.9%的服务可用性,这对于企业用户来说尤为重要,因为他们在使用开发者平台进行关键的生成型AI工作时,需要确保服务的稳定性和可靠性。

今日大家都在搜的词: