美图吴欣鸿：自研视觉大模型MiracleVision已迭代至1.5版本

2023-08-04 08:05 · 稿源：站长之家

站长之家（ChinaZ.com）8月4日消息:8月3日，美图创始人、董事长兼CEO吴欣鸿参加第四届中国人工智能大赛成果发布会。在会上，吴欣鸿透露，目前美图自研视觉大模型已迭代到1.5版本，并应用于美图旗下多款产品。

吴欣鸿认为，垂直大模型+应用场景+商业模式是大趋势。美图拥有深厚的计算机视觉技术沉淀，针对视觉领域搭建了完善的模型算法架构。美图在图片、视频、设计、数字人等领域具有丰富的应用场景和落地经验。此外，美图拥有清晰商业模式，可以让视觉大模型快速变现。

微信截图_20230804080527.png

据悉，目前，美图在AI层面有多个成功实践案例。“AI绘画”系列涵盖文生图、文字融合、图生图、涂鸦生图、线稿上色、头像制作、宠物头像等功能。“AI写真”可以帮助训练用户专属的AI模型，革新传统影楼拍摄方式。“AI扩图”能大幅提高图片素材利用率，拓展图片边界，同时用于生活与商业场景。

此外，美图设计室推出“AI潮鞋”功能，联合华为云发布SaaS应用“AI模特试衣”，为服装电商提供一站式AI解决方案。

吴欣鸿表示，美图自研视觉大模型可以帮助用户提高生产力、助力产业数字化升级。同时，也能在“深化社会美学素养”、“提升全民数字技能”上发挥重要作用。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
马斯克XAI发布Grok-1.5 Vision 多模态模型可处理文本和图片信息

在人工智能领域，多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision，这一模型不仅能够处理文本信息能够理解和分析各种视觉数据，如文档、图表、截图和照片，标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用，我们有理由相信，它将在多个领域发挥重要作用，推动人工智能技术向前发展。

Grok-1.5Vision AI头条
Grok-1.5 Vision Preview官网体验入口 X.AI多模态AI模型详细介绍

Grok-1.5VisionPreview是X.AI公司推出的首个多模态模型。除了强大的文本处理能力，Grok还能处理各种视觉信息，如文档、图表、截图和照片等。点击前往Grok-1.5VisionPreview官网体验入口需求人群：辅助决策分析内容生成工作效率提升使用场景示例：使用Grok-1.5V分析复杂的商业报告，快速提取关键数据和见解利用Grok-1.5V自动生成项目计划草稿，并优化资源分配通过Grok-1.5V理解工厂设备使用说明，提高维修效率产品特色：多学科推理文档理解图表解读现实世界理解图像处理掌握Grok-1.5VisionPreview，体验多模态AI的强大功能和无限潜力。

Grok-1.5VisionPreview Grok-1.5V
戴尔Precision工作站：助力客户更有效地使用GenAI大语言模型

如何配置个人电脑才能更有效地使用生成式AI大语言模型生成式人工智能彻底改变了计算世界，戴尔科技的用户都开始考虑借助大语言模型去开发能够提升其公司生产力、效率和创新力的新功能。戴尔科技拥有全球最丰富的AI基础设施产品组合，从云到客户端设备一应俱全[1]，因此能够为用户提供满足其一切AI需求的端到端AI解决方案和服务。[1]基于戴尔科技集团的内部分析，2023年8月。

生成式AI 大语言模型戴尔科技
讯飞星火大模型V3.5升级推出长文本、长图文、长语音大模型

科大讯飞今日发布重大更新，讯飞星火大模型V3.5升级，不仅推出了首个长文本、长图文、长语音大模型首次将多情感超拟人合成技术引入市场，并同步推出了星火智能体平台。这一系列创新举措，旨在为招投标应用和合同应用提供更为强大的技术支持。插件市场和原生应用也为开发者和用户提供更多功能和工具选择，共同构建讯飞星火大模型生态。

科大讯飞讯飞星火大模型V3.5 多情感超拟人合成技术
Gemini 1.5 Pro API怎么申请注册使用？Gemini 1.5 Pro AI模型官网地址入口

Gemini1.5Pro是Google开发者平台推出的下一代AI模型。它支持语音理解、系统指令、JSON输出等新功能，并推出了新一代文本嵌入模型Gecko，性能大幅提升。要了解更多关于Gemini1.5Pro的信息，并开始体验这一先进的AI模型，请访问Gemini1.5Pro官网。

Gemini1.5Pro
荐AI日报：最强大模型Llama 3发布；Midjourney推社交新功能Room；超强AI视频自动剪辑工具Captions；手机上可以玩大模型了

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、最强大模型Llama3正式发布Llama3是Meta公司最新发布的开源模型，拥有80亿和700亿参数规模，预计7月正式发布。教师免费使用该AI平台设计个性化课堂体验，提供实时洞察力支持学�

Llama3
通义千问开源基于Qwen1.5的代码模型CodeQwen1.5

通义千问昨晚开源了基于Qwen1.5的代码模型CodeQwen1.5，这是一个基于Qwen语言模型的代码专家模型。CodeQwen1.5拥有7B参数，采用GQA架构，经过约3Ttokens代码数据的预训练，支持92种编程语言，并且能够处理最长64K的上下文输入。开源社区对CodeQwen1.5的发布充满期待，希望它在代码助手、CodeAgent等方面为社区做出贡献，并在未来的代码智能建设中发挥重要作用，实现真正的AI程序员。

通义千问 CodeQwen1.5 AI头条
荐AI日报：首个AI程序员Devin造假被抓；Sora平替?StreamingT2V试玩地址公布；Udio AI还可以创作喜剧、演讲；XAI发布Grok-1.5Vision多模态模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/🤖📱💼AI应用Sora平替?2分钟超长AI视频模型StreamingT2V免费开源试玩地址公布UdioAI提供多功能音频生成还可以创作喜剧、演讲、电台广播等美图Wink“AI动漫”功能升级可将短剧作品转化为动漫风格StableDesign:适用于室内装修设计的SD方案文字提示就可修改室内设计图比换脸更强大!SwapAnything:替换图片中的任意元素AI延时视频生成工具MagicTime在线体验地址放出自动化写作工具STORM:可生成像维基百科一样的深度长篇内容Meta推出ViewDiff模型:文本生成多视角3D图像📰🤖📢AI新鲜事首个AI程序员造假被抓，Devin再次“震撼”硅谷!扒皮视频文字详解附上马斯克XAI发布Grok-1.5Vision多模态模型，可处理文本和图片信息360智脑7B参数大模型正式开源最长支持约50万字输入Adobe图像生成AI“Firefly”训练集中约有5%为AI图像代码、模型全开源!贾佳亚团队多模态模型Mini-Gemini登上热榜面壁智能开源MiniCPM2.0系列模型OCR等能力显著增强竞争升温!ChatGPT增长疲软3月全球访问量17.7亿次，Claude逐渐崛起InstantID团队推新风格迁移方法InstantStyle一键置身“梵高星空”——————每日midjourneyprompt:小说古风美女图源备注：图片由AI生成，图片授权服务商MidjourneyAbeautifulwomanfromancientChina，dressedinagorgeousredHanfu，withlonghairdrapedoverhershoulders，satinherboudoirwithasmile.Ancientstyle，hanfu，boudoir，gorgeous，palace，screen，carpet，softlight，eleganttemperament，ancientculture，inlinewithorientalaesthetics，richdetails，bestquality，exquisitemakeup，cleareyelinerpen，slendereyebrows，texturedskin，whiteskin，charmingheaddress，--ar3:4--niji6--styleraw一个中国古代美女，穿着华丽的红色汉服，长发披肩，微笑着坐在闺房内。

Devin
荐Kimi“颠儿了”以后：国产大模型危机感重重

受Kimi影响，百度的文心一言和阿里的通义千问，用户访问量大幅下滑，降幅分别达到33.42%与45.05%。1此消彼长问世以来，Kimi就在不断“吊打”国内各大厂AI模型。但Kimi也并非这场技术竞赛的终点。

Kimi 大模型
荐模型未发API先至！Stable Diffusion 3 API 发布性能比肩 Midjourney v6

其开发者平台API现已支持最新版本的StableDiffusion3及其增强版本StableDiffusion3Turbo。这一发布标志着StabilityAI在文字到图像生成领域的技术进步，其性能已经达到甚至超越了行业内的一些领先模型，如DALL-E3和Midjourneyv6。公司承诺提供99.9%的服务可用性，这对于企业用户来说尤为重要，因为他们在使用开发者平台进行关键的生成型AI工作时，需要确保服务的稳定性和可靠性。

StableDiffusion3

Chat UI:开源代码库，为HuggingChat应用提供动力

chat-ui是一个开源的聊天界面，使用开源模型如OpenAssistant或Llama。它是一个SvelteKit应用程序，为hf.co/chat上的HuggingChat应用提供支持。该产品允许用户通过自定义配置来运行和部署自己的Chat UI实例，支持多种语言模型和功能，如Web搜索、自定义模型等。

开源聊天应用 SvelteKit

360AI浏览器APP:360AI 浏览器，AI 赋能，秒懂一切。

360AI 浏览器利用人工智能技术，提供智能搜索、PDF、视频、网页总结等功能，旨在帮助用户高效获取知识，提升阅读体验。

智能搜索 PDF 阅读视频播放

FAQ Generator:免费AI生成FAQ，无需注册即可创建网站FAQ模板。

AI FAQ Generator是一款利用先进AI技术，通过分析常见问题自动生成FAQ列表的工具。它能够快速高效地生成FAQ，节省时间和资源，同时提供准确的答案，帮助提高客户满意度，并改善SEO效果。

AI技术自动化 FAQ创建

BrickCenter:一个创意无限的乐高设计平台，让你的想象力变为现实。

BrickCenter是一个在线平台，允许用户免费创建自己的乐高套装和迷你人物。它提供了一个将创意转化为详细乐高设计的工具，无论是复杂的场景还是个性化的迷你人物，用户都可以在这个平台上实现自己的设计梦想。该平台以其用户友好的界面和强大的定制功能而受到乐高爱好者的欢迎。

创意设计乐高

100 UI/UX Tips:在一个小时内学习如何制作令人印象深刻的应用程序界面。

《100 UI/UX Tips》提供了设计界面所需的所有提示，让用户感到满意。强调产品的主要优点、背景信息、价格和定位。

设计用户界面用户体验

whatwide.ai:提高生产力的AI助手，简单易用

whatwide.ai是一个提高生产力的AI助手，使用人工智能技术来节省时间并提高工作效率。它提供了50多种AI模型，包括文本生成、网站帮助、社交媒体分析、编程辅助等多种功能。whatwide.ai的优点在于高质量的内容生成、快速且安全的操作，以及多种AI类型供用户选择。

生产力文本生成网站帮助

Stream of Consciousness:一个展示想象中艺术家思绪的日常表演，通过创作和分享图像来表达创造力。

Stream of Consciousness是一个记录并分享艺术家思维的项目，通过创作和分享图像来展示创造力。它提供了一个深入艺术家思维的窗口，让人们了解艺术创作的过程和灵感的来源。

艺术创作思绪

Neurelo:是一种用于PostgreSQL、MongoDB和MySQL的云数据API平台，通过自动生成REST和GraphQL数据API、AI辅助的自定义查询API、查询可观察性等功能，简化和加速现代云应用程序开发。

Neurelo是一个专为云数据库而设计的平台，通过使用云API和人工智能技术，提供自动生成API、自定义查询API、查询可观察性和Schema as Code等功能，以提高开发人员的生产力。Neurelo能够简化数据库编程相关的复杂性，并具备可伸缩性、安全性和查询优化能力。

数据库云应用程序 API

EdrawMax:智能且风格多样的图表解决方案，简化您的想法可视化过程。

EdrawMax是一款功能强大的图表设计软件，它提供一站式的图表解决方案，适用于流程图、思维导图、组织结构图、甘特图、平面图和ER图等210多种图表类型。它具有简洁的用户界面，类似于MS Office的干净、整齐的界面，直观且易于导航的工具集，以及无缝的拖放功能。此外，EdrawMax还提供了23000多个用户制作的模板，850个精心制作的内置模板，以及26000多个免费符号，覆盖所有图表类型。它还具备AI功能，可以生成和分析22种类型的图表，包括文本到绘图和图片到绘图以及AI聊天。EdrawMax支持跨平台集成，可以在云端保存文件并通过链接共享，支持通过社交媒体或电子邮件发送作品，并能以13种格式导出图表，包括VSDX、PPTX和SVG等。此外，EdrawMax遵循GDPR标准，使用最高级别的256位SSL加密，确保用户隐私和数据安全。

图表设计 AI生成跨平台

Notta Showcase:通过AI技术，轻松实现视频的多语言翻译和配音，连接全球观众。

Notta Showcase是一款在线视频翻译和配音工具，它通过AI技术帮助用户将视频内容翻译成15种不同的语言，同时保持原始的语音风格和情感，以提供自然的听觉体验。该产品的主要优点包括高效率、成本效益、用户友好的界面、高准确度的转录和翻译，以及支持多种文件格式和平台。它适用于营销、社交媒体和教育等多个领域，可以显著扩大内容的全球影响力。

AI翻译视频配音内容本地化

SunoAI API:开源项目，实现AI音乐服务的API接口

Suno API是一个开源项目，允许用户设置自己的Suno AI音乐服务API。它实现了app.suno.ai的创建API，兼容OpenAI的API格式，支持自定义模式，一键部署到Vercel，并且拥有开放源代码许可证，允许自由集成和修改。

AI音乐 API 开源

x-crawl:灵活的 Node.js AI 辅助爬虫库，让爬虫工作更高效、智能、便捷。

x-crawl 是一款基于 Node.js 的 AI 辅助爬虫库，它通过强大的 AI 辅助功能，使得爬虫工作变得更加高效、智能和便捷。它支持对动态页面、静态页面、接口数据以及文件数据的爬取，同时提供了自动化操作、键盘输入、事件操作等控制页面的能力。此外，它还具备设备指纹、异步同步、间隔爬取、失败重试、轮换代理、优先队列和记录爬取等功能，以适应不同的爬取需求。x-crawl 拥有类型，通过泛型实现完整的类型，基于 MIT 许可发布，适合需要进行数据爬取的开发者和企业。

爬虫 AI辅助自动化

MetaCLIP:一种用于图像和文本数据的先进机器学习模型，专注于数据质量和透明度。

MetaCLIP是一个开源的机器学习模型，用于图像和文本的联合表示学习。它通过一个简单算法对CLIP数据进行筛选，不依赖于先前模型的过滤，从而提高了数据的质量和透明度。MetaCLIP的主要贡献包括无过滤的数据筛选、透明的训练数据分布、可扩展的算法和标准化的CLIP训练设置。该模型强调数据质量的重要性，并提供预训练模型，以支持研究人员和开发者进行控制实验和公平比较。

机器学习图像识别文本处理

AITown:一个虚拟城镇，AI角色在这里生活、聊天和社交。

AI Town是一个基于MIT许可的可部署启动套件，用于构建和定制您自己的AI城镇版本。这个项目受到了研究论文'Generative Agents: Interactive Simulacra of Human Behavior'的启发，旨在提供一个强大的基础平台，旨在被扩展。后端原生支持共享全局状态、事务和模拟引擎，适用于从简单的项目到可扩展的多人游戏。

AI 虚拟城镇聊天模拟

Vanna:通过自然语言生成SQL查询，简化数据库交互。

Vanna是一个使用Retrieval-Augmented Generation (RAG) 技术的开源Python框架，用于SQL生成和相关功能。它通过训练RAG模型，将自然语言问题转换为SQL查询，从而允许用户以提问的形式与数据库进行交互。Vanna的主要优点包括高准确度、安全性、私有性、自学习能力，并且支持任何SQL数据库。

SQL 自然语言处理数据库

Fal AI:AI图片生成式开发者平台

fal.ai 是一款面向开发者的生成媒体平台，提供了业界最快的推理引擎，可以让您以更低的成本运行扩散模型，创造出全新的用户体验。它拥有实时、无缝的 WebSocket 推理基础设施，为开发者带来了卓越的使用体验。fal.ai 的定价方案根据实际使用情况灵活调整，确保您只为消耗的计算资源付费，实现了最佳的可扩展性和经济性。

生成媒体推理引擎开发者工具

Chat With Llama 3:一个开源的聊天机器人，能够解释概念、写诗、编程、解逻辑谜题。

Chat With Llama 3 是一个开源的聊天机器人，由Meta AI开发。它能够进行多种智能对话，包括解释复杂概念、创作诗歌、编写代码、解决逻辑谜题，甚至帮助用户给宠物起名。这个聊天机器人的主要优点在于它的多功能性和开源性，使其可以被广泛地应用于各种场景，并且可以根据需要进行定制和改进。

人工智能聊天机器人开源

AI图片生成与搜索:释放创意，一键生成或搜索超过200万张AI图片。

AI图片生成与搜索是一个在线平台，利用先进的人工智能技术，允许用户快速生成或搜索各种风格的AI图片。该技术的重要性在于它能够极大提高设计和创意工作的效率，同时降低成本。产品的主要优点包括丰富的图片资源、高效的生成速度、以及用户友好的界面。产品背景信息显示，这是一个面向广大创意工作者和设计师的工具，旨在帮助他们快速实现创意构想。目前，该产品提供免费试用，但具体价格和定位信息未在页面中提供。

AI技术图像生成创意工具

OpenPerplex:，您的知识门户

OpenPerplex是一个提供广泛知识资源的在线平台，它通过整合多种信息源，为用户提供了一个便捷的知识获取渠道。该产品以其丰富的信息量、高效的检索能力和友好的用户界面而受到用户的青睐。它不仅适用于个人学习，也适合专业人士进行深入研究。

知识获取信息检索在线学习

JavaVision:基于Java的全能视觉智能识别项目

JavaVision是一个基于Java开发的全能视觉智能识别项目，它不仅实现了PaddleOCR-V4、YoloV8物体识别、人脸识别、以图搜图等核心功能，还可以轻松扩展到其他领域，如语音识别、动物识别、安防检查等。项目特点包括使用SpringBoot框架、多功能性、高性能、可靠稳定、易于集成和灵活可拓展。JavaVision旨在为Java开发者提供一个全面的视觉智能识别解决方案，让他们能够以熟悉且喜爱的编程语言构建出先进、可靠且易于集成的AI应用。

美图吴欣鸿：自研视觉大模型MiracleVision已迭代至1.5版本

今日大家都在搜的词：

热文

站长商机