AI视野：美图大模型将向公众开放；阿里AnyText破解AI绘图模型写字难题；Meta推全新视频生成模型FlowVid；黑客大规模恶意注册ChatGPT相似域名

2024-01-02 15:39 · 稿源：站长之家

🤖📈💻💡大模型动态

美图大模型将向公众开放

美图公司的AI视觉大模型MiracleVision于2023年6月内测，已升级至4.0版本并通过备案，成为国内唯一专注视觉领域的大模型，将在电商、广告、游戏、动漫、影视等行业开放服务。

【AiBase提要:】
🌐 MiracleVision4.0升级，为美图旗下产品提供AI模型能力。
🔓 是国内备案通过的唯一专注视觉领域的大模型。
🚀 将在电商、广告、游戏、动漫、影视等行业开放服务。

Meta推全新视频生成模型FlowVid

Meta与清华校友合作开发的FlowVid视频生成模型利用V2V技术，在短短1.5分钟内生成4秒视频，突破了时间连贯性难题，通过光流技术实现视频帧之间的高度一致性。

论文地址:https://arxiv.org/pdf/2312.17681.pdf

项目地址:https://top.aibase.com/tool/flowvid

【AiBase提要:】
🚀 新模型发布: Meta与清华校友联手推出FlowVid视频生成模型，采用V2V技术，为AI视频生成领域带来新突破。
⚙️ 核心技术: FlowVid利用空间条件和源视频中的时间光流信息，解决了V2V合成的时间连贯性难题，保持视频帧之间的一致性。
🌐 用户研究表现: 在用户研究中，FlowVid在及时对齐和整体视频质量方面表现出色，以45.7%的偏好率超越其他V2V模型，如CoDeF、Rerender和TokenFlow。

LangSplat:比LERF快199倍的3D语言搜索模型

LangSplat是由清华大学和哈佛大学研发的3D语言高斯模型，通过将CLIP特征映射到3D语言高斯中，实现了比LERF快199倍的精准3D语言搜索。

项目体验网址:https://top.aibase.com/tool/langsplat

【AiBase提要】
🚀 创新方法: LangSplat通过将CLIP特征映射到一组3D语言高斯中，实现了精准的3D语言场，比LERF快199倍。
🌍3D语言场: LangSplat构建了一个3D语言场，支持在3D空间内进行精准高效的开放式语言查询。
🎨 视觉效果: LangSplat通过可视化学习特征，准确捕捉物体边界，无需后处理，同时在1440×1080分辨率下比LERF快199倍。

多模态AI模型Unified-IO2:可理解和生成图像、文本、音频和动作

近日，由艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校和华盛顿大学的研究人员联合开发的Unified-IO2标志着人工智能领域的一次飞跃。该模型采用独特的单编码器-解码器变压器模型，能够处理和生成文本、图像、音频和视频等多种数据类型。在35个数据集上的评估中，Unified-IO2创下了GRIT评估的新记录，特别在图像生成方面超越了竞争对手，展现了其卓越的设计和性能。

项目体验网址:https://top.aibase.com/tool/unified-io-2

【AiBase提要:】
🌐 多模态整合前沿: Unified-IO2是一款具有自回归能力的多模态AI模型，能够处理和生成文本、图像、音频和视频等多种数据类型，标志着人工智能领域的重大突破。
🧠 创新架构: 采用独特的单编码器-解码器变压器模型，通过共享的表示空间对不同输入进行编码，克服了以往模型在处理多模态数据时的限制，展现了其卓越的设计和性能。
📈 性能超群: 在35个数据集上进行评估，Unified-IO2在GRIT评估中创下新的记录，在关键点估计和表面法线估计等任务上表现卓越，特别在图像生成方面超越了竞争对手，展现了其广泛的能力范围。

📰🤖📢AI新鲜事

AI绘图模型写字难题被阿里AnyText破解

阿里巴巴推出的AnyText AI绘图工具成功解决了以往模型难以准确写入文字的问题，支持中英日韩四种语言，可以任意指定文字位置。

项目体验网址:https://top.aibase.com/tool/anytext-tuwenronghe

【AiBase提要:】
🎨 多语言支持:AnyText能够准确绘制中英日韩四种语言，彻底解决了文字绘图模型的难题。
🖌️ 灵活文字定位:用户可以精准指定文字位置，包括在绘制时加入文字、修改已有文字或向图中添加文字。
🌐 独立完成文字渲染:AnyText基于扩散模型，通过隐空间辅助模块和文本嵌入模块实现文字生成，提高了书写精度和文字与背景的一致性。

微软推出WaveCoder:提升指令调优与数据生成

微软研究人员发布WaveCoder模型，通过多才的指令调优在代码相关任务上表现出色。引入CodeOcean数据集，采用基于LLM的生成器-鉴别器框架，从开源代码中生成多样、高质量指令数据，扩展指令调优的泛化能力。

论文网址:https://arxiv.org/pdf/2312.14187.pdf

【AiBase提要:】
🚀 WaveCoder模型通过广泛指令调优在不同任务上表现出色。
📊 引入CodeOcean数据集，包含4个通用任务的指令实例，增强指令调优效果。
🔄 提出基于LLM的生成器-鉴别器框架，分类生成多样、高质量指令数据，控制数据质量。

斯坦福Meta研究证明Gemini推理能力强于GPT-3.5

斯坦福和Meta的研究发现，Gemini在全面的常识推理任务中表现强劲，超越先前基于有限数据集的评估，证明其推理性能优于GPT-3.5。

【AiBase提要】:
🌐 斯坦福和Meta的研究挽回了Gemini在常识推理上的声誉，强调有限数据集评估的不足。
🚀 在综合12个常识推理数据集的测试中，Gemini在复杂推理任务中表现出强大的潜力。
💡 在多模态和语言任务中，Gemini Pro的表现与GPT-3.5相当，略逊于GPT-4，揭示了不同模型在不同推理任务上的优劣。

黑客大规模恶意注册与ChatGPT相似的域名

网络安全研究发现黑客大规模注册与ChatGPT相似的域名，模糊用户判断，利用模型信誉欺骗用户，涉及超过65万个恶意域名，引发下载恶意内容和泄露敏感信息等安全问题。

【AiBase提要:】
🌐 恶意利用ChatGPT名声: 黑客注册大量与ChatGPT相似的域名，借助模型信誉欺骗用户，引发下载恶意内容、泄露敏感信息等问题。
🌐 Cl0p勒索软件攻击: 利用MOVEit的零日漏洞，俄罗斯Cl0p组织实施全球企业和美国机构的勒索软件攻击，包括勒索未付款时将数据泄露到公开网络的新策略。
🌐 多样化威胁: 包括Mozi僵尸网络关闭、Android/Pandora威胁攻击智能设备、对ChatGPT用户的定向攻击等，强调API密钥隐私保护的重要性。

🤖📱💼AI应用

多功能即时语音克隆技术OpenVoice

OpenVoice是一项实用的即时仿声技术，能根据目标发言人的短音频模仿其声音，精细控制情感、口音、语调等，实现零样本跨语言模仿。

项目地址:https://top.aibase.com/tool/openvoice

【AiBase提要】
🔊 准确音色克隆: OpenVoice可复制参考音色，生成多语言和口音的语音。
🎭 灵活语音风格控制: 用户可精细控制情感、口音、语调、停顿和节奏等语音风格。
🌐 零射击跨语言语音克隆: 模型可在未训练语言中生成语音，展示适应性和多功能性。

👨‍💻💡🎯聚焦开发者

ComfyUI实用插件!可在ComfyUI中调用GPT-4和DALL-E3

Plush-for-ComfyUI插件在ComfyUI平台中调用GPT-4和DALL-E3，通过图片提取提示词，实现图像处理与生成，为用户提供强大而有趣的工具。

项目地址:https://top.aibase.com/tool/plush-for-comfyui

【AiBase提要:】
🚀 Plush-for-ComfyUI插件可在ComfyUI平台调用GPT-4和DALL-E3，提供强大的图像处理与生成功能。
💡 插件包括Style Prompt和OAI Dall_e3节点，支持文本和图像提示，生成ChatGPT3或4的提示，以及使用DALL-E3生成图像。
🔑 使用前需配置OpenAI API密钥，安装ComfyUI、Base和Refiner SDXL模型，推荐初次使用选择完整的SDXL Base和Refiner模型获取最佳效果。

开放世界游戏角色扮演智能体框架LARP 唤醒NPC

LARP是一个创新框架，致力于增强用户与语言代理在开放世界游戏中的互动体验。其认知架构包含记忆处理和决策辅助功能，环境交互模块通过反馈驱动学习提高代理在游戏环境中的适应能力，而后处理方法促进各种个性的对齐，提供更真实、沉浸式的交互。

项目地址:https://top.aibase.com/tool/larp

【AiBase提要:】
🧠 认知架构: LARP采用强大认知架构，注重记忆处理和决策辅助，确保代理在动态开放世界中的连贯行动。
🔄 环境交互模块: 具备反馈驱动可学习行动空间，使代理能够实时学习并调整行动，提高在游戏环境中的导航和交互能力。
🎭 个性对齐后处理: 引入后处理方法促进各种个性的对齐，提升代理交互真实感，为用户创造更沉浸式、引人入胜的开放世界游戏体验。

MagicDance:基于扩散的人体运动传递框架生成逼真舞蹈视频

MagicDance框架是一种基于扩散的计算机视觉模型，通过两阶段训练策略专注于人体动作解缠和外观因素，成功生成高度逼真的人类舞蹈视频，为计算机视觉和人工智能领域带来新可能性。

项目地址:https://top.aibase.com/tool/magicdance

【AiBase提要:】
😲 MagicDance框架采用稳定扩散模型，在两阶段训练中关注外观解缠，成功生成既逼真又具有原始身份信息的舞蹈视频。
🌐 在TikTok数据集上预训练，展现了卓越的泛化能力，MagicDance框架在复杂运动序列和不同人类身份下保持高水准逼真性。
🚧 尽管面临一些挑战，如复杂场景中的面部标志和姿势骨架检测，MagicDance框架为人体运动传递和舞蹈视频生成领域带来显著进展。

腾讯推新技术Paint3D 给3D模型生成高清纹理

腾讯推出的Paint3D技术在解决3D模型缺乏内嵌光照信息的情况下，能够自动化生成高分辨率、无光照的多样化纹理贴图，为自动化纹理贴图生成领域带来重大进展。

项目地址:https://top.aibase.com/tool/paint3d

【AiBase提要:】
🚀Paint3D利用两阶段纹理生成框架，在UV纹理空间上训练无光照扩散模型，显著提升了3D模型纹理生成效果，成为唯一能生成无内嵌光照纹理的算法。
🌐Paint3D通过量化和定性实验，几乎在所有样本上达到更好的效果，在纹理生成质量和符合输入条件方面优于当前最佳算法，标志着自动化纹理贴图生成领域的重大进展。
🖌️Paint3D生成的纹理贴图没有内嵌光照阴影效果，可被重新照明或编辑，直接应用于现有渲染管线，在艺术创作、数字媒体制作和游戏内容创作等领域具有重要作用。

（举报）

相关推荐
大家在看

关键词：

美图大模型

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
对标Sora！快手自研视频生成大模型可灵AI全面开放内测

日前，快手视频生成大模型可灵AI宣布基础模型升级，并全面开放内测，同时正式上线付费会员体系。用户每日登录都可免费获得66灵感值，可用于兑换可灵AI平台内指定的功能使用权或增值服务，可生成约6个免费视频。可灵AI于今年6月上线，支持文生视频、图生视频、延长视频功能，效果对标Sora。

视频生成 AI技术付费会员体系
视频生成模型Gen-3 Alpha和Dream Machine有API了？

近日AI视频生成工具接连“内卷”，开始”神仙打架“模式。无论是Runway的Gen-3AIpha还是Luma的DreamMachine都是业内翘楚!既然同样作为视频生成模型，那肯定免不了拿来对比。API超市:丰富的API库，可在线调试API，支持用户使用API和开源工具对接，为小白用户和开发者提供友好的API平台。

ai头条
荐AI日报：性能超GPT-4o！Meta4050亿参数开源模型Llama3.1遭泄漏；Stability AI开源音频生成模型Stable Audio Open

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、震惊AI界！14、微软研究院推AI框架E5-V:用文本对的单模态训练简化多模态学习降低成本微软研究院与北京航空航天大学联合推出的E5-V框架通过单模态训练简化多模态学习，降低成本，在多个任务中展现出优异性能，代表了多模态学习的重大进步。

Llama3.1
Meta推出AI新模型：1分钟内生成高质量3D素材

科技巨头Meta震撼发布了其前沿AI创新成果Meta3DGen，这一突破性技术能够在极短的时间内，即不足1分钟，迅速孕育出令人瞩目的高质量3D素材，极大地加速了创意内容生产的进程。Meta表示，3DGen不仅拥有令人咋舌的速度，更在细节处理上展现出了非凡实力。业内专家普遍认为，Meta3DGen及其所搭载的PBR技术，无疑将引领3D内容创作领域的新一轮革命，为游戏、电影、广告等多个行业带来前所未有的创作自由与效率提升，推动数字娱乐与创意产业的蓬勃发展。

Meta AI技术 3DGen
荐AI日报：商汤Vimi视频生成大模型开放内测；腾讯智影上线AI视频功能；可直接生成6k图像的生成器UltraPixel

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、商汤科技推出Vimi视频生成大模型C端应用Vimi相机开放内测商汤科技在2024年世界人工智能大会上推出了Vimi视频生成大模型，为用户提供精准的表情和肢体控制，支持多种驱动方式

Vimi
荐AI日报：文本转语音模型Fish Speech；Meta 3D Gen发布，1分钟快速构建3D模型；AI生成熊猫吃泡面视频刷屏抖音

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、媲美GPT-SoVITS！艺术家们已经无法与计算机生成的图像竞争，导致许多人放弃了艺术家的职业。

文本转语音
Llama-3.1-70B有哪些功能？Meta AI最新模型怎么使用方法详细教程指南

Meta-Llama-3.1-70B是什么？Meta-Llama-3.1-70B是Meta公司推出的大型语言模型，拥有70亿个参数，支持8种语言的文本生成。您可以通过我们的AI产品库轻松发现最适合您需求的人工智能工具，解锁AI的力量。

Llama3.1-70B
Llama 3.1功能介绍及免费使用指南 Meta AI最新一代模型体验地址入口

Llama3.1简介Llama3.1是MetaAI推出的最新一代大型语言模型，具有128K的上下文长度扩展、支持八种语言，并首次开源了405B参数级别的前沿AI模型。它为开发者和技术研究者提供了强大的支持，无论是需要处理大量文本数据的编程助手是希望构建多语言对话系统的开发者，Llama3.1都能提供最先进的能力。通过AIbase，您可以轻松发现最适合您需求的人工智能工具，解锁AI的力量。

Llama3.1
Llama 3.1有哪些功能免费吗？Meta AI最强大新模型怎么使用方法详细教程指南

Llama3.1是什么？Llama3.1是MetaAI推出的最新一代大型语言模型，具有128K的上下文长度扩展、支持八种语言，并首次开源了405B参数级别的前沿AI模型。如果您想了解更多类似产品，请访问AIbase，我们将为您提供智能搜索问答功能，帮助您查找相关的AI应用。

Llama3.1
Llama-3.1-8B功能介绍及免费使用指南 Meta AI最新模型体验地址入口

Meta-Llama-3.1-8B简介Meta-Llama-3.1-8B是一款多语言大型语言模型，包含8B大小的版本，支持8种语言，专为多语言对话用例优化，并在行业基准测试中表现优异。它采用自回归语言模型，使用优化的Transformer架构，并通过监督式微调和强化学习结合人类反馈来提高模型的有用性和安全性。通过AIbase，您可以轻松发现最适合您需求的人工智能工具，解锁AI的力量。

Llama-3.1-8B

知了zKnown:致力于信息降噪 / 阅读提效的个人知识助手

知了 zKnown 是一款 AI-Native 构建的个人知识助手，专注于信息降噪和阅读提效。它通过多端同步、多渠道总结、长文本支持等功能，帮助用户高效地管理和整理信息。产品的主要优点包括：- 多端同步：用户可以在移动app、桌面客户端、网页版、小程序等多个平台同步使用。- 多渠道总结：支持微信公众号、知乎、简书、36Kr、少数派等多个渠道的文章总结。- 长文本支持：最长支持总结3万字的文章内容。- 摘要导出：用户可以将摘要保存到 Notion、Flomo 等平台。- 产品背景：知了 zKnown 致力于通过 AI 技术提升用户的阅读和信息管理效率，适合需要高效处理大量信息的用户。

信息管理阅读提效 AI助手

MBox AI Meet:实时转录与会议总结的谷歌会议扩展

MBox AI Meet是一款免费Chrome扩展，专为Google Meet设计，提供实时转录和自动生成会议总结的功能。它利用AI技术帮助用户在会议中专注于讨论，而无需担心记笔记。该工具通过实时转录捕捉会议的每一个细节，并在会议结束后自动生成总结，确保用户不会错过任何重要信息。MBox AI Meet的隐私优先策略确保会议安全，不存储任何音频或视频内容。此外，该扩展还计划在未来更新中增加更多AI功能，如发言人识别、实时AI助手等。

AI 会议管理实时转录

Klee:本地安全AI，保障数据隐私。

Klee是一款macOS原生的AI助手应用程序，专注于本地处理数据，确保数据安全和隐私。它使用先进的AI技术，如RAG（检索增强生成）和开源大型语言模型，如Llama 3和Mistral，为用户提供高效、智能的笔记、搜索和知识管理功能。Klee的主要优点包括本地运行以保护隐私、支持团队协作、免费使用以及优化的macOS体验。

AI助手 macOS原生数据隐私

Kipps.AI:快速构建AI助手，提升业务效率

Kipps.AI 是一个在线平台，允许用户在短短两分钟内构建自己的AI助手，并将其集成到业务中。该平台支持多种数据源，如PDF、Notion、网站链接和文本，用户只需提供这些数据，Kipps.AI 会处理其余部分。它还与常用的工具如GoDaddy、Wordpress、Drupal、Squarespace、Magento和Wix等进行集成，使得用户可以轻松地将AI助手集成到现有的业务流程中。

AI助手自动化数据处理

CrossPrism for MacOS:图像识别、标注和关键词生成工具

CrossPrism for MacOS 是一款专为摄影师设计的图像识别、标注和关键词生成工具。它利用多核 CPU、GPU 和神经引擎，能够识别物种、生成标题和描述，并支持模型训练的可定制性。用户可以在本地自动标注无限量的原始照片，确保所有照片安全地存储在 Mac 上，无需担心云服务中断、数据锁定或文件传输问题。其20多个专家模型可以对从鸟类到地标的各种内容进行分类，并提供新的视角来整理目录和重新发现旧照片。此外，它还支持视频处理、Lightroom 插件、图像质量评估等功能，使其成为一个强大的筛选工具。

AI视野：美图大模型将向公众开放；阿里AnyText破解AI绘图模型写字难题；Meta推全新视频生成模型FlowVid；黑客大规模恶意注册ChatGPT相似域名

今日大家都在搜的词：

热文

站长商机