首页 > 业界 > 关键词  > 美图大模型最新资讯  > 正文

AI视野:美图大模型将向公众开放;阿里AnyText破解AI绘图模型写字难题;Meta推全新视频生成模型FlowVid;黑客大规模恶意注册ChatGPT相似域名

2024-01-02 15:39 · 稿源:站长之家

🤖📈💻💡大模型动态

美图大模型将向公众开放

美图公司的AI视觉大模型MiracleVision于2023年6月内测,已升级至4.0版本并通过备案,成为国内唯一专注视觉领域的大模型,将在电商、广告、游戏、动漫、影视等行业开放服务。

【AiBase提要:】

🌐 MiracleVision4.0升级,为美图旗下产品提供AI模型能力。

🔓 是国内备案通过的唯一专注视觉领域的大模型。

🚀 将在电商、广告、游戏、动漫、影视等行业开放服务。

Meta推全新视频生成模型FlowVid

Meta与清华校友合作开发的FlowVid视频生成模型利用V2V技术,在短短1.5分钟内生成4秒视频,突破了时间连贯性难题,通过光流技术实现视频帧之间的高度一致性。

image.png

论文地址:https://arxiv.org/pdf/2312.17681.pdf

项目地址:https://top.aibase.com/tool/flowvid

【AiBase提要:】

🚀 新模型发布: Meta与清华校友联手推出FlowVid视频生成模型,采用V2V技术,为AI视频生成领域带来新突破。

⚙️ 核心技术: FlowVid利用空间条件和源视频中的时间光流信息,解决了V2V合成的时间连贯性难题,保持视频帧之间的一致性。

🌐 用户研究表现: 在用户研究中,FlowVid在及时对齐和整体视频质量方面表现出色,以45.7%的偏好率超越其他V2V模型,如CoDeF、Rerender和TokenFlow。

LangSplat:比LERF快199倍的3D语言搜索模型

LangSplat是由清华大学和哈佛大学研发的3D语言高斯模型,通过将CLIP特征映射到3D语言高斯中,实现了比LERF快199倍的精准3D语言搜索。

image.png

项目体验网址:https://top.aibase.com/tool/langsplat

【AiBase提要】

🚀 创新方法: LangSplat通过将CLIP特征映射到一组3D语言高斯中,实现了精准的3D语言场,比LERF快199倍。

🌍3D语言场: LangSplat构建了一个3D语言场,支持在3D空间内进行精准高效的开放式语言查询。

🎨 视觉效果: LangSplat通过可视化学习特征,准确捕捉物体边界,无需后处理,同时在1440×1080分辨率下比LERF快199倍。

多模态AI模型Unified-IO2:可理解和生成图像、文本、音频和动作

近日,由艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校和华盛顿大学的研究人员联合开发的Unified-IO2标志着人工智能领域的一次飞跃。该模型采用独特的单编码器-解码器变压器模型,能够处理和生成文本、图像、音频和视频等多种数据类型。在35个数据集上的评估中,Unified-IO2创下了GRIT评估的新记录,特别在图像生成方面超越了竞争对手,展现了其卓越的设计和性能。

image.png

项目体验网址:https://top.aibase.com/tool/unified-io-2

【AiBase提要:】

🌐 多模态整合前沿: Unified-IO2是一款具有自回归能力的多模态AI模型,能够处理和生成文本、图像、音频和视频等多种数据类型,标志着人工智能领域的重大突破。

🧠 创新架构: 采用独特的单编码器-解码器变压器模型,通过共享的表示空间对不同输入进行编码,克服了以往模型在处理多模态数据时的限制,展现了其卓越的设计和性能。

📈 性能超群: 在35个数据集上进行评估,Unified-IO2在GRIT评估中创下新的记录,在关键点估计和表面法线估计等任务上表现卓越,特别在图像生成方面超越了竞争对手,展现了其广泛的能力范围。

📰🤖📢AI新鲜事

AI绘图模型写字难题被阿里AnyText破解

阿里巴巴推出的AnyText AI绘图工具成功解决了以往模型难以准确写入文字的问题,支持中英日韩四种语言,可以任意指定文字位置。

项目体验网址:https://top.aibase.com/tool/anytext-tuwenronghe

【AiBase提要:】

🎨 多语言支持:AnyText能够准确绘制中英日韩四种语言,彻底解决了文字绘图模型的难题。

🖌️ 灵活文字定位:用户可以精准指定文字位置,包括在绘制时加入文字、修改已有文字或向图中添加文字。

🌐 独立完成文字渲染:AnyText基于扩散模型,通过隐空间辅助模块和文本嵌入模块实现文字生成,提高了书写精度和文字与背景的一致性。

微软推出WaveCoder:提升指令调优与数据生成

微软研究人员发布WaveCoder模型,通过多才的指令调优在代码相关任务上表现出色。引入CodeOcean数据集,采用基于LLM的生成器-鉴别器框架,从开源代码中生成多样、高质量指令数据,扩展指令调优的泛化能力。

论文网址:https://arxiv.org/pdf/2312.14187.pdf

【AiBase提要:】

🚀 WaveCoder模型通过广泛指令调优在不同任务上表现出色。

📊 引入CodeOcean数据集,包含4个通用任务的指令实例,增强指令调优效果。

🔄 提出基于LLM的生成器-鉴别器框架,分类生成多样、高质量指令数据,控制数据质量。

斯坦福Meta研究证明Gemini推理能力强于GPT-3.5

斯坦福和Meta的研究发现,Gemini在全面的常识推理任务中表现强劲,超越先前基于有限数据集的评估,证明其推理性能优于GPT-3.5。

【AiBase提要】:

🌐 斯坦福和Meta的研究挽回了Gemini在常识推理上的声誉,强调有限数据集评估的不足。

🚀 在综合12个常识推理数据集的测试中,Gemini在复杂推理任务中表现出强大的潜力。

💡 在多模态和语言任务中,Gemini Pro的表现与GPT-3.5相当,略逊于GPT-4,揭示了不同模型在不同推理任务上的优劣。

黑客大规模恶意注册与ChatGPT相似的域名

网络安全研究发现黑客大规模注册与ChatGPT相似的域名,模糊用户判断,利用模型信誉欺骗用户,涉及超过65万个恶意域名,引发下载恶意内容和泄露敏感信息等安全问题。

【AiBase提要:】

🌐 恶意利用ChatGPT名声: 黑客注册大量与ChatGPT相似的域名,借助模型信誉欺骗用户,引发下载恶意内容、泄露敏感信息等问题。

🌐 Cl0p勒索软件攻击: 利用MOVEit的零日漏洞,俄罗斯Cl0p组织实施全球企业和美国机构的勒索软件攻击,包括勒索未付款时将数据泄露到公开网络的新策略。

🌐 多样化威胁: 包括Mozi僵尸网络关闭、Android/Pandora威胁攻击智能设备、对ChatGPT用户的定向攻击等,强调API密钥隐私保护的重要性。

🤖📱💼AI应用

多功能即时语音克隆技术OpenVoice

OpenVoice是一项实用的即时仿声技术,能根据目标发言人的短音频模仿其声音,精细控制情感、口音、语调等,实现零样本跨语言模仿。

image.png

项目地址:https://top.aibase.com/tool/openvoice

【AiBase提要】

🔊 准确音色克隆: OpenVoice可复制参考音色,生成多语言和口音的语音。

🎭 灵活语音风格控制: 用户可精细控制情感、口音、语调、停顿和节奏等语音风格。

🌐 零射击跨语言语音克隆: 模型可在未训练语言中生成语音,展示适应性和多功能性。

👨‍💻💡🎯聚焦开发者

ComfyUI实用插件!可在ComfyUI中调用GPT-4和DALL-E3

Plush-for-ComfyUI插件在ComfyUI平台中调用GPT-4和DALL-E3,通过图片提取提示词,实现图像处理与生成,为用户提供强大而有趣的工具。

image.png

项目地址:https://top.aibase.com/tool/plush-for-comfyui

【AiBase提要:】

🚀 Plush-for-ComfyUI插件可在ComfyUI平台调用GPT-4和DALL-E3,提供强大的图像处理与生成功能。

💡 插件包括Style Prompt和OAI Dall_e3节点,支持文本和图像提示,生成ChatGPT3或4的提示,以及使用DALL-E3生成图像。

🔑 使用前需配置OpenAI API密钥,安装ComfyUI、Base和Refiner SDXL模型,推荐初次使用选择完整的SDXL Base和Refiner模型获取最佳效果。

开放世界游戏角色扮演智能体框架LARP 唤醒NPC

LARP是一个创新框架,致力于增强用户与语言代理在开放世界游戏中的互动体验。其认知架构包含记忆处理和决策辅助功能,环境交互模块通过反馈驱动学习提高代理在游戏环境中的适应能力,而后处理方法促进各种个性的对齐,提供更真实、沉浸式的交互。

1.png

项目地址:https://top.aibase.com/tool/larp

【AiBase提要:】

🧠 认知架构: LARP采用强大认知架构,注重记忆处理和决策辅助,确保代理在动态开放世界中的连贯行动。

🔄 环境交互模块: 具备反馈驱动可学习行动空间,使代理能够实时学习并调整行动,提高在游戏环境中的导航和交互能力。

🎭 个性对齐后处理: 引入后处理方法促进各种个性的对齐,提升代理交互真实感,为用户创造更沉浸式、引人入胜的开放世界游戏体验。

MagicDance:基于扩散的人体运动传递框架生成逼真舞蹈视频

MagicDance框架是一种基于扩散的计算机视觉模型,通过两阶段训练策略专注于人体动作解缠和外观因素,成功生成高度逼真的人类舞蹈视频,为计算机视觉和人工智能领域带来新可能性。

项目地址:https://top.aibase.com/tool/magicdance

【AiBase提要:】

😲 MagicDance框架采用稳定扩散模型,在两阶段训练中关注外观解缠,成功生成既逼真又具有原始身份信息的舞蹈视频。

🌐 在TikTok数据集上预训练,展现了卓越的泛化能力,MagicDance框架在复杂运动序列和不同人类身份下保持高水准逼真性。

🚧 尽管面临一些挑战,如复杂场景中的面部标志和姿势骨架检测,MagicDance框架为人体运动传递和舞蹈视频生成领域带来显著进展。

腾讯推新技术Paint3D 给3D模型生成高清纹理

腾讯推出的Paint3D技术在解决3D模型缺乏内嵌光照信息的情况下,能够自动化生成高分辨率、无光照的多样化纹理贴图,为自动化纹理贴图生成领域带来重大进展。

image.png

项目地址:https://top.aibase.com/tool/paint3d

【AiBase提要:】

🚀Paint3D利用两阶段纹理生成框架,在UV纹理空间上训练无光照扩散模型,显著提升了3D模型纹理生成效果,成为唯一能生成无内嵌光照纹理的算法。

🌐Paint3D通过量化和定性实验,几乎在所有样本上达到更好的效果,在纹理生成质量和符合输入条件方面优于当前最佳算法,标志着自动化纹理贴图生成领域的重大进展。

🖌️Paint3D生成的纹理贴图没有内嵌光照阴影效果,可被重新照明或编辑,直接应用于现有渲染管线,在艺术创作、数字媒体制作和游戏内容创作等领域具有重要作用。

举报

  • 相关推荐
  • 大家在看
  • PDF Flex | AI Chat with PDF:转换PDF文件,即时聊天与PDF并获取深度答案

    PDF Flex是一款能够帮助用户转换PDF文件格式并与PDF进行即时聊天的工具。它可以将PDF文件转换成多种格式,并且可以向PDF提问问题并立即获得详细回答,提高研究效率。PDF Flex还提供了丰富的功能和使用场景,适用于个人和企业用户。定价方案包括免费和付费版本,用户可以根据自己的需求选择合适的版本。

  • Pen2txt:手写识别AI助手

    Pen2txt是一款利用OCR和人工智能进行手写文本识别的产品。它可以将手写笔记转换为可编辑、可搜索的数字文本,适用于学生、专业人士以及任何需要将纸质文件转换为数字形式的人群。Pen2txt凭借准确、可搜索和可编辑的结果,提高了工作效率。

  • SheetMagic:在Google Sheets中使用AI和无限网络爬虫

    SheetMagic是一个在Google Sheets中使用AI和无限网络爬虫的插件。它能够生成AI内容和AI图片,实现无限的AI提示,并且能够从网站和搜索引擎结果页面获取实时数据。除此之外,它还可以进行数据分析、数据准备和其他多种功能,全部在Google Sheets内完成。

  • Nurmonic: 你的全能 Discord 机器人

    Nurmonic 是一款功能全面的 Discord 机器人,提供聊天互动、图片视频生成、支持票务等多项功能。适用于各类 Discord 社群,为用户带来便利和娱乐。价格根据不同版本和功能选项而定。

  • KaraboAI:为您的业务创建自定义的AI聊天机器人

    KaraboAI Custom ChatGPT Chatbots是一个用于网站的自定义AI聊天机器人平台。您可以在2分钟内创建定制的AI聊天机器人,并嵌入到您的网站中。该聊天机器人可以根据您的业务需求执行各种复杂任务,如知识检索、商务咨询、数据收集、预约日历、电子商务、报价生成和预订管理等。它提供方便的上游数据集成和下游聊天机器人部署集成,支持多种功能和定价选项。

  • Studia AI:使用AI创建您自己的课程

    Studia AI是一个使用人工智能生成学习步骤的平台。它可以帮助用户创建自己的课程,包括功能丰富的学习步骤生成、个性化定制、智能推荐等。定价根据不同的套餐和功能进行收费。

  • Filmora:易於使用的影片編輯軟體

    Wondershare Filmora是一款簡單易用的影片編輯器,可讓您在Windows和Mac上編輯影片和音訊。Filmora提供了豐富的功能和創意視覺效果,讓您可以創建令人驚嘆的影片。它定位於個人和小型企業用戶,並有多個定價方案供選擇。

  • Dreamora: AI解梦

    Dreamora是一款基于人工智能技术构建的解梦应用,提供准确全面的梦境解释。它包含了从伊本·西里恩(Ibn Sirin)和阿尔·纳布尔西(Al-Nabulsi)等主要解梦师那里得出的所有梦境解释,还有最新的信息和持续更新。只需将您的梦境输入应用程序,人工智能将在几秒钟内提供准确的解释。最重要的是,使用这个应用程序完全免费。

  • Suinfy:AI-powered YouTube视频摘要器

    Suinfy是一个AI-powered YouTube视频摘要器,提取长视频中的关键思想和见解。节省您的时间,提高您的生产力。

  • Amplifiles:转化PDF为动态体验

    Amplifiles可以将PDF转化为动态体验,为销售和营销专业人员提供AI语音解说、自定义CTA、CRM集成等功能,提升销售效果。详细定价和功能列表请访问官网了解。

  • ImageAI.QA:100%免费AI图片描述生成器

    AI图片描述生成器是一个能够使用人工智能自动生成图片描述的工具。它可以帮助艺术家、设计师等创作者揭示他们作品背后的隐藏细节、情感和含义。该工具提供全新的视角,让人们可以更深入地理解和欣赏艺术作品。AI图片描述生成器是一个早期测试版本,部分功能可能还不稳定。如果您在使用过程中遇到任何问题或有任何建议,请随时与我们联系。您的反馈对我们非常重要,将帮助我们改进该工具。

  • SpeedProof:快速修改、检查语法、翻译、解释、总结

    SpeedProof: One-Click AI Text Edit是一个一键式的AI文本编辑插件,可以快速修改、检查语法、翻译、解释和总结所选文本。只需选中文本,点击SpeedProof插件图标,选择所需操作即可使用ChatGPT进行修改。支持检查语法、总结、翻译、重新表达等功能,可在任何语气下进行操作。

  • AI Detector:检测AI生成的内容

    AI Detector是一个在线工具,使用先进的算法和机器学习来检测文本是否由AI生成。它可以分析写作风格和句子结构,判断内容是否由ChatGPT、GPT 4、Bard、Claude或人类创作。您可以免费使用AI Detector,每次最多检测1000个字,并获得95%的准确率。

  • WitChat:AI支持的最佳客户服务系统

    WitChat是一款具有AI集成的客户服务系统。我们的软件通过文本、手机、电话、电子邮件、聊天和社交媒体等多种渠道增强客户互动体验。

  • editoReview.com:基于AI的论文和应用界面的同行评审

    editoReview是一个为学术编辑和营销代理提供咨询服务的平台,旨在评估研究文章或服务插件API在AI界面上的可搜索性和可用性。用户可以通过AI聊天记录或模板文档开始新的评审,引用参考文献或应用程序以与作者或开发者安排会议,支付咨询费用,并发布可共享的评审记录。editoReview通过智能搜索和智能使用的方式帮助编辑和营销人员明确论文或服务插件在界面上的可行性,并在arXiv文献和Zapier市场的其他论文和应用上进行了整合。

  • Draph Art:AI生成的背景去除和高质量产品图片

    Draph Art是一款能够自动生成背景去除、道具、光照、阴影和模特等所有元素的AI产品。无需专业技术,任何人都可以制作出吸引人的产品图片。通过Draph Art,您可以使用相关的产品照片来吸引顾客的注意力。从一张原始照片到多种主题的产品照片,只需告诉我们您想要的主题,AI将分析上传照片的背景氛围和颜色,然后为所选择的主题生成多张照片。

  • 百度文库-智能漫画·智能画本:一站式智能漫画创作工具,从创意到作品一键实现

    百度文库推出的智能漫画创作工具,具有以下优势:1.一站式创作流程,从创意到成品无缝衔接。2.多种漫画风格可选,如韩系卡通、浪漫厚涂等。3.人物形象、表情、场景等描绘精细生动,媲美漫画家水准。4.内置智能编辑器,可对细节进行精修。5.无需专业绘画技能,有创意即可创作。6.目前处于公测阶段,可关注公众号预约体验。

  • 星辰语义大模型-TeleChat:星辰语义大模型,智能对话助手

    TeleChat是由中电信人工智能科技有限公司研发的星辰语义大模型,具备强大的对话生成能力,支持多轮对话,适用于多种场景的智能问答和内容生成。模型经过大量高质量中英文语料训练,具备优秀的通用问答、知识类、代码类、数学类问答能力。

  • Live2D Virtual Human for Chatting based on Unity:基于Unity的Live2D虚拟人实时聊天系统

    AI女友是一款基于Unity开发的Live2D虚拟人实时聊天系统,它利用Live2D技术提供动态的虚拟人形象,结合Unity的实时渲染功能,实现与用户的动态交互和聊天。主要功能包括Live2D虚拟人形象集成、实时聊天、图像处理和人脸检测,支持高清分辨率显示,并且可自定义和扩展。

  • School AI:个性化AI学习助手,提升学习效率

    School AI是一个专为K12学生设计的AI平台,提供个性化学习体验和即时反馈,支持多语言环境,帮助学生以母语进行互动,增强教育的普遍性和包容性。平台对教师免费开放,内置监控和控制工具,帮助教育工作者设计更好、更个性化的课堂体验。

今日大家都在搜的词: