首页 > 业界 > 关键词  > MobileDiffusion最新资讯  > 正文

AI视野:谷歌推小模型MobileDiffusion;Midjourney测试风格一致性功能;字节跳动推AI Bot开发平台扣子;LLaVA-1.6赶超Gemini Pro

2024-02-01 15:20 · 稿源:站长之家

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

🤖📱💼AI应用

谷歌最新文生图小型模型:MobileDiffusion

image.png

【AiBase提要:】

🌟专门为手机开发的文生图模型

🌟0.5秒内生成高质量512x512图像

🌟参数大小:共5.2亿参数

产品入口:https://top.aibase.com/tool/mobilediffusion

产品介绍:https://www.chinaz.com/2024/0201/1594690.shtml

Midjourney测试“风格一致性”功能

image.png

【AiBase提要:】

🌟可以从多张图片学习对应的风格然后结合提示词生成图片

🌟提供一个或多个图像的链接,用以描述想要的统一风格。

🌟该功能支持 V6和 Niji V6版本(不支持 V5等旧版本)

🌟未来将增加“一致性角色”特性

设置教程:https://www.chinaz.com/2024/0201/1594716.shtml

字节跳动推“Coze扣子”AI Bot开发平台

image.png

【AiBase提要:】

🤖 支持用户搭建自己的Chatbot

🔌 提供Bots商店和插件

🌐 功能丰富,包括无限拓展的能力集

官网地址:https://top.aibase.com/tool/coze

上海智能实验室推图文多模态大模型InternLM-XComposer2(浦语·灵笔2)

【AiBase提要:】

📈 浦语·灵笔2具有海量图文知识

🔍 输入图片和简短的文字生成图文混排长文章

📉 浦语·灵笔2基于书生·浦语2-7B模型

项目地址:https://top.aibase.com/tool/internlm-xcomposer2

Meta 推ReplaceAnything3D可用文本引导3D场景编辑

【AiBase提要:】

👉提出Erase-and-Replace方法

👉展示了RAM3D的多样性

👉解决了替换3D场景中的挑战

论文网址:https://arxiv.org/pdf/2401.17895.pdf

AI智能剪辑软件——AIMIX

【AiBase提要:】

🌟支持短视频批量混剪生产源源不断的短视频

🌟可以提取视频或音频里的文案,生成视频字幕

🌟提供了十几种真人语音配音,也支持源视频配音

🌟可通过简单的拖动进行场景排序,生成新的短视频脚本

产品入口:https://top.aibase.com/tool/aimixzhijian

产品介绍:https://www.chinaz.com/2024/0201/1594744.shtml

智能海报生成平台嗨AI海报30秒批量生成带货海报

QQ截图20240201094750.png

【AiBase提要:】

⭐ 提供免费AI智能海报生成平台

⭐ 一键生成多种设计风格和模板

⭐ 支持快速生成节日海报、邀请函、日签等

官网地址:https://top.aibase.com/tool/heiaihaibao

免费AI换脸网站Change Face 一键玩转动漫名人变脸

image.png

【AiBase提要:】

⭐ 免费AI换脸网站

⭐ 利用人工智能算法实现面部交换

⭐ 支持换脸图片和视频

官网地址:https://top.aibase.com/tool/changeface-ai

Media2Face:支持语音等多模态引导生成3D面部动态表情

image.png

【AiBase提要:】

🧠 引入广义神经参数化面部资产(GNPFA),高度概括的表达潜在空间解耦表情和身份

🌈 创造 M2F-D 数据集,接受来自音频、文本和图像的多模态引导,拓展了3D面部动画的表现力和风格适应性

💡 Media2Face在共语面部动画领域取得了令人瞩目的成果,为面部动画合成的逼真度和表现力开辟了新的可能性。

产品项目入口:https://sites.google.com/view/media2face

📰🤖📢AI新鲜事

OpenAI着手研发GPT-4的早期预警系统

【AiBase提要:】

🤖 一项研究表明GPT-4与互联网相结合,在生物危害任务的准确性和完整性上略有改善,但效果不显著

🌐 研究限制,仅评估信息获取而非实际应用,未探讨GPT-4在新型生物武器开发中的潜在贡献

🏥 对100名参与者进行的研究,根据五个结果指标评估了参与者的表现,部分指标有所改善,但效果不足以在统计学上具有显著性

小米小爱同学AI助手通过大模型备案

【AiBase提要:】

⭐ 小爱同学AI助手通过国家备案

⭐ 小爱同学拥有更强大的大脑

⭐ 小爱同学AI助手将面向更广泛用户群体开放体验

谷歌计划推出高级订阅服务Bard Advanced

【AiBase提要:】

⭐ 谷歌计划推出高级订阅服务Bard Advanced

⭐ Bard Advanced将被锁定为订阅模式

⭐ Bard Advanced将由Gemini Ultra提供支持,预计将在“2024年初”发布

LLaVA-1.6来了!赶超Gemini Pro 提升推理性能

【AiBase提要:】

⭐ LLaVA-1.6提升了推理、OCR能力,支持更多场景和广泛用户。

⭐ LLaVA-1.6在多项基准测试中超越了Gemini Pro,并优于Qwen-VL-Plus。

⭐ LLaVA-1.6展现出强大的零样本中文能力,取得了SOTA性能。

Shopify发布“Magic”图像编辑器等AI增强功能,助力商家智能经营

【AiBase提要:】

🤖 "Magic"图像编辑器,自动生成产品描述、常见问题解答等营销文案,大幅提升效率

🤖 “Smart Sidekick”AI商业顾问,提供个性化建议,传递Shopify专业经验

🔍 利用AI改进搜索体验,语义搜索功能通过自然语言处理更好地理解搜索意图,搜索到购买转化率增加了7%

举报

  • 相关推荐
  • 大家在看
  • ACEPAL:个性化营销建议

    ACEPAL 是一个个性化营销建议平台,为数千个营销任务提供个性化建议。它利用动态提示生成器和优化聊天机器人来提升营销效果。ACEPAL 可以帮助分析Facebook、Twitter、LinkedIn、Instagram、Pinterest、TikTok和YouTube等平台的数据,并根据不同任务和变量提供定制化的营销建议。它的功能包括分析受众洞察、分析竞争对手策略、优化内容策略、提供最佳时机建议等。ACEPAL的价格根据用户需求定制,请联系我们获取详细定价信息。

  • LLM Transparency Tool:分析Transformer语言模型的内部工作机制

    LLM Transparency Tool(LLM-TT)是一个开源的交互式工具包,用于分析基于Transformer的语言模型的内部工作机制。它允许用户选择模型、添加提示并运行推理,通过可视化的方式展示模型的注意力流动和信息传递路径。该工具旨在提高模型的透明度,帮助研究人员和开发者更好地理解和改进语言模型。

  • JetMoE-8B:以低成本实现高性能的大型语言模型

    JetMoE-8B是一个开源的大型语言模型,通过使用公共数据集和优化的训练方法,以低于10万美元的成本实现了超越Meta AI LLaMA2-7B的性能。该模型在推理时仅激活22亿参数,大幅降低了计算成本,同时保持了优异的性能。

  • CTRL-F-VIDEO:在视频中快速搜索特定单词或短语

    CTRL-F-VIDEO 是一个开源项目,通过Chrome扩展实现在YouTube视频中搜索特定单词或短语的功能。它利用OpenAI的Whisper模型将音频转换为文本,并在视频时间条上标记出匹配词汇的位置,帮助用户节省查找信息的时间。

  • Breezemail:整理你的收件箱,AI分类

    Breezemail帮助你保持重要的邮件在收件箱内,并通过AI分类整理其余的邮件。我们训练了AI来识别对你重要的邮件,将其标记为重要邮件,并将其余的邮件自动组织到智能分类中。你可以使用预定义的分类,也可以创建自己的智能分类。Breezemail使用ChatGPT查询来组织你的邮件,不再需要复杂的过滤器和编程运算符来构建邮件标签。现在,你可以使用自然语言轻松创建自己的个性化超级高级分类。例如:“所有关于金融和投资的邮件”。Breezemail还提供了预定义的分类,帮助你无需努力就可以整理收件箱。订阅Breezemail,让我们的AI发挥魔力,相信你的收件箱会感谢你的。安全与隐私方面,Breezemail致力于保护您的安全和隐私。我们不会保留、出售或分析您的数据,除非与我们的公开可访问功能相关。我们不会展示广告,因为我们会为我们的服务收取公平的订阅费用。我们不会共享、出售或试图使您的数据匿名化,您的数据包括您的电子邮件地址、在您的邮箱中发现的电子邮件地址,以及电子邮件内容和附件。您的电子邮件内容仅由ChatGPT处理。我们使用ChatGPT来处理和分类您的电子邮件内容,所有包括文本、图片、附件等的电子邮件内容都直接发送到ChatGPT API,Breezemail不在服务器上处理或保留您的任何内容。您可以随时授予Breezemail访问您的邮箱,并且可以随时撤销。所有访问令牌都经过加密,仅用于执行与我们功能相关的操作。您的凭据也经过加密,以保护您的邮箱访问细节,使其对Breezemail内部的任何人都无法访问。订阅我们的通讯,获取有关Breezemail的更新。谢谢!

  • Somi AI:AI写作与助手工具

    Somi AI是最受欢迎的高等教育、市场营销人员、企业主、影响者和作家的AI写作软件工具。我们的AI助手引擎帮助您更好、更快地写作。

  • S&C - Gemini™ AI chat for Google™ search:在Google™搜索中与Gemini™ AI聊天

    S&C - Gemini™ AI chat for Google™ search是一款能够在Google™搜索中与Gemini™ AI进行聊天的插件。它提供Gemini™、ChatGPT™、Claude™和Pi™等多个聊天机器人,可以在搜索页面上直接与它们进行对话。插件支持Google™、Yahoo™和DuckduckGo™等搜索引擎,并且提供无限制的免费查询次数。

  • Jinno: code any React component with AI:用AI开发HTML或React组件,并与GPT4聊天

    Jinno是一个使用AI开发HTML或React组件的插件。它可以修改React、HTML和CSS代码。它支持React、CSS和JavaScript,并提供了颜色选择器、字体选择器、页面标尺等功能。可以导出React、HTML和CSS代码,适用于开发人员和设计师。

  • Free Email Extractor from Website:强大的免费网络电子邮件抓取工具,自动访问网站以快速提取批量电子邮件、电话号码和社交资料,支持域名到电子邮件查找。

    My Email Extractor是一个强大的免费网络电子邮件抓取工具,它可以自动访问网站并快速提取电子邮件、电话号码和社交资料。它支持从不同域名提取电子邮件,并将结果保存到CSV文件中。用户可以使用它来生成销售线索、进行市场研究以及数据自动化。My Email Extractor的准确性取决于数据来源,它实时从网页中收集电子邮件。

  • WizardLM-2:新模型,多种型号,AI驱动合成数据训练

    WizardLM-2是WizardLM推出的新一代大型语言模型,包含三种型号:8x22B、70B和7B。该产品采用AI驱动的合成数据训练系统,通过数据分析、加权抽样、渐进式学习和AI互校AI等方法,优化模型性能。它能够自动生成高品质的指令和响应,提供多样化的对话能力,适用于多种编程和开发场景。

  • idefics-80b:一个通用的多模态模型,可用于问答、图像描述等任务

    HuggingFaceM4/idefics-80b-instruct是一个开源的多模态模型,它可以接受图像和文本的输入,输出相关的文本内容。该模型在视觉问答、图像描述等任务上表现出色,是一个通用的智能助手模型。它由Hugging Face团队开发,基于开放数据集训练,提供免费使用。

  • Video2Game:从单一视频创建实时互动游戏环境

    Video2Game是一项技术,可以将单一视频转换成具有实时、互动、真实感和浏览器兼容性的高质量虚拟环境。它通过构建大规模的NeRF模型来实现高质量的表面几何形状,然后将该模型转换为带有对应刚体动力学的网格表示,以支持交互。使用UV映射的神经纹理,既能表达丰富,又与游戏引擎兼容。最终得到的是一个虚拟环境,虚拟角色可以与之互动,响应用户控制,并能从新的相机视角实时提供高分辨率渲染。

  • Cohere Compass:多方面数据索引与搜索模型

    Cohere Compass是一款新型的多方面嵌入模型,专为解决企业数据中的多重概念和关系检索挑战而设计。它能够将数据以JSON格式传递至嵌入模型,转换后存储在向量数据库中,保持元数据和文本的同时,捕捉多方面数据中概念间的关系。与传统的RAG流程相比,Compass通过其SDK将电子邮件及其附件解析为单一JSON,生成包含多方面表示的嵌入输出,从而在搜索时能够准确理解和匹配查询中的不同方面。

  • Ctrl-Adapter:视频生成的精细控制工具

    Ctrl-Adapter是一个专门为视频生成设计的Controlnet,提供图像和视频的精细控制功能,优化视频时间对齐,适配多种基础模型,具备视频编辑能力,显著提升视频生成效率和质量。

  • Reka Core:强大的多模态LLM,商业解决方案

    Reka Core是一个GPT-4级别的多模态大型语言模型(LLM),具备图像、视频和音频的强大上下文理解能力。它是目前市场上仅有的两个商用综合多模态解决方案之一。Core在多模态理解、推理能力、编码和Agent工作流程、多语言支持以及部署灵活性方面表现出色。

  • 2txt:快速将图片中的文字转换为可编辑文本

    2txt是一个在线OCR工具,能够将图片中的文字内容快速识别并转换成可编辑的文本格式。它支持多种语言的识别,并且操作简单,用户只需上传图片即可获得结果。该工具不存储用户上传的图片,保证了用户数据的隐私安全。

  • 法行宝:AI智能法律分析工具

    法行宝是一款集成了人工智能技术的法律服务平台,旨在为用户提供专业的法律意见和文书参考。通过预设问题引导用户提供必要信息,结合《中华人民共和国民法典》等相关法律法规,生成详细的法律意见书。法行宝不仅提供离婚流程指导、文书模板下载,还包含人性化的行动建议和扩展资料,帮助用户全面理解并应对法律问题。

  • Adobe Acrobat AI Assistant:AI智能助手,文档快速理解与生成

    Adobe Acrobat的AI助手是一个集成在Acrobat中的创新功能,它可以帮助用户通过提问来理解文档内容,快速获取信息并生成内容。这项功能特别适合需要从文档中提取关键信息并快速创建电子邮件、演示文稿、会议记录等的用户。AI助手可以生成文档摘要,提供基于文档内容的建议问题,帮助用户更有效地探索和理解内容。此外,Adobe Acrobat的AI助手遵循Adobe的AI伦理原则,确保用户数据的安全和透明。

  • AI Voice Generator Bot:使用人工智能将文本转换为音频

    AI语音生成器是一个简单易用的产品,它使用人工智能技术将文本转换为音频。它提供了多达25种不同的声音,完美演绎英语。您只需在Telegram上输入文本,我们即可回复相应的音频,无需等待。立即试用,快速将文本转换为语音。

  • Glaze:保护艺术家风格的AI工具

    Glaze是一个旨在保护人类艺术家免受AI风格模仿的系统。通过机器学习算法对艺术作品进行微小改动,使其对人类眼睛看起来不变,但对AI模型则呈现出完全不同的艺术风格。这样,当有人试图模仿特定艺术家的风格时,AI生成的结果将与预期大相径庭。Glaze不是永久解决方案,但是一个必要的第一步,为艺术家提供抵抗AI模仿的工具。

今日大家都在搜的词: