首页 > 业界 > 关键词  > ComfyUI最新资讯  > 正文

今日AI:华为发布4K图像模型PixArt-Σ;这个ComfyUI插件可以还原梦境;Pika把音效视频一锅端了;公众号可以一键集成多种AI功能了

2024-03-11 15:33 · 稿源:站长之家

欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

QQ截图20240311154433.png

🤖📱💼AI应用

华为发布图像生成模型PixArt-Σ可直出4K图像

image.png

【AiBase提要:】

⭐采用DiT架构,可直接生成4K图像

⭐借助PixArt-alpha基础预训练,实现弱到强训练

⭐结合高质量训练数据和高效Token压缩,生成高分辨率图像

项目地址:https://top.aibase.com/tool/pixart

ComfyUI-Dream-Interpreter:还原梦境的ComfyUI工作流输入梦境描述生成全景图

【AiBase提要:】

⚙️可通过GitHub克隆项目进行使用

🌌项目结合了梦境解析器和ComfyUI,提供梦境输入、解析和生成功能

🖼️生成全景图像,让用户交互式探索梦境,创新结合梦境解析与交互画面。

Pika发布SoundEffects功能生成的视频可以自动配音效了

image.png

【AiBase提要:】

⭐用户可以通过描述prompt或让AI自动生成音效为视频增添氛围

⭐SoundEffects操作简单,用户只需一个prompt或简单描述就能生成音效

⭐功能目前仅对特定用户开放测试,未来将向所有用户推出

AIwechat-Vercel:无需服务器即可将AI功能集成到公众号中

【AiBase提要:】

⭐️集成多种AI服务(如GPT、星火、通义千问、Gemini等),允许微信公众号通过文本消息与用户进行智能对话。

⭐️支持连续问答,实现了超时回复和记忆对话内容(最长30分钟)

⭐️具备图床功能和被关注时的自定义回复功能

项目地址:https://top.aibase.com/tool/aiwechat-vercel

教程:https://www.bilibili.com/video/BV1Ct421b7xz/

OptimizerAI:可为AI视频自动配音还将支持立体声

image.png

【AiBase提要:】

⭐️通过文字提示创造适用于各种场景的声音和音效。

⭐️支持声音效果生成、变声、风格标签指定,保持生成一致性。

⭐️即将支持文本到声音效果转换、立体声、高质量音频生成。

官网地址:https://www.optimizerai.xyz/

在线体验地址:https://discord.com/invite/bgfnVaaU2n

EasyDiffusionOnline:一款免费的AI绘画工具

image.png

【AiBase提要:】

⭐用户可以免费使用图像生成器和提示生成器。

⭐EasyDiffusionOnline提供多种创作类型,适合不同用户。

⭐平台功能强大,用户可以实现创意想法并分享作品。

体验地址:https://top.aibase.com/tool/easydiffusion-online

图片编辑技术StableDrag发布拖动锚点即可编辑图像同时保持高质量

image.png

【AiBase提要:】

⭐新技术StableDrag基于Diffusion模型,拖动锚点编辑图片。

⭐提供两种类型的图像编辑模型:StableDrag-GAN和StableDrag-Diff。

⭐目前只上线了论文,试玩页面和代码暂未放出

项目地址:https://top.aibase.com/tool/stabledrag

AI实时绘图工具ImgPilot一键将草图转为艺术作品

image.png

【AiBase提要:】

⭐支持实时绘图,随手涂几笔就能变成好看的画

⭐ImgPilot项目基于LeptonAI技术开发,结合多种技术提高效果

⭐提供前后端代码,用户可自由定制部署

项目地址:https://github.com/leptonai/imgpilot

试玩页面:https://top.aibase.com/tool/imgpilot

MIT博士生用VisionPro实时训练机器狗开源项目TrackingSteamer火了

【AiBase提要:】

⭐MIT博士生开源项目VisionPro实时训练

⭐应用程序利用VisionPro追踪人类动作实时传输到其他机器人设备

⭐人类可以为机器人提供精准训练数据,促进人机交互技术的发展

项目地址:https://github.com/Improbable-AI/VisionProTeleop

📰🤖📢AI新鲜事

每年电费2亿?ChatGPT每天竟然要消耗1.7万个家庭的用电量

【AiBase提要:】

🔋OpenAI旗下ChatGPT每日消耗超过50万千瓦时电力,约为1.7万个家庭的用电量。

🔌AI数据中心用电量未来或与小国相当,谷歌等公司搜索请求也消耗大量能耗。

💡AI技术发展需节约能源,监管机构监督企业用电行为,促进可持续发展。

Nvidia因使用侵权作品训练NeMoAI平台被作者起诉

【AiBase提要:】

📚三位作者控告Nvidia未经许可使用其版权图书训练NeMoAI平台。

🚫作者指称Nvidia在NeMo训练后撤下他们的作品。

💡该案或成AI领域版权和数据使用重要先例,影响行业规范和公司行为。

新AI框架H2O:将人类动作实时转换为机器人动作可行走、后空翻、踢球等

【AiBase提要:】

🔄采用可扩展的“从模拟到实际”处理,构建大规模的重定目标运动数据集。

🔄通过训练鲁棒的全身机器人模仿者,成功实现了在真实场景中的动态全身运动遥操作。

🔄通过特权模仿者选择可行动作,确保人形机器人对人类运动高度还原。

项目入口:https://top.aibase.com/tool/human-to-humanoid-h2o-

微软AI研究推数学LLMOrca-Math:通过对Mistral-7B模型进行微调的7B参数小模型

【AiBase提要:】

⭐Orca-Math通过合成数据集和迭代学习重新定义数学问题教学方法。

⭐Orca-Math在GSM8K基准上取得显著成就,展示SLM在教育中的潜力。

⭐Orca-Math利用迭代学习机制取得成功,在解决数学问题方面取得显著进步。

论文地址:https://arxiv.org/abs/2402.14830

谷歌发布Gemini1.5Pro模型技术报告长文记忆能力惊人

【AiBase提要:】

⭐Gemini1.5Pro模型架构、训练数据与基础设施介绍

⭐长篇信息检索任务中完美的记忆回溯能力

⭐长篇信息处理任务准确率达到99%以上

论文地址:https://arxiv.org/pdf/2403.05530.pdf

全球AI人才报告曝光:清华第三,北大第六!

【AiBase提要:】

⭐中国培养出的AI人才占全球近1/2

⭐美国码农面试需12场,薪资压低,面试题难

⭐Meta压低薪资,裁员潮下AI人才需求狂涨42%

谷歌称GeminiNanoAI大模型暂不支持Pixel8手机

【AiBase提要:】

🌟GeminiNano是谷歌旗下Gemini大模型的移动版本。

🌟由于硬件限制,GeminiNano目前无法在Pixel8手机上运行。

🌟但谷歌表示未来将在其他高端设备上推出GeminiNano。

网络安全模型WhiteRabbitNeo发布可识别安全威胁和漏洞

【AiBase提要:】

⭐WhiteRabbitNeo发布了新模型,利用Transformers和PyTorch技术,专注于网络安全领域。

⭐这款模型可识别各种安全威胁和漏洞,如开放端口、未加密服务、API漏洞等。

⭐WhiteRabbitNeo模型还可应用于编程和代码生成领域,帮助解决编程问题。

————————————

今日Midjourney提示词分享:梨花树下的女孩

垫图+ masterpiece,best quality,A beautiful Chinese girl wearing a beige suit jacket,black hair,short hair,round face,detailed facial details,natural light,glasses,solo,photo background,outdoors,shirt,realistic,looking at viewer,tree,a tree full of pear blossoms,teeth,crossed arms,white shirt,long hair,smile,round eyewear,long sleeves,day,jacket,upper body,high definition photography,Captured by Canon camera --ar 3:4 --s 750 --style raw --v 6.0

ai2023__masterpiecebest_qualityA_beautiful_Chinese_girl_wearing_0bbb5df0-c909-4b66-a2cc-53cb3740eda7.png

举报

  • 相关推荐
  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

  • 「6月27日AI日报」腾讯开源轻量级混元-A13B模型;可灵AI推“视频音效”功能

    AI日报主要内容: 1. 腾讯开源混元A13B模型,采用MoE架构,总参数量800亿,激活参数130亿,支持低端GPU部署 2. 可灵AI推出"视频音效"功能,实现所见即所听的沉浸体验 3. Black Forest开源图像编辑模型FLUX.1Kontext,支持消费级硬件运行 4. OpenAI发布Deep Research API新模型o3/o4-mini,支持自动化网页搜索和数据分析 5. 小米推出1999元起AI眼镜,集成拍摄、支付、音乐等功能 6. 迅雷推出下载MCP服务,一句话指令让AI自动完成下载任务 7. HeyGen推出AI视频Agent,几分钟内生成专业级视频内容 8. 谷歌开源端侧多模态大模型Gemma3n,手机也能运行云端AI性能

  • Copy2AI三款AI软件上线,功能强大,免费无限制

    Copy2AI推出三款AI工具:智能剪贴板、智能创作助手和智能聊天助手。智能剪贴板能自动分类记录剪贴内容,支持语义搜索;智能创作助手提供灵感激发、风格转换等功能,助力内容创作;智能聊天助手可定制对话风格和角色。三款工具均完全免费、无功能限制,支持本地部署保障隐私安全,适用于职场人士、内容创作者、学生等多场景,旨在让AI技术真正触手可及,提升工作和

  • AI日报:ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • AI日报: ChatGPT免费开放记忆功能;华为WATCH 5智能手表接入双大模型;Claude Pro升级重磅功能

    本期AI日报主要报道了多项AI领域重要进展:1)OpenAI向所有ChatGPT用户免费开放记忆功能;2)蚂蚁集团推出"AI健康管家",服务4000万用户;3)Anthropic与DeepLearning.AI合作推出免费MCP课程;4)谷歌DeepMind开发无需3D模型即可生成逼真运动视频的新技术;5)Exa与OpenRouter合作为400+大模型提供实时网络搜索功能;6)中国知网推出CNKI AI学术研究助手;7)Anthropic推出Claude Explains博客项目;8)Claude Pro新增研究模式和远程MCP整合功能;9)Fish Audio发布基于200万小时数据训练的OpenAudio S1语音模型;10)OpenAI升级Codex编程工具;11)华为WATCH5接入盘古和DeepSeek双大模型。

  • AI营销席卷中东,Infinix和Snapchat首个AI营销合作如何在当地实现破圈?

    开年以来,AI 图片赛道迎来一轮小高潮。今年3月,在我们统计的月访问量超200万的 Web 端 AI 图片产品中,有45款产品访问量呈现环比上涨,最高增幅超过600%。这些爆款背后的共同特征,是一股席卷社交平台的“吉卜力风”。 回顾2022年至今几轮 AI 爆款产品(如 Lensa、妙鸭相机、黏土滤镜、吉卜力),其流量爆发的逻辑始终贯穿着四大共性:操作门槛极低、个性表达鲜明、用户�

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • 认食材只是入门!卡萨帝AI之眼还能分大小知分量能一键烹饪

    2025年6月25日,以“AI致远 爱不凡”为主题的卡萨帝思享荟于重庆科学会堂启幕。活动现场,卡萨帝发布AI深度科技,同时,搭载AI深度科技的“AI鉴赏家套系”同步上市。AI浪潮下,卡萨帝品牌不断升级,从“高端家电领导者”迈向“艺术生活缔造者”,如今更进一步,成为“传世文明当代守护者”,开启品牌发展的新篇章。思享荟现场,卡萨帝全球新一代高端全嵌厨电——AI之

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • AI日报:通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线;智谱AI企业级超级助手Agent CoCo上线

    【AI日报】今日AI领域重要动态:1.通义千问3大模型全球下载量超1250万,衍生模型13万+;2.即梦图片3.0上线,AI设计进入"零门槛"时代;3.智谱AI发布企业级超级助手Agent CoCo;4.百度推出金融行业大模型"千帆慧金";5.小红书开源首个大模型dots.llm1,含1420亿参数;6.Hugging Face开源LeRobot项目,降低机器人研发门槛;7.ChatGPT语音功能升级,支持更自然对话翻译;8.Google Gemini应用下载量超ChatGPT但活跃度不足;9.轻量级文档解析模型MonkeyOCR表现优异;10.Google Veo3推出高速视频生成模式;11.Google调整AI Studio政策,限制Gemini2.5Pro免费访问。