首页 > 业界 > 关键词  > M2UGen最新资讯  > 正文

AI视野:腾讯发布音乐生成模型M2UGen;米老鼠SD模型上线;MidReal AI更新Beta版本;ChatGPT文明模拟器再上线

2024-01-03 15:39 · 稿源:站长之家

新鲜AI产品点击了解:https://top.aibase.com/

🤖📈💻💡大模型动态

腾讯发布多模态音乐生成模型M2UGen

腾讯推出的M2UGen是一款多模态音乐生成框架,结合音乐和多模态任务,支持从文字、图像、视频生成音乐,并具备强大的编辑功能。

image.png

体验地址:https://top.aibase.com/tool/m2ugen

【AiBase提要:】

🎵 M2UGen融合音乐理解和多模态任务,支持文字、图像、视频生成音乐。

🖼️ 利用编码器和模型进行音乐和图像理解,用户可编辑音乐、调整乐器和速度。

🚀 采用创新方法生成大规模音乐指导数据集,展示出色的音乐生成和编辑能力。

米老鼠SD模型上线

迪士尼旧版米老鼠版权过期,AI开发者推出基于Stable-Diffusion-xl的Mickey-1928SD模型,用于生成符合1928年设计风格的米老鼠、米妮和皮特的图像。

image.png

模型下载地址:https://top.aibase.com/tool/mickey-1928

【AiBase提要:】

🐭 Mickey-1928SD模型基于Stable-Diffusion-xl微调,使用1928年公共领域画面训练。

🎨 模型可生成符合1928年风格的米老鼠形象,任何人可自由使用。

🚀 模型作者为@Dorialexander,下载地址及在线体验链接已公开。

Midjourney将推文本转视频模型

Midjourney公司计划在未来几个月推出“文本转视频”模型,通过在1月开始培训视频模型,强调其自然发展和在生成视频领域引入竞争动态,同时V6更新提升画质和用户体验。

【AiBase提要:】

🎥 Midjourney计划推出“文本转视频”模型,扩展AI形象生成器到视频创作领域。

🤖 公司将在1月培训视频模型,CEO表示是平台的自然发展,引入生成视频行业竞争动态。

🌐 MidJourney的最新v6更新专注于提高画质和用户体验,预示着AI视频生成领域的激烈竞争。

同花顺推出问财大模型HithinkGPT

同花顺问财发布HithinkGPT大模型,采用transformer的decoder-only架构,通过科学高效的训练体系和大规模金融语料预训练,成为国内金融领域首个应用大模型技术的智能投顾产品。

微信截图_20240103085544.png

【AiBase提要:】

🚀 技术规格: HithinkGPT提供7B、13B、30B、70B和130B五种版本选择,最大允许32k文本输入,支持API接口调用、网页嵌入、共建等能力。

📈 金融应用: 在金融领域,模型通过多个金融考试,得分平均达到75.9分,涵盖A股、基金、ETF等15个业务矩阵,为用户提供全面精准、稳定可控的投资决策支持。

🔗 内测申请: 用户可申请内测体验HithinkGPT,成为国内金融行业首个成功应用大模型技术的智能投顾产品。

摩根大通推出多模态文档理解模型DocLLM

摩根大通发布了DocLLM,一款专为多模态文档理解设计的生成式语言模型,通过轻量级扩展LLM,避免昂贵的图像编码器,以提高文档分析效能。

论文地址:https://arxiv.org/pdf/2401.00908.pdf

【AiBase提要:】

🚀 创新设计: DocLLM采用分离的空间注意机制,专注于边界框信息,解决文本和空间模态交汇处的复杂语义问题。

📊 广泛评估表现: 在16个已知数据集中,DocLLM在多种文档智能任务中表现优越,对未见数据集具有强大泛化能力。

🔗 未来增强承诺: 摩根大通承诺以轻量级方式将视觉融入DocLLM,进一步提升其多模态文档理解能力。

🤖📱💼AI应用

MidReal AI更新Beta版本

MidReal AI最新Beta版本更新,提升小说生成模型逻辑和连贯性,官网推出小说展厅,新增私密内容功能,提供更好体验。

1.png

体验地址:discord.gg/GUSTKcEJ7a

官网地址:https://top.aibase.com/tool/midreal-ai

【AiBase提要:】

🔄 模型更新:MidReal AI Beta版本增强逻辑和连贯性,提升用户小说生成体验。

📚 小说展厅:官网推出小说展厅,用户可舒适浏览推荐小说,比Discord阅读更便捷。

🔒 私密功能:新增“/start_private”命令,用户可创建完全私密内容,避免社交尴尬。

Inpaint wechat微信小程序上线

这是一款基于微信AI能力的微信小程序,可以实现图片选定区域的消除修复功能,纯客户端实现,无需服务端支持。用户友好的方法使得照片修复易于访问,QR码提供快速入口。

image.png

体验地址:https://top.aibase.com/tool/inpaint-wechat

【AiBase提要】

🔸 基于微信AI能力的Inpaint wechat微信小程序上线,实现图片选定区域的消除修复功能

🔸 纯客户端实现,无需服务端支持,用户友好的方法易于访问

🔸 提供QR码,快速进入小程序使用修复功能

谷歌即将推出Bard Assistant

谷歌即将发布与Bard合作的增强助理,最新应用程序更新展示新设计,包括弹出窗口和标签切换器,同时对股票和金融小部件进行调整。

QQ截图20240103105945.jpg

【AiBase提要:】

🚀 谷歌计划推出与Bard合作的Assistant,应用程序更新包括新设计和用户体验提升。

📊 股票和金融小部件经过调整,强调清晰的视觉效果,显示特定股票的价格和趋势。

🌐 Bard Assistant将放置在Google搜索应用程序的“发现”页面上,提供用户在搜索和获取AI帮助之间快速切换的便捷方式。

AI视频翻译配音工具

一款解决短视频副业项目中字幕翻译问题的工具,提供语音生成字幕、多种配音角色选择和多种翻译引擎支持,轻松完成视频翻译和配音任务。

image.png

体验地址:https://top.aibase.com/tool/shipinfanyipeiyin

【AiBase提要】

🎙️ 支持语音自动生成字幕,用户可灵活编辑确保最佳翻译效果。

👥 提供多种配音角色选择,包括支持openai的TTS模型。

🌐 集成多种翻译引擎,如Google、ChatGPT、DeepL,确保用户选择最佳引擎。

📰🤖📢AI新鲜事

ChatGPT文明模拟器再上线

通过GPT-4和DELL-3的结合,使用ChatGPT模拟庞贝古城火山爆发时的历史情景,并展示了多模态人工智能的强大功能。

项目地址:https://docs.google.com/document/d/1irisz6f1G4oYaKojqwuU9rSDBV1-VaCh0VkeuIX0sfs/edit?pli=1

【AiBase提要:】

🔄 GPT-4与DELL-3协同,模拟历史中庞贝古城火山爆发情景,提供沉浸式体验。

🖼️ 多模态人工智能的兴起,使历史模拟更加生动,通过图像与文本交互生成历史场景。

🌐 教授使用GPT-4和DELL-3进行多模态历史模拟,通过互动方式改变历史走向,丰富了历史教学。

钉钉发布AIGC应用层十大趋势

《2024AIGC应用层十大趋势白皮书》预测2024年将涌现5亿新应用,AIGC技术爆发增长,B端办公和生产力场景将率先受益,AI将重新定义组织形态。

微信截图_20240103135515.png

【AiBase提要:】

🚀 AIGC应用在B端和生产力场景崛起,以知识管理为主流应用场景。

🌐 大模型从追赶时髦发展为真正实用,成为提效的关键手段。

💼 AI人才缺口问题突出,预测2026年80%企业难以找到熟练AI专业人员。

原钉钉副总裁成立Al应用开发平台BetterYeah

斑头雁智能科技由原钉钉副总裁张毅创立,完成近千万美元A轮融资,致力于开发企业级AI Agent产品BetterYeah AI,主要应用于销售、客服和营销场景,以提高企业效率和增加收入。

【AiBase提要:】

🚀 融资成功: 斑头雁智能科技完成亿元A轮融资,累计融资额达1亿元人民币。

💡 产品特色: BetterYeah AI面向企业客户,以多模态模型为核心,提供工作流、数据集、工具和聊天功能,帮助企业无缝集成AI。

💰 低成本平台: 公司旨在通过提供一站式AI开发平台和封装好的Agent,帮助企业以低成本快速应用AI技术。

三星Unpacked将揭秘Galaxy S24系列及全新AI聊天机器人

三星宣布Galaxy S24系列将于1月17日在硅谷SAP中心发布,重点推出新ISOCELL Zoom功能,并将集中展示名为高斯的AI聊天机器人,与谷歌的Gemini一同运行在三星Android设备上。

【AiBase提要:】

📱 Galaxy S24发布: 三星正式宣布Galaxy S24系列,预计加强光学变焦和推出可能的钛金版,将于1月17日在硅谷SAP中心发布。

🤖 AI聊天机器人高斯: 三星Unpacked活动将集中关注人工智能部分,推出名为高斯的新机器人,与谷歌Gemini一同在三星Android设备上运行,提供增强功能。

💰 特别优惠: 针对计划在新年之际升级手机的消费者,三星准备了特别优惠,截至1月16日预订Galaxy S24系列设备可享受50美元折扣。

全球首家AI餐厅开业

位于南加州的CaliExpress by Flippy是全球首家由人工智能驱动的全自动餐厅,机器人负责烹饪汉堡和炸薯条,顾客可定制菜单,实现自动下单和烹饪。

【AiBase提要】

🍔 创新菜单体验: CaliExpress by Flippy提供汉堡、芝士汉堡和薯条,顾客在机器人烹饪过程中可进行定制。

🤖 科技合作打造: 由Cali Group、Miso Robotics和PopID合作,利用生物识别简化订单支付系统,几乎消除了烹饪中的失误和烧伤。

🏛️ 多功能餐厅体验: 除全自动烹饪外,CaliExpress by Flippy的位置还展示Miso Robotics呈现的伪博物馆体验,包括机械臂、3D打印品和摄影展示等。

👨‍💻💡🎯聚焦开发者

阿里AI项目DreamTalk开源

阿里巴巴开源项目DreamTalk,能让人物头像栩栩如生地说话,支持多语言、歌曲、嘈杂音频匹配,开放更多开发者创新。

image.png

模型下载地址:https://huggingface.co/damo-vilab/dreamtalk

项目地址:https://top.aibase.com/tool/dreamtalk

【AiBase提要】

🔍 技术特点: DreamTalk利用扩散模型生成高质量动画,实现逼真嘴唇动作和丰富表情,支持多语言同步,可用于不同场景和环境。

🚀 风格预测功能: 具备说话风格预测,根据语音自动调整动画表情,使得生成的动画更加贴近原始音频。

🌐 开源意义: DreamTalk的开源将为语音合成技术的发展提供新的动力,吸引更多开发者和研究人员参与,拓展项目功能和改进技术。

Text2Immersion:可通过文本直接生成3D场景

Text2Immersion是一项创新方法,通过文本提示生成高质量的3D沉浸式场景,可适用于室内和室外,展现出色的灵活性和创造力。

image.png

体验地址:https://top.aibase.com/tool/text2immersion

【AiBase提要:】

🌐 广泛适用场景:Text2Immersion不仅可生成室内场景如“温馨的客厅”,还能应对室外场景,如“秋天的公园”,展现强大的生成能力。

🌈 应对风格化场景:该方法不仅局限于真实场景,还能应对风格化场景的挑战,通过文本提示如“水彩夜街”和“未来夜城”展示创造力和适应能力。

🚀 广泛应用前景:Text2Immersion的灵活性使其在虚拟现实、游戏开发和自动化内容创作等领域具有广泛应用前景,超越其他方法在渲染质量和多样性方面的表现。

举报

  • 相关推荐
  • 一个邪修方法,帮你把用Agent的钱省掉80%。

    ​之前我分享过一个Agent,Minimax的那个,因为我觉得Agent能力,是真的很棒,东西好用也是真的好用。 但文章发出去之后,评论区里最多的声音,几乎都指向了同一个字: 贵。

  • 第一个能帮你做生意的Agent来了。

    这是一个面向外贸、面向海外的tob产品,所以国内可能知道的人并不是很多。 但其实,Accio已经默默攒了200万企业级客户了。 ToB领域,200万客户,这是什么水平,大家懂得都懂。。。 我之前因为刘世奇,认识了阿里国际站,我自己本身就对外贸非常感兴趣,后来又当主持人和阿里国际站一起搞过他们的新品发布会,关系很不错。 所以托他们的福,这次,我也能第一手,抢�

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 格创东智再获权威认可,AI Agent解决方案入选甲子光年报告

    格创东智凭借工业AI+Agent创新实践入选甲子光年智库《企业级AI+Agent(智能体)价值及应用报告》,继获评"星跃100"2025中国AI产业逐浪者奖项后再获头部科技媒体认可。报告指出,该公司在复杂工作流编排、工具集成和领域知识沉淀三大维度表现突出,成为工业智能化转型标杆案例。其自主研发的章鱼智脑Agentic+AI平台支持多Agent协同和复杂工作流编排,通过"模型即服务、知识可视化、流程任编排"重构工业AI开发范式。典型案例"设备知识库Agent小鲁班"为半导体企业实现故障处理效率提升62%,年增收数千万元。公司持续深化"工业智能体"等研发投入,累计投入超10亿元,沉淀工业机理模型35000+个,构建了AI、工业软件、智能装备三合一的全栈服务生态。预测到2026年认知型Agent将覆盖70%企业复杂决策场景,格创东智将持续引领工业AI解决方案创新,助力中国制造业数字化升级。

  • Agentic AI落地加速:迈富时企业级智能体中台2.0,让 AI Agent成为企业 “数字员工”

    Gartner将代理型AI列为2025年十大战略趋势之首,预测到2028年15%的日常工作决策将由自主智能代理完成。迈富时发布的AI-Agentforce2.0企业级智能体中台,通过"技术赋能+场景落地"双轮驱动,构建了从模型能力到业务价值的闭环。该平台具有三大核心优势:1)"模型-应用-开发平台"三位一体架构;2)ChatBox+工作流双开发模式,支持快速部署;3)企业级安全保障,满足金融等敏感行业需求。已在保险、零售、供应链等领域实现规模化应用,最高提升37%销售转化率。该方案让企业能低成本打造专属数字员工团队,真正释放代理型AI的战略价值。

  • 企业在为哪些Agent付费?价值交付是唯一通行证

    文章探讨了2025年AI Agent在企业级应用中的发展趋势。销售易公司通过NeoAgent产品实践,验证了Agent在营销、销售和服务三大场景的商业价值。企业客户选择Agent的核心标准是能否创造业务增量价值,而非技术概念。销售易构建了基于CRM系统的360度客户数据平台,通过"原生+共创"模式快速落地行业解决方案。其创新点在于:1)性能驱动,提升数据质量和效率;2)原生集成业务系统,实现开箱即用;3)与腾讯云深度合作,构建开放生态。文章指出,Agent不仅是技术革新,更是商业模式的变革,需要企业与客户共同定义场景价值。

  • Testin XAgent 赋能:金融机构如何打赢 AI 测试升级战?

    在金融科技领域,软件质量是企业生存发展的生命线。从高频交易系统到在线银行平台,软件的稳定性直接关系到金融机构的声誉与客户信任。随着数字化转型深入,AI 技术正为软件测试带来革命性变革,推动行业从传统模式向智能化、自动化跨越。过去两年,生成式 AI 的崛起让软件测试迈入 “自驱” 时代。世界质量报告显示,75% 的公司正积极投资 AI 以提升质量保证能力;

  • 荣耀Magic V Flip2详细参数出炉:骁龙8 Gen3+荣耀自研C1/E2芯片

    荣耀Magic V Flip2折叠屏手机将于8月21日发布,采用6.82英寸LTPO内屏(2868*1232p/120Hz/4320Hz PWM)和4英寸LTPO外屏(1200*1092p/120Hz/3840Hz PWM)。搭载骁龙8Gen3处理器,配备5000万像素前置+2亿主摄+5000万超广角后置三摄,内置5500mAh电池支持80W有线+50W无线快充。整机重204g,厚度6.9/15.5mm,创新搭载自研HONOR C1射频增强芯片(提升弱信号场景通信能力)和HONOR E2能效管理芯片(优化续航表现)。

  • 销售易罗义谈企业级Agent:宁可精准拒绝,不可错误执行

    文章探讨了企业级智能体(ToB Agent)与通用大模型的本质差异。ToB Agent的核心在于确定性执行力和业务场景深耕,而非创造性发挥。其三大落地门槛是:1)安全合规,需满足数据隔离和跨境合规等刚性需求;2)工程化能力,要将上千个业务API转化为Agent可理解的语义接口;3)价值度量,需建立可衡量的业务成效评估体系。垂直厂商优势在于与业务系统的原生融合,如销售助理Agent能自动将待办事项写入CRM数据流。真正的企业智能化不是替代人类思考,而是将确定性价值深嵌业务毛细血管。

  • 从 Soul App 用 AI 重塑内容社区,看 Gen AI 浪潮下的社交新范式

    高分治愈动画电影《玛丽和马克思》8月8日在中国院线上映,豆瓣评分9.0。影片通过两位孤独灵魂跨越半个地球的书信往来,探讨了人际关系的深刻主题。社交平台Soul App借助AI技术,让用户能与电影主角虚拟形象互动,延续影片治愈内核。这不仅是电影IP的数字化延伸,更是AI在情感陪伴领域的创新实践。Soul通过构建多元虚拟角色矩阵,打造"内容场+情感连接"的社交新生态,让AI成为缓解孤独、促进真实社交的桥梁,重新定义人机关系。平台数据显示,18%的用户发帖源于社交场景中的情感需求,印证了现代人普遍存在的孤独感。Soul正通过生成式AI技术,构建更具温度和效率的数字社交空间。

今日大家都在搜的词: