首页 > 业界 > 关键词  > M2UGen最新资讯  > 正文

AI视野:腾讯发布音乐生成模型M2UGen;米老鼠SD模型上线;MidReal AI更新Beta版本;ChatGPT文明模拟器再上线

2024-01-03 15:39 · 稿源:站长之家

新鲜AI产品点击了解:https://top.aibase.com/

🤖📈💻💡大模型动态

腾讯发布多模态音乐生成模型M2UGen

腾讯推出的M2UGen是一款多模态音乐生成框架,结合音乐和多模态任务,支持从文字、图像、视频生成音乐,并具备强大的编辑功能。

image.png

体验地址:https://top.aibase.com/tool/m2ugen

【AiBase提要:】

🎵 M2UGen融合音乐理解和多模态任务,支持文字、图像、视频生成音乐。

🖼️ 利用编码器和模型进行音乐和图像理解,用户可编辑音乐、调整乐器和速度。

🚀 采用创新方法生成大规模音乐指导数据集,展示出色的音乐生成和编辑能力。

米老鼠SD模型上线

迪士尼旧版米老鼠版权过期,AI开发者推出基于Stable-Diffusion-xl的Mickey-1928SD模型,用于生成符合1928年设计风格的米老鼠、米妮和皮特的图像。

image.png

模型下载地址:https://top.aibase.com/tool/mickey-1928

【AiBase提要:】

🐭 Mickey-1928SD模型基于Stable-Diffusion-xl微调,使用1928年公共领域画面训练。

🎨 模型可生成符合1928年风格的米老鼠形象,任何人可自由使用。

🚀 模型作者为@Dorialexander,下载地址及在线体验链接已公开。

Midjourney将推文本转视频模型

Midjourney公司计划在未来几个月推出“文本转视频”模型,通过在1月开始培训视频模型,强调其自然发展和在生成视频领域引入竞争动态,同时V6更新提升画质和用户体验。

【AiBase提要:】

🎥 Midjourney计划推出“文本转视频”模型,扩展AI形象生成器到视频创作领域。

🤖 公司将在1月培训视频模型,CEO表示是平台的自然发展,引入生成视频行业竞争动态。

🌐 MidJourney的最新v6更新专注于提高画质和用户体验,预示着AI视频生成领域的激烈竞争。

同花顺推出问财大模型HithinkGPT

同花顺问财发布HithinkGPT大模型,采用transformer的decoder-only架构,通过科学高效的训练体系和大规模金融语料预训练,成为国内金融领域首个应用大模型技术的智能投顾产品。

微信截图_20240103085544.png

【AiBase提要:】

🚀 技术规格: HithinkGPT提供7B、13B、30B、70B和130B五种版本选择,最大允许32k文本输入,支持API接口调用、网页嵌入、共建等能力。

📈 金融应用: 在金融领域,模型通过多个金融考试,得分平均达到75.9分,涵盖A股、基金、ETF等15个业务矩阵,为用户提供全面精准、稳定可控的投资决策支持。

🔗 内测申请: 用户可申请内测体验HithinkGPT,成为国内金融行业首个成功应用大模型技术的智能投顾产品。

摩根大通推出多模态文档理解模型DocLLM

摩根大通发布了DocLLM,一款专为多模态文档理解设计的生成式语言模型,通过轻量级扩展LLM,避免昂贵的图像编码器,以提高文档分析效能。

论文地址:https://arxiv.org/pdf/2401.00908.pdf

【AiBase提要:】

🚀 创新设计: DocLLM采用分离的空间注意机制,专注于边界框信息,解决文本和空间模态交汇处的复杂语义问题。

📊 广泛评估表现: 在16个已知数据集中,DocLLM在多种文档智能任务中表现优越,对未见数据集具有强大泛化能力。

🔗 未来增强承诺: 摩根大通承诺以轻量级方式将视觉融入DocLLM,进一步提升其多模态文档理解能力。

🤖📱💼AI应用

MidReal AI更新Beta版本

MidReal AI最新Beta版本更新,提升小说生成模型逻辑和连贯性,官网推出小说展厅,新增私密内容功能,提供更好体验。

1.png

体验地址:discord.gg/GUSTKcEJ7a

官网地址:https://top.aibase.com/tool/midreal-ai

【AiBase提要:】

🔄 模型更新:MidReal AI Beta版本增强逻辑和连贯性,提升用户小说生成体验。

📚 小说展厅:官网推出小说展厅,用户可舒适浏览推荐小说,比Discord阅读更便捷。

🔒 私密功能:新增“/start_private”命令,用户可创建完全私密内容,避免社交尴尬。

Inpaint wechat微信小程序上线

这是一款基于微信AI能力的微信小程序,可以实现图片选定区域的消除修复功能,纯客户端实现,无需服务端支持。用户友好的方法使得照片修复易于访问,QR码提供快速入口。

image.png

体验地址:https://top.aibase.com/tool/inpaint-wechat

【AiBase提要】

🔸 基于微信AI能力的Inpaint wechat微信小程序上线,实现图片选定区域的消除修复功能

🔸 纯客户端实现,无需服务端支持,用户友好的方法易于访问

🔸 提供QR码,快速进入小程序使用修复功能

谷歌即将推出Bard Assistant

谷歌即将发布与Bard合作的增强助理,最新应用程序更新展示新设计,包括弹出窗口和标签切换器,同时对股票和金融小部件进行调整。

QQ截图20240103105945.jpg

【AiBase提要:】

🚀 谷歌计划推出与Bard合作的Assistant,应用程序更新包括新设计和用户体验提升。

📊 股票和金融小部件经过调整,强调清晰的视觉效果,显示特定股票的价格和趋势。

🌐 Bard Assistant将放置在Google搜索应用程序的“发现”页面上,提供用户在搜索和获取AI帮助之间快速切换的便捷方式。

AI视频翻译配音工具

一款解决短视频副业项目中字幕翻译问题的工具,提供语音生成字幕、多种配音角色选择和多种翻译引擎支持,轻松完成视频翻译和配音任务。

image.png

体验地址:https://top.aibase.com/tool/shipinfanyipeiyin

【AiBase提要】

🎙️ 支持语音自动生成字幕,用户可灵活编辑确保最佳翻译效果。

👥 提供多种配音角色选择,包括支持openai的TTS模型。

🌐 集成多种翻译引擎,如Google、ChatGPT、DeepL,确保用户选择最佳引擎。

📰🤖📢AI新鲜事

ChatGPT文明模拟器再上线

通过GPT-4和DELL-3的结合,使用ChatGPT模拟庞贝古城火山爆发时的历史情景,并展示了多模态人工智能的强大功能。

项目地址:https://docs.google.com/document/d/1irisz6f1G4oYaKojqwuU9rSDBV1-VaCh0VkeuIX0sfs/edit?pli=1

【AiBase提要:】

🔄 GPT-4与DELL-3协同,模拟历史中庞贝古城火山爆发情景,提供沉浸式体验。

🖼️ 多模态人工智能的兴起,使历史模拟更加生动,通过图像与文本交互生成历史场景。

🌐 教授使用GPT-4和DELL-3进行多模态历史模拟,通过互动方式改变历史走向,丰富了历史教学。

钉钉发布AIGC应用层十大趋势

《2024AIGC应用层十大趋势白皮书》预测2024年将涌现5亿新应用,AIGC技术爆发增长,B端办公和生产力场景将率先受益,AI将重新定义组织形态。

微信截图_20240103135515.png

【AiBase提要:】

🚀 AIGC应用在B端和生产力场景崛起,以知识管理为主流应用场景。

🌐 大模型从追赶时髦发展为真正实用,成为提效的关键手段。

💼 AI人才缺口问题突出,预测2026年80%企业难以找到熟练AI专业人员。

原钉钉副总裁成立Al应用开发平台BetterYeah

斑头雁智能科技由原钉钉副总裁张毅创立,完成近千万美元A轮融资,致力于开发企业级AI Agent产品BetterYeah AI,主要应用于销售、客服和营销场景,以提高企业效率和增加收入。

【AiBase提要:】

🚀 融资成功: 斑头雁智能科技完成亿元A轮融资,累计融资额达1亿元人民币。

💡 产品特色: BetterYeah AI面向企业客户,以多模态模型为核心,提供工作流、数据集、工具和聊天功能,帮助企业无缝集成AI。

💰 低成本平台: 公司旨在通过提供一站式AI开发平台和封装好的Agent,帮助企业以低成本快速应用AI技术。

三星Unpacked将揭秘Galaxy S24系列及全新AI聊天机器人

三星宣布Galaxy S24系列将于1月17日在硅谷SAP中心发布,重点推出新ISOCELL Zoom功能,并将集中展示名为高斯的AI聊天机器人,与谷歌的Gemini一同运行在三星Android设备上。

【AiBase提要:】

📱 Galaxy S24发布: 三星正式宣布Galaxy S24系列,预计加强光学变焦和推出可能的钛金版,将于1月17日在硅谷SAP中心发布。

🤖 AI聊天机器人高斯: 三星Unpacked活动将集中关注人工智能部分,推出名为高斯的新机器人,与谷歌Gemini一同在三星Android设备上运行,提供增强功能。

💰 特别优惠: 针对计划在新年之际升级手机的消费者,三星准备了特别优惠,截至1月16日预订Galaxy S24系列设备可享受50美元折扣。

全球首家AI餐厅开业

位于南加州的CaliExpress by Flippy是全球首家由人工智能驱动的全自动餐厅,机器人负责烹饪汉堡和炸薯条,顾客可定制菜单,实现自动下单和烹饪。

【AiBase提要】

🍔 创新菜单体验: CaliExpress by Flippy提供汉堡、芝士汉堡和薯条,顾客在机器人烹饪过程中可进行定制。

🤖 科技合作打造: 由Cali Group、Miso Robotics和PopID合作,利用生物识别简化订单支付系统,几乎消除了烹饪中的失误和烧伤。

🏛️ 多功能餐厅体验: 除全自动烹饪外,CaliExpress by Flippy的位置还展示Miso Robotics呈现的伪博物馆体验,包括机械臂、3D打印品和摄影展示等。

👨‍💻💡🎯聚焦开发者

阿里AI项目DreamTalk开源

阿里巴巴开源项目DreamTalk,能让人物头像栩栩如生地说话,支持多语言、歌曲、嘈杂音频匹配,开放更多开发者创新。

image.png

模型下载地址:https://huggingface.co/damo-vilab/dreamtalk

项目地址:https://top.aibase.com/tool/dreamtalk

【AiBase提要】

🔍 技术特点: DreamTalk利用扩散模型生成高质量动画,实现逼真嘴唇动作和丰富表情,支持多语言同步,可用于不同场景和环境。

🚀 风格预测功能: 具备说话风格预测,根据语音自动调整动画表情,使得生成的动画更加贴近原始音频。

🌐 开源意义: DreamTalk的开源将为语音合成技术的发展提供新的动力,吸引更多开发者和研究人员参与,拓展项目功能和改进技术。

Text2Immersion:可通过文本直接生成3D场景

Text2Immersion是一项创新方法,通过文本提示生成高质量的3D沉浸式场景,可适用于室内和室外,展现出色的灵活性和创造力。

image.png

体验地址:https://top.aibase.com/tool/text2immersion

【AiBase提要:】

🌐 广泛适用场景:Text2Immersion不仅可生成室内场景如“温馨的客厅”,还能应对室外场景,如“秋天的公园”,展现强大的生成能力。

🌈 应对风格化场景:该方法不仅局限于真实场景,还能应对风格化场景的挑战,通过文本提示如“水彩夜街”和“未来夜城”展示创造力和适应能力。

🚀 广泛应用前景:Text2Immersion的灵活性使其在虚拟现实、游戏开发和自动化内容创作等领域具有广泛应用前景,超越其他方法在渲染质量和多样性方面的表现。

举报

  • 相关推荐
  • 大家在看
  • ComfyUI-Hallo:一个定制的ComfyUI节点,用于Hallo模型。

    ComfyUI-Hallo是一个为Hallo模型定制的ComfyUI插件,它允许用户在命令行中使用ffmpeg,并从Hugging Face下载模型权重,或者手动下载并放置在指定目录。它为开发者提供了一个易于使用的界面来集成Hallo模型,从而增强了开发效率和用户体验。

  • AI Word Summarizer:AI驱动的文档摘要工具,快速生成文档摘要。

    AI Word Summarizer是一款利用高级人工智能技术快速生成Microsoft Word文档摘要的在线工具。它通过用户友好的在线界面,帮助用户节省时间,提高工作效率。该工具支持将DOCX/DOC格式的文档转换为文本,并在几秒钟内生成摘要。它还提供了与文档对话的功能,允许用户提出问题并获得即时的洞察和澄清。

  • AI Math GPT Solver Powered by GPT-4o:AI驱动的数学问题解决器

    AI Math GPT Solver是一个由GPT-4o提供动力的在线数学问题解决平台,它覆盖了代数、微积分和几何等数学领域,集成了微软数学求解器等领先技术,提供快速、准确的解决方案。该平台通过网页和移动应用程序提供免费、用户友好的服务,允许用户随时随地解决问题。

  • GPT4o.so:革命性AI技术,多模态智能互动

    GPT-4o是OpenAI的最新创新,代表了人工智能技术的前沿。它通过真正的多模态方法扩展了GPT-4的功能,包括文本、视觉和音频。GPT-4o以其快速、成本效益和普遍可访问性,革命性地改变了我们与AI技术的互动。它在文本理解、图像分析和语音识别方面表现出色,提供流畅直观的AI互动,适合从学术研究到特定行业需求的多种应用。

  • 知闻AI:基于AI技术的新闻聚合平台

    知闻AI是一个利用人工智能技术为用户提供高质量新闻内容的新闻聚合平台。它通过分析大量新闻源,筛选出准确、及时的新闻,帮助用户获取有价值的信息。平台特点包括智能评估、多元视角、AI摘要等,以提高用户的阅读效率和信息获取质量。

  • MidJourney Sref Codes Library:探索和标记您喜爱的MidJourney Sref代码。

    MidJourney Sref Codes Library是一个在线资源网站,提供MidJourney平台上的高质量Sref代码集合。这些代码用于生成具有独特和一致风格的图像,为艺术家和创作者提供了实现特定视觉效果的强大工具。

  • Humanize.im:将AI文本转化为自然人类语言。

    Humanize.im是一个先进的AI文本人性化工具,旨在将AI生成的文本转化为更自然、更具吸引力的人类语言。它利用高级算法进行上下文分析和情感分析,确保文本在上下文和情感上适当且一致,同时增强可读性和相关性。该工具支持多语言,具有跨设备功能,并且注重数据安全。Humanize.im通过持续的反馈循环不断改进,以确保生成的文本与人工撰写的文本无异,有效绕过AI检测系统如GPTZero。

  • 免费在线转换文字为语音:将文本转换为逼真语音的在线工具

    该产品是一个先进的在线文字转语音工具,使用人工智能技术将文本转换为自然逼真的语音。它支持多种语言和语音风格,适用于广告、视频旁白、有声书制作等场景,增强了内容的可访问性和吸引力。产品背景信息显示,它为数字营销人员、内容创作者、有声书作者和教育工作者提供了极大的便利。

  • Kling AI:文本到视频的革命性生成模型

    Kling AI是由快手科技开发的文本到视频生成模型,能够根据文本提示生成高度逼真的视频。它具有高效的视频生成能力,长达2分钟的30帧每秒视频,以及3D时空联合注意机制和物理世界模拟等先进技术,使其在AI视频生成领域具有显著的竞争优势。

  • LocalhostAI:与Chrome和Gemini Nano无缝协作的AI助手。

    LocalhostAI是一款旨在提高用户生产力的AI助手应用。它与Chrome浏览器和Gemini Nano设备紧密集成,使用户能够利用先进的AI模型来提升工作效率。该产品的主要优势在于其内置的Chrome AI模型、支持离线使用、注重隐私保护、运行速度快且完全免费。

  • TravelTrail:智能旅行规划助手,轻松管理你的旅程。

    TravelTrail是一款旅行规划应用,通过人工智能技术帮助用户创建和组织旅行计划。它允许用户保存梦想目的地的列表,探索每个城市的详细信息,并根据个人喜好定制旅行体验。应用支持多语言,包括中文、英文等,为用户提供了便捷的旅行规划工具,无需担心语言障碍。

  • i18nlocale:AI驱动的多语言翻译工具,本地化且易于使用。

    Local + Effortless i18n Translation是一个AI驱动的翻译工具,支持200多种语言的本地化翻译,不接触服务器,与JSON格式无缝集成。它提供了一次性购买的可负担价格,并且提供免费试用,以帮助企业轻松实现多语言内容的本地化。

  • AI Content Mate:AI驱动的Figma插件,实现文本的智能替换。

    AI Content Mate是一个Figma插件,它通过AI技术帮助用户在设计中自动选择和替换文本。它能够理解文本的上下文,提供智能且相关的替代选项,同时允许用户添加自定义的注释和指南以确保生成的文本符合特定需求。这个插件提供了免费访问,通过Grok-cloud API密钥,用户可以享受AI驱动的文本转换功能,无需任何成本。

  • ReelGen:AI驱动的内容生成平台,轻松创造高质量播客和博客。

    ReelGen是一个利用先进人工智能技术的内容生成平台,旨在帮助用户轻松创建高质量的播客和博客文章。用户无需具备技术技能,通过ReelGen的用户友好界面,几分钟内即可开始创作。平台提供定制化服务,允许用户根据品牌的声音和风格调整内容,从音频质量到文本转语音的细节,确保内容与用户愿景相匹配。ReelGen专注于内容生产,让用户专注于创作,而将生产过程中的重活交给平台,从而在不牺牲质量的前提下,用更少的时间生产更多的内容。

  • AI Reveals:使用AI技术创造惊人的标志动画。

    AI Reveals是一个利用人工智能技术,帮助用户创建动态标志动画的在线工具。它通过用户上传的透明背景标志图片,自动生成具有吸引力的动画效果,增强品牌形象和市场竞争力。该技术的主要优点包括操作简便、效果多样、实时预览等,适合需要快速制作高质量动画的设计师和企业。

  • ChatGPT Folder Master:组织和保存重要ChatGPT对话的终极工具。

    ChatGPT Folder Master 是一款专为Chrome浏览器设计的插件,旨在帮助用户高效地组织和保存与ChatGPT的对话。它通过文件夹和子文件夹系统,让用户能够轻松地对对话进行分类和存档,确保重要信息不会丢失。产品界面友好,易于导航和使用,同时提供安全的本地存储,确保用户对话的隐私和安全。此外,该插件提供月度和终身订阅计划,满足不同用户的需求。

  • Thousand Brains Project:探索大脑智能的AI项目

    Thousand Brains Project是由Jeff Hawkins和Numenta公司发起,旨在通过理解大脑新皮层的工作原理来开发新型的人工智能系统。该项目基于Thousand Brains Theory of Intelligence,提出了与传统AI系统根本不同的大脑工作原理。项目的目标是构建一种高效且强大的智能系统,能够实现人类所具备的智能能力。Numenta公司开放了其研究资源,包括会议记录、代码开源,并建立了一个围绕其算法的大型社区。该项目得到了盖茨基金会等的资金支持,并鼓励全球研究人员参与或加入这一激动人心的项目。

  • Plansom:AI驱动的项目管理工作助手,提升效率。

    Plansom是一款AI驱动的项目管理应用程序,旨在通过简化复杂任务来实现运营卓越。它利用AI技术帮助用户快速创建详细的商业计划,智能分析并优先排序任务,提供AI辅助以解决复杂任务,并支持团队协作和实时跟踪团队进展。用户可以自定义策略模板,以确保组织内的一致性和效率。

  • Xterminal:更高效的开发工具,SSH/控制台/更多功能集成。

    Xterminal是一款集成了SSH、本地控制台、AI赋能命令提示等功能的高效开发工具,旨在为开发者提供更便捷的开发环境。它支持多种操作系统,包括Windows、macOS和Linux,拥有免安装版本和兼容旧版系统的版本,满足不同用户的需求。

  • NIPRGPT:美国空军推出的AI聊天机器人

    NIPRGPT是美国空军为现代化努力的一部分,由空军首席信息官与空军研究实验室合作,加速提供给守护者、空军人员、文职员工和承包商一个负责任地实验生成性人工智能(Generative AI)的平台,同时确保有适当的安全措施。这个平台允许用户进行类似人类的对话以完成各种任务,是一个在安全计算环境中可以回答问题和协助处理通信、背景文件和代码的CAI工具。

今日大家都在搜的词: