首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

今日AI:Gemini Pro1.5向所有人开放;Stable Diffusion核心团队集体离职;HeyGen5.0上线视频翻译功能;剪映内测视频翻译功能

2024-03-22 16:02 · 稿源:站长之家

欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

QQ截图20240322161437.png

🤖📱💼AI应用

Gemini Pro1.5及其百万上下文功能现已向所有人开放

QQ截图20240322154001.png

【AiBase提要:】

⭐ Gemini Pro1.5加入视频模态的长上下文功能,AI可以处理更复杂的视频内容。

⭐ 博主体验Gemini Pro1.5后表示,描述准确且清晰,展示强大处理能力。

⭐ Gemini Pro1.5百万上下文功能的开放将推动AI领域发展,为用户带来更丰富体验。

体验地址:https://top.aibase.com/tool/google-ai-studio

Suno正式发布V3音乐生成模型 所有人都可用

image.png

【AiBase提要:】

⭐ 音质得到显著提升,带来更清晰动听音频体验。

⭐ V3提供更丰富音乐风格选择,满足不同需求。

⭐ 用户指令响应显著改进,确保音乐结尾流畅自然。

官网地址:https://top.aibase.com/tool/suno-ai

剪映内测视频翻译功能仅限移动端体验

【AiBase提要:】

🚀剪映推出全新视频翻译功能,进一步巩固其领先地位。

📱内测仅限移动端体验,审批速度较快,可在短时间获得资格

🔒视频翻译功能仅支持用户本人视频,需声音认证。

内测申请地址:https://bytedance.larkoffice.com/share/base/form/shrcnq7rM9EEJytIW5LKyUpVaee

HeyGen发布5.0版本上线实时数字人聊天和视频翻译功能

QQ截图20240322100113.png

【AiBase提要:】

⭐全新用户界面设计,更容易找到想要使用的功能

⭐引入全新视频编辑工作室,编辑更加灵活

⭐上线实时数字人聊天功能,视频翻译等功能

产品入口:https://top.aibase.com/tool/heygen-5-0

零一万物API开放 多模态中文图表体验超越GPT-4V

【AiBase提要:】

⭐️ 零一万物API正式开放,包含三款强大模型,支持通用聊天、多文档阅读理解等功能。

⭐️ 多模态模型Yi-VL-Plus中文图表体验超越GPT-4V,支持图表识别、信息提取、问答和推理。

⭐️ Yi-34B-Chat-200K模型开放,准确率高达99.8%,用于长文本理解、小说内容总结和论文要点提取。

地址:https://platform.lingyiwanwu.com/playground

视频转视频框架AnyV2V 可修改源视频主题、风格等

QQ截图20240322150433.png

【AiBase提要:】

⭐️ 支持对源视频进行深度修改,加入文本提示、主题或风格

⭐️ 核心目标是简化视频编辑为两个步骤

⭐️ 整合各种图像编辑工具,实现新视频生成外观和动作与原视频保持一致

论文地址:https://arxiv.org/html/2403.14468v1#S6

MIT研究员推新AI图片生成框架DMD:AI 单步生成高质量图像 速度快30倍

image.png

【AiBase提要:】

⭐️ MIT研究人员开发了比传统扩散模型快30倍的单步AI图像生成器,质量仍高。

⭐️ 新方法结合了教师 - 学生模型,通过匹配蒸馏实现单步图像生成。

⭐️ 框架加速了图像生成,潜在益处涉及设计工具、药物发现和3D建模等领域。

论文网址:https://arxiv.org/abs/2311.18828

微软NaturalSpeech语音合成推出第三代 生成语音更自然了

【AiBase提要:】

⭐️ NaturalSpeech3采用属性分解扩散模型和数据/模型扩展,提高语音合成质量和自然度

⭐️ FACodec和属性分解扩散模型是NaturalSpeech3的关键技术

⭐️ NaturalSpeech3在语音质量、相似性、韵律和可懂度方面超越了现有TTS系统

论文:https://arxiv.org/abs/2403.03100

Demo 演示: https://speechresearch.github.io/naturalspeech3

📰🤖📢AI新鲜事

开源AI掌机01Light爆火,让远程操控电脑变得触手可及

image.png

【AiBase提要:】

⭐01Light能够识别屏幕内容学习用户习惯,提供个性化需求满足。

⭐ 用户按下按钮讲话,01Light思考回应需求,实现远程语音控制电脑操作。

⭐ 完全开源的01Light能提高工作效率,节省时间,随时随地操控电脑。

官网:https://top.aibase.com/tool/01-light

项目地址:https://github.com/OpenInterpreter/01

Stable Diffusion核心团队集体离职 AI巨头Stability AI面临财务危机

【AiBase提要:】

⭐️ Stable Diffusion核心团队集体离职,引发科技界广泛关注。

⭐️ Stability AI可能因财务困境挑战,团队领导离职名单中。

⭐️ Stable Diffusion项目开源成功,但给公司商业模式带来挑战。

百度5款大模型上新,更小更便宜!还可1分钟零代码打造Agent应用

image.png

【AiBase提要】

⭐ 做一个“英语作文批改小帮手”应用,只需在AppBuilder中输入应用名称或功能,平台即可生成应用。

⭐ 百度推出5款大模型,轻量化、性价比更高,适用于各种场景下的Agent应用。

⭐ 千帆AppBuilder升级,支持一键分发到多个主流渠道,加入新的基础组件如向量数据库VDB1.0。

产品入口:https://top.aibase.com/tool/baiduzhinengyunqianfanappbuilder

微软将以6.5亿美元收购Inflection AI 获得后者大模型的使用权

【AiBase提要:】

⭐ 微软同意支付6.5亿美元收购Inflection AI,获取大模型使用权。

⭐ 微软将雇佣Inflection AI大部分员工,包括联合创始人。

⭐ Inflection-2.5是Inflection最新人工智能模型,性能接近GPT-4。

中国首部AI全流程微短剧《中国神话》启播 央视频AI频道上线

【AiBase提要:】

🎬 央视频推出全流程AI微短剧《中国神话》,六集展现经典神话故事。

📺 央视频AI频道正式上线,推动视听产业创新升级。

🤖 AI技术应用助力央视频推动中国传媒业发展。

月入25万,批量AI美女,收割中年男人的钱包

图片

【AiBase提要:】

⭐ 中年男人愿意花钱,AI美女们抓住了这一商机。

⭐ AI美女主播以低单价产品吸引中老年男性用户,通过带货视频获利丰厚,受欢迎程度高。

⭐ AI带货产业链庞大,但也存在虚假宣传和维权问题。

案例:https://www.chinaz.com/2024/0322/1605183.shtml

————

今日Midjourney提示词:淘宝服装模特

2_1711094141451_ai2023_A_beautiful_Chinese_female_model_wearing_round_framed_gl_d73a8207-946d-4c83-9eb6-648463f7d7b5.png

图源备注:图片由AI生成,图片授权服务商Midjourney

A beautiful Chinese female model wearing round framed glasses, with a delicate Asian face, wearing a light gray linen short sleeved shirt and Short pants, Japanese style shirt ,hands in pockets, front view, and a beige background,full bodyshot, Studio lighting, soho, shot on Canon EOS5D Mark IV ,8k --ar3:4--v6.0

举报

  • 相关推荐
  • 大家在看
  • llama-recipes:用于微调Meta Llama模型的库和示例脚本集合

    llama-recipes是Meta Llama模型的配套仓库,旨在提供一个可扩展的库,用于微调Meta Llama模型,并提供一些示例脚本和笔记本,以便快速开始使用模型在各种用例中,包括领域适应的微调和构建基于LLM的应用程序。

  • Opinion Stage AI:创建表单、调查或测验,提升参与度,收集潜在客户信息

    Opinion Stage AI 是一个在线平台,使用人工智能技术帮助用户快速创建表单、调查或测验。它旨在提升用户参与度,收集潜在客户信息,进行市场研究和员工参与度调查。该平台支持40多种语言,能够在短时间内创建问卷并获取反馈,是商业用户进行市场调研和客户反馈收集的有力工具。

  • krita-ai-diffusion:Krita中的AI图像生成插件,无需调整即可修复和扩展画布。

    krita-ai-diffusion是一个开源的Krita插件,旨在简化AI图像生成过程。它允许用户在Krita中通过AI技术修复图像中的选定区域、扩展画布以及从头开始创建新图像。插件支持文本提示,并提供强大的自定义选项,适合高级用户。它利用了Stable Diffusion技术,并与ComfyUI后端结合,提供了本地化、无需调整的图像生成体验。

  • DataGems:数据驱动的营销叙事工具

    DataGems是一个利用人工智能技术将分散的营销数据转化为引人入胜的叙事的平台。它通过直观的自动化营销分析平台,帮助企业发现营销数据中的宝贵见解,从而驱动增长和参与策略。产品背景信息包括与多个数据平台集成,如Instagram、Mixpanel、Appstore等,以及提供实时数据更新和AI数据代理来追踪营销数据的变化。价格方面,DataGems提供从免费到定制化的多种订阅方案,以满足不同规模企业的需求。

  • Fuji-Web:AI智能助手,浏览器侧边栏自动化执行在线任务。

    Fuji-Web是一个AI智能助手,它通过浏览器侧边栏与用户交互,理解用户意图,自动导航网站,并代表用户执行任务,同时解释每一步操作。它支持创建和运行自动化脚本,可以显著提高用户在线完成任务的效率。产品背景信息包括使用开源Apache-2.0许可,支持多种编程语言,并且有一个活跃的社区参与开发和贡献。

  • MultiOn Playground:一个交互式体验平台,支持网站认证和屏幕交互。

    MultiOn Playground是一个提供实时预览和交互体验的平台。它支持需要认证的网站,并允许用户通过聊天界面输入查询或选择示例来开始交互。用户还可以通过屏幕交互来控制或纠正代理的操作。

  • DIAMOND:扩散世界模型中训练的强化学习代理

    DIAMOND(DIffusion As a Model Of eNvironment Dreams)是一个在扩散世界模型中训练的强化学习代理,用于雅达利游戏中的视觉细节至关重要的世界建模。它通过自回归想象在Atari游戏子集上进行训练,可以快速安装并尝试预先训练的世界模型。

  • Mistral-7B-Instruct-v0.3:大型语言模型,支持指令式对话和功能调用。

    Mistral-7B-Instruct-v0.3是由Mistral AI Team开发的大型语言模型,它是Mistral-7B-v0.3的指令式微调版本。该模型具有扩展的词汇量、支持v3 Tokenizer和功能调用。它能够通过指令式对话和功能调用来生成文本,适合于需要交互式对话和自动化任务的场景。

  • Granola:AI智能笔记工具,提升会议效率。

    Granola是一款专为频繁开会人士设计的AI笔记应用。它能够将会议的原始笔记转化为结构化、易于阅读的格式,并通过AI技术增强笔记内容。Granola支持Mac平台,无需会议机器人即可直接转录Mac音频,提供可定制的会议模板,满足不同团队的需求。内置GPT-4,帮助用户处理会议后的行动项目,如撰写跟进邮件、列出行动项目等。此外,Granola还支持一键分享笔记到常用平台,提高工作效率。

  • Muddy:让团队协作变得流畅而有趣。

    Muddy 是一个专为团队设计的协作工具,它通过人工智能简化了多应用和文件的工作流程,让团队成员能够更高效地协作。Muddy 能够自动整理和分类标签页,支持无限回溯功能,允许用户在应用、文件和对话之间快速切换。此外,它还具有通用评论功能,允许用户在任何地方进行高亮、点击和发送,就像在每个应用和网站上都有 Slack 的线程一样。Muddy 还能自动读取所有标签页,从您的对话中学习,并在需要时提出后续问题。

  • Ivee:B2B影响者营销平台

    Ivee是一个B2B影响者营销平台,旨在帮助企业与行业专家合作,以增长收入、产生潜在客户并提升品牌。它通过AI驱动的搜索引擎集中来自Linkedin、Youtube、Substack和Apple podcast等平台的数据,帮助企业找到与品牌DNA和目标最相关的行业领导者。Ivee还提供数据驱动的洞察来评估受众质量和相关性,并帮助企业建立业务驱动的合作关系,提高运营效率。

  • Visible AI Inbox:将电子邮件转化为投资组合洞察的工具

    Visible AI Inbox是一个专为风险投资公司设计的工具,它能够自动解析、结构化和图表化投资组合公司的数据,从而提供清晰的投资组合洞察。产品通过AI技术帮助用户从电子邮件和文件中提取信息,与现有的数据结合,创建一个投资组合指标和洞察的真实来源。它还允许创始人以他们喜欢的方式分享数据,同时确保数据安全,采用SOC 2认证、TLS 1.2加密和AES-256静态加密等安全措施。

  • DokeyAI:AI工具目录与产品展示平台。

    DokeyAI是一个提供超过1800个AI网站和AI工具的目录与产品展示平台。它通过Photo AI等技术增强了用户喜爱的工具,覆盖了43个不同的类别,包括会计金融、动画3D建模、建筑室内设计、艺术图像生成、聊天机器人、编程数据库助手等。DokeyAI旨在为用户提供一个集中的平台,以发现和使用各种AI增强的工具。

  • Nowadays:AI助力的企业活动规划师

    Nowadays是一个AI驱动的企业活动规划平台,旨在简化活动策划流程,通过电子邮件和电话与最佳场地进行谈判,为公司活动找到合适的地点。它通过AI技术提供快速响应时间,作为IATA认证的旅行代理运营,并提供无限范围的场地搜索,确保结果与活动标准相匹配。此外,AI还协助全球范围内与场地进行谈判,帮助用户节省成本。

  • Unify AI:一站式LLM模型比较与优化平台

    Unify AI是一个为开发者设计的平台,它允许用户通过一个统一的API访问和比较来自不同提供商的大型语言模型(LLMs)。该平台提供了实时性能基准测试,帮助用户根据质量、速度和成本效率来选择和优化最合适的模型。Unify AI还提供了定制路由功能,允许用户根据自己的需求设置成本、延迟和输出速度的约束,并定义自定义质量指标。此外,Unify AI的系统会根据最新的基准数据,每10分钟更新一次,将查询发送到最快提供商,确保持续达到峰值性能。

  • ChatVid.AI:AI生成的用户界面,重新定义视频学习。

    ChatVid.AI 是一个利用人工智能技术,通过生成用户界面来提升视频学习效率的平台。它通过AI技术生成的界面,让用户能够更快速地获取视频内容的核心信息,减少观看时间,提高学习效率。产品背景信息显示,它可能与当前流行的AI技术如LLaMA 3 大模型和GPT-4 Omni等有关联,表明其技术先进性和创新性。

  • Crusoe Cloud:高性能、成本效益高、气候对齐的云平台

    Crusoe提供可扩展的、气候对齐的数字基础设施,专为高性能计算和人工智能优化。我们的创新方法通过使用浪费的、孤立的或清洁能源来减少温室气体排放,支持能源转型,并最大化资源效率。

  • AI 论文速递:提供人工智能领域最新研究论文的速递服务。

    AI 论文速递是一个专注于人工智能领域的学术资源分享平台,旨在帮助研究人员和学者快速获取最新的人工智能研究论文。该平台通过聚合各大学术会议和期刊的论文,为用户提供一个集中的、易于访问的信息源,从而促进知识的传播和学术的交流。

  • Dolphin 2.9.1 Mixtral 1x22b:基于Dolphin-2.9-Mixtral-8x22b的先进AI模型

    Dolphin 2.9.1 Mixtral 1x22b是由Cognitive Computations团队精心训练和策划的AI模型,基于Dolphin-2.9-Mixtral-8x22b版本,拥有Apache-2.0许可。该模型具备64k上下文容量,通过16k序列长度的全权重微调,经过27小时在8个H100 GPU上的训练完成。Dolphin 2.9.1具有多样的指令、对话和编码技能,还具备初步的代理能力和支持函数调用。该模型未进行审查,数据集已过滤去除对齐和偏见,使其更加合规。建议在作为服务公开之前,实施自己的对齐层。

  • PowerToys:微软推出的系统增强工具集

    PowerToys 是微软推出的一款面向高级用户的系统增强工具集,旨在提高用户的工作效率和系统使用体验。它包含了多种实用工具,如颜色选择器、窗口管理、文件资源管理器插件等,以帮助用户更好地管理他们的Windows系统。

今日大家都在搜的词: