首页 > 业界 > 关键词  > ElevenLabs最新资讯  > 正文

AI视野:ElevenLabs发布“语音转语音”;realme GT5Pro 12月7日发布;Claude2.1被指严重虚标;清华大学提出全新加速训练大模型方法SoT

2023-11-24 15:23 · 稿源:站长之家

🤖📱💼AI应用

ElevenLabs发布“语音转语音”

ElevenLabs的语音生成式AI平台发布了“语音转语音”功能,用户可上传语音并自动转换为不同音色,实现声音的自由切换,为用户带来全新的语音生成体验。

图片

免费体验地址:https://elevenlabs.io/voice-changer

【AiBase提要:】

🔊 一键语音转换: ElevenLabs的STS功能简化了传统繁琐的语音转换过程,用户能够轻松实现一键语音转换,省去复杂步骤。

🎭 可视化控制参数: STS支持用户对转换声音的强度、语气、表现力、风格进行可视化控制,满足个性化需求。

🚀 技术灵感来源: STS技术灵感源自人脸转换,通过提取语音情感、语气等特征,实现音频的平滑过渡与匹配。

WhatsApp 的人工智能助手向部分 iOS 用户开放

Meta旗下的WhatsApp在最新的iOS测试版中引入了人工智能助手,用户可通过快捷方式在聊天中进行自然对话,获取实时信息和自动建议。

【AiBase提要】

🚀 MetaAI全平台融入: Meta计划在旗下社交平台中引入人工智能功能,WhatsApp是首个测试的平台,通过Meta AI助手实现自然对话。

💬 实时信息和自动建议: WhatsApp的人工智能助手利用微软Bing搜索引擎,提供用户在聊天中提问的实时信息,并为讨论的话题提供自动建议。

🌐 阶段性推出: 功能已在WhatsApp的Android测试版中推出,并将在最新的iOS测试版中推广,目前仅在美国提供,未来将逐步拓展至其他国家。

视频生成新突破!PixelDance还可以做复杂动作和特殊效果

近期,视频生成技术PixelDance引起广泛关注,相较于其他模型,它在生成高度一致性和丰富动态性的视频方面取得显著进展,采用文本和图片指导方法,令模型更专注学习视频动态信息。

image.png

体验地址:https://top.aibase.com/tool/make-pixels-dance

【AiBase提要:】

🌟 PixelDance是视频生成领域新兴技术,以高一致性和动态性脱颖而出。

🚀 提供基础和高级模式,采用文本和图片指导,成功克服数据集和模型规模挑战。

🎥 在WebVid-10M数据集上以1.5B大小模型取得出色效果,为视频生成带来新可能性。

📰🤖📢AI新鲜事

realme GT5Pro 将于12月7日发布

真我(realme)宣布将于12月7日发布GT5Pro旗舰新品,搭载第三代骁龙8,CPU性能提升30%、GPU提升25%。配备IMX890超光影潜望长焦、全球首发京东方定制旗舰屏,1.5K分辨率,峰值亮度超过3000nit。

【AiBase提要】

🚀 性能提升: GT5Pro搭载第三代骁龙8,CPU性能提升30%、GPU提升25%。

📸 影像系统强化: 配备IMX890超光影潜望长焦,与高通、虹软联手打造超芯长焦影像系统。

📱 创新屏幕技术: 将全球首发京东方定制旗舰屏,1.5K分辨率,峰值亮度超过3000nit。

200K上下文的Claude2.1被指严重虚标

大神Greg Kamradt对Anthropic最新更新的Claude2.1进行实测,发现在上下文长度达到90K后,性能急剧下降,引发了对其「虚标」的争议。

【AiBase提要:】

🚀 Anthropic发布支持200K上下文的Claude2.1,但大神实测发现在90K后性能明显下降,引发用户质疑。

🔄 Claude2.1升级了100K上下文能力,但实际表现与宣传相差甚远,性能不如GPT-4Turbo。

💡 实测结果提示用户在使用上需谨慎,需要设计提示词并多次测试来确保上下文检索的准确性。

西班牙AI模特月入1万欧元

西班牙设计机构推出的AI模特Aitana在Instagram上迅速走红,每月通过代言赚取高达1万欧元,引发了对AI生成模特伦理和美丽标准的担忧。

【AiBase提要:】

🤖 营销趋势:营销机构选择使用AI生成的模特,如Aitana,以实现更易控制和合作的优势。

📷 创意过程:The Clueless团队通过AI和设计专家合作,利用Photoshop创造虚拟场景,规划模特的生活方式,每月精心策划照片。

⚖️ 伦理关切:虚拟模特引发对不真实的完美形象可能导致身体形象问题和不切实际美丽标准的担忧。

Google Assistant 即将集成 Bard AI

Google计划在移动设备的Assistant中集成名为“Classic Assistant”的AI功能,用户可以选择使用集成了Bard的AI增强版本或经典版本。

【AiBase提要:】

🔄 用户选择:Google Assistant将推出Classic Assistant版本,用户可在经典和AI增强版本之间切换。

🚀 AI功能增强:集成Bard的Assistant将带来更多AI功能,如草拟电子邮件、导出文档,以及访问Bard扩展如酒店、航班、YouTube等。

📅 推出时间:尽管进展明显,但具体推出时间尚未确定,预计在年底前开始测试。

研究人员开发自动识别古代楔形文字片的AI软件

新型人工智能软件利用楔形文字片的3D模型,比以往的照片方法更可靠地解读古代楔形文字,为研究提供了新的途径。

【AiBase提要:】

🧠 利用楔形文字片的3D模型,新AI软件比传统照片方法更可靠地解读古代楔形文字,为研究提供了新的途径。

🔍 通过比较多个片上的内容进行搜索,这项技术为全新的研究问题铺平道路,打开了许多新的研究方向。

🌐 使用近2000块楔形文字片的3D模型进行训练,为未来解读多种楔形文字和古老碑铭提供了可能性。

牛津大学警告:大语言模型对科学真相构成风险

牛津大学AI研究员在最新研究中指出,大型语言模型(LLMs)可能对科学完整性构成威胁,呼吁改变使用方式以确保准确性。

【AiBase提要:】

🤖 AI研究员警告大型语言模型可能产生不真实回应,对科学真相构成威胁。

🧠 建议将LLMs作为“零射击翻译器”以验证输出准确性,提倡负责任使用。

📢 指出用户信任LLMs可能导致科学真相受损,呼吁对LLMs设定明确期望,特别在准确性关键任务中提供事实信息提示。

🤖📈💻💡大模型动态

日本电信巨头NTT将推商用AI模型tsuzumi

日本电信巨头NTT计划在三月推出商业用途的生成式人工智能平台,新模型名为“tsuzumi”,日语处理能力据称超越了ChatGPT。该模型以日本传统手鼓命名,可阅读包含图表和图解的文档,目标是到2027年实现年销售额超过1000亿日元。

【AiBase提要:】

🚀 NTT将推出商业用途AI平台“tsuzumi”,日语处理能力超越ChatGPT。

💼 新模型可阅读图表和图解文档,目标是2027年实现1000亿日元销售额。

🌐 日本科技公司竞争激烈,NEC、日立、软银等也推出生成式AI平台。

👨‍💻💡🎯聚焦开发者

清华大学提出全新加速训练大模型方法SoT

微软研究和清华大学合作提出了名为“Skeleton-of-Thought”的全新人工智能方法,通过不对大型语言模型进行复杂修改,而是优化输出内容的组织结构,成功提高了生成速度,为解决处理速度较慢的问题提供了前景性解决方案。

image.png

项目地址:https://github.com/imagination-research/sot/

【AiBase提要】:

💡 创新方法: SoT方法将大型语言模型视为黑匣子,通过引导构建答案的骨架,然后并行扩展,成功提高了响应速度,而不需要对模型进行复杂调整。

💼 广泛测试: 在对12个不同领域的模型使用Vicuna-80数据集进行测试中,SoT在八个模型上实现了1.13x到2.39x的速度提升,同时保持了答案质量,验证了其有效性。

🚀 新的思路: SoT方法为解决大型语言模型处理速度慢的问题提供了新的思路,通过优化输出内容的组织结构,在不修改模型架构的情况下显著提高了生成速度。

英伟达提出新技术Tied-LoRA 减少模型训练参数

英伟达研究人员提出的Tied-LoRA技术通过权重绑定和选择性训练,有效改善低秩适应方法,在保持性能的同时减少了13%的可训练参数。

image.png

论文地址:https://arxiv.org/pdf/2311.09578.pdf

【AiBase提要:】

🔗 Nvidia研究团队推出Tied-LoRA技术,结合权重绑定和选择性训练,优化低秩适应方法的参数效率。

🔗 在不同任务和语言模型实验中,Tied-LoRA配置相较标准方法少13%参数,性能仍可媲美。

🔗 Tied-LoRA为提高参数效率开辟新途径,通过权重绑定和选择性训练在实践中展现潜在应用可能性。

Meta引入全新注意力机制Sytem2Attention

Meta的最新研究引入了名为System2Attention的全新注意力机制,旨在提高大型语言模型的推理能力,通过调整注意力解决传统Transformer架构在处理复杂任务时可能出现的问题。

image.png

论文地址:https://arxiv.org/pdf/2311.11829.pdf

【AiBase提要】

🔍 System2Attention (S2A) 是Meta提出的全新注意力机制,解决大型语言模型在推理能力上的不足。

🎯 传统Transformer软注意力容易受不相关上下文影响,S2A通过指令调整注意力,提高推理质量。

📊 实验证明,在事实问答、长论点生成和解决数学应用题中,S2A相比传统模型表现更佳,得到深度学习领域重要人物Yann LeCun的认可。

低位量化技术Atom 提高LLM服务吞吐量

研究引入了Atom,一种低比特量化技术,通过细粒度和混合精度量化提高大型语言模型服务吞吐量,最多可达7.73倍,同时保持准确性。

image.png

【AiBase提要】

📌 Atom采用低比特量化技术,通过特殊组合提高大型语言模型服务吞吐量,最多可提高7.73倍。

📌 Atom综合采用细粒度和混合精度量化,确保在提高吞吐量的同时保持卓越的准确性。

📌 研究团队提出了Atom的独特低比特权重-激活量化技术,为满足不断增长的大型语言模型服务需求提供了可行解决方案。

Windmill:快速自托管的开源工作流引擎 比Airflow快10倍!

Windmill是一款经过基准测试证明速度超越Airflow、Prefect、Temporal的自托管工作流引擎,最高性能提升可达10倍,得益于简单设计、系统架构和对Postgresql、Rust的充分利用。

image.png

项目地址:https://github.com/windmill-labs/windmill

【AiBase提要:】

🚀 高速性能: 经过基准测试,Windmill在计算过渡、数据传递和工作节点方面展现出卓越的速度和效率,最高可比竞争对手快10倍。

🔄 广泛语言支持: 相较于其他自托管工作流引擎,Windmill提供更广泛的语言支持,包括Typescript/Javascript、Python、Go、Bash和直接SQL查询。

🛠️ 优化的设计体验: Windmill通过简单而高效的设计,在计算过渡、数据传递和工作节点的各个方面实现了优化,为用户提供卓越的性能和开发体验。

举报

  • 相关推荐
  • 大家在看
  • helpmee.ai:AI辅助的电脑帮助,让老年人轻松掌握技术。

    helpmee.ai是一个利用AI技术为老年人提供电脑使用指导的网站。通过耐心的语音对话和屏幕共享,AI伴侣逐步引导老年人完成任何计算机任务,确保他们能够自信且独立地在数字世界中导航,支持50多种语言,全天候服务。该服务使用OpenAI的最新GPT-4o模型,提供无与伦比的准确性和理解力。

  • video-subtitle-master:批量生成视频字幕并支持多语言翻译的客户端工具

    video-subtitle-master 是一个基于之前开源项目 VideoSubtitleGenerator 开发的客户端工具,它允许用户批量为视频生成字幕,并支持将字幕翻译成不同的语言。这个工具特别适合需要对视频内容进行本地化处理的个人或团队,无论是为了教育、娱乐还是商业目的。它集成了多种翻译服务,如百度翻译、火山引擎翻译等,并优化了对 Apple Silicon 的支持,提供了快速的生成速度。

  • EngineerDraft:实时字幕生成工具

    BeMyEars 是一款实时字幕生成工具,利用本地设备完成语音识别,为听障人士和需要字幕的用户提供极致体验。其主要优点包括多语言支持、多源输入、隐私保护等。

  • 大设:AI 智能绘画平台,让文本和图片成为艺术作品。

    大设是基于 Stable Diffusion 的免费 AI 绘画网站,提供一键生成高清精绘大图、SDXL 模型教程、AI 提示词工具。背景包括清华大学研发,定位为 AI 智能绘画平台。

  • Supaclip:将视频快速转化为知识库。

    Supaclip是一个旨在帮助用户将视频内容转化为知识库的在线工具。它通过提供视频摘要、AI助手、字幕和时间戳等功能,帮助用户快速理解和导航视频内容。产品适用于内容创作者、学生、播客主持人和研究人员等,通过这些功能,用户可以增加视频的有机覆盖率、从讲座中获取最大价值、提供节目笔记、通过聊天机器人进行互动以及从访谈视频和纪录片中提取关键见解和引用。

  • Context Data:一站式企业级数据平台,专为生成式AI应用设计

    Context Data是一个为生成式AI应用设计的数据处理和转换平台,旨在帮助AI团队构建数据基础设施,以便他们专注于构建AI逻辑。它提供了无需设置基础设施、跨多个源转换数据、连接多个模型、加载数据到主要向量数据库、查询私有向量数据、定时管道以及构建数据和ETL管道等功能。Context Data强调数据隐私控制,避免了将数据上传到OpenAI等外部模型,简化了构建AI就绪数据平台的压力和复杂性。

  • World of Gami:AI驱动的Trello替代品,让团队任务保持最新。

    World of Gami是一个利用AI技术简化任务管理的网站,它将日常任务转化为令人兴奋的挑战,使项目管理不仅是必需的,而且是团队工作流程中令人愉悦和有益的一部分。通过将传统任务列表或看板转变为生动和竞争性的游戏,每个用户可以创建自己的'船',使用Scrum方法进行冲刺,并竞争'冲刺皇冠',这不仅使项目管理更加有趣,而且培养了团队精神和成就感。

  • Dola AI:您的个人 AI 日历助手,简化日程安排,释放时间。

    Dola 是一款通过消息应用进行日程安排的 AI 助手,它与 Google 日历、Apple 日历和 Caldav 兼容,能够通过自然语言快速安排日程,提高效率,同时支持语音、图片和文本输入。Dola 旨在帮助用户节省时间,专注于他们喜欢的事情。

  • Remind AI:使用先进的AI技术,轻松捕捉您的数字活动并作为记忆使用。

    reMind是一款利用AI技术帮助用户捕捉和利用数字活动作为记忆的产品。它通过先进的人工智能技术,让用户能够轻松地记录和回顾自己的工作和活动,从而提高生产力。

  • BrowseBuddy:AI购物助手,提升电商购物体验

    BrowseBuddy是一款AI驱动的聊天机器人,旨在通过提供个性化的帮助来增强在线购物体验。它利用自然语言处理技术来理解客户查询,提供量身定制的产品推荐和支持。BrowseBuddy通过智能产品匹配、实时解决方案、多语言支持等技术,为电商企业提供了一种提升客户满意度和销售效率的解决方案。

  • Depthforge:AI驱动的3D图像生成应用

    Depthforge是一款利用Apple Vision Pro技术,通过文本提示生成沉浸式3D图像的应用。它易于使用,能够让用户通过简单的文本输入来创造独特的高质量3D图像,体验全新的3D图像生成世界。

  • AudiowaveAI:将任何文本转换为有声读物质量的声音。

    AudiowaveAI是一款利用人工智能技术将文本转换成高质量音频的应用程序。它与传统的文本到语音技术不同,提供了更加自然、富有情感的语音输出,让听众在学习和享受内容时获得更好的听觉体验。产品背景信息包括它是由全球创新公司和自由职业者信赖的产品,其主要优点在于其引人入胜的声音、自然的声音效果以及令人愉悦的听觉享受。产品定位为教育工具,旨在帮助用户在移动中学习,享受夏日阳光。

  • Usermaven:简单而强大的网站和产品分析工具

    Usermaven是一个简单易用且功能强大的网站和产品分析工具,专为市场营销人员和产品专业人士设计。它通过自动捕获所有事件来提供精确的追踪,无需依赖开发人员,从而简化了数据分析过程。Usermaven还提供了隐私友好的解决方案,支持GDPR和CCPA合规性,并且可以无cookie运行,保护用户隐私。

  • StarSearch:git历史查询助手,贡献者分析工具

    StarSearch是一个专注于git历史和贡献者分析的在线工具,它能够帮助用户快速获取有关贡献者活动的信息,识别关键贡献者,以及基于工作内容找到特定领域的专家。该工具对于开源项目维护者、开发者和团队领导者来说极为重要,因为它可以提高项目管理效率,优化团队协作,并促进技术社区的交流与合作。StarSearch是我们基于人工智能的功能,可以深入了解贡献者的历史和活动,带来透明度和对开源项目的全新深度认知。

  • AIGCRank.cn:AI 排行榜

    AIGCRank.cn 是一个提供 AI 产品排行榜的网站,主要收集和整理国内外各类 AI 产品的相关信息,并通过排行榜形式展示给用户。该网站旨在帮助用户了解和选择最优秀的 AI 产品,以满足其需求。

  • ReVideo:视频重制,精确控制内容与运动

    ReVideo是一个创新的视频编辑技术,它允许用户在特定区域进行精确的视频编辑,通过指定内容和运动来实现。这项技术通过修改第一帧来实现内容编辑,而基于轨迹的运动控制提供了直观的用户交互体验。ReVideo解决了内容和运动控制之间耦合和训练不平衡的新任务。通过开发三阶段训练策略,逐步从粗到细解耦这两方面,并提出一种时空自适应融合模块,以在不同的采样步骤和空间位置整合内容和运动控制。

  • TryOnDiffusion:一款基于扩散模型的服装试穿技术

    TryOnDiffusion是一种创新的图像合成技术,它通过两个UNets(Parallel-UNet)的结合,实现了在单一网络中同时保持服装细节和适应显著的身体姿势及形状变化。这项技术在保持服装细节的同时,能够适应不同的身体姿势和形状,解决了以往方法在细节保持和姿势适应上的不足,达到了业界领先的性能。

  • AIGCRank大语言模型API价格对比:汇总和比较全球主要AI模型提供商的价格信息

    AIGCRank大语言模型API价格对比是一个专门汇总和比较全球主要AI模型提供商的价格信息的工具。它为用户提供最新的大语言模型(LLM)的价格数据,包括一些免费的AI大模型API。通过这个平台,用户可以轻松查找和比较OpenAI、Claude、Mixtral、Kimi、星火大模型、通义千问、文心一语、Llama 3、GPT-4、AWS和Google等国内外主要API提供商的最新价格,确保找到最适合自己项目的模型定价。

  • Pandora:通用世界模型,支持自然语言动作和视频状态

    Pandora是一个向通用世界模型迈进的模型,它能够通过生成视频来模拟世界状态,并允许使用自然语言在任何时间控制视频内容。Pandora与以往的文本到视频模型不同,它允许在视频生成过程中随时接受自由文本动作输入,从而实现视频的即时控制。这种即时控制能力实现了世界模型支持交互式内容生成和增强的健壮推理和规划的承诺。Pandora能够跨多个领域生成视频,如室内/室外、自然/城市、人类/机器人、2D/3D等场景。此外,Pandora还允许通过高质量的数据进行指令调整,使得模型能够在一个领域学习动作并在另一个未见过的领域中使用。Pandora模型还通过自回归模型生成更长的视频,其生成的视频长度可以超过训练视频的长度。尽管Pandora作为通用世界模型的初步步骤仍有限制,例如在生成一致性视频、模拟复杂场景、理解常识和物理法则以及遵循指令/动作方面可能会失败,但它在视频生成和自然语言控制方面展示了巨大的潜力。

  • Dev Home:Windows开发者的一站式控制中心

    Dev Home是微软为Windows开发者推出的一款桌面客户端,旨在提供一个集中的控制中心,帮助开发者监控项目、设置开发环境、连接开发者账户和工具,并创建专用的存储空间。它通过自定义的仪表板小部件,使开发者能够监控工作流程、跟踪开发项目、编码任务、Azure DevOps查询、GitHub问题、拉取请求、可用SSH连接以及系统的CPU、GPU、内存和网络性能。Dev Home 0.14 预览版更新集成了 PowerToys 模块,以及基于 AI 的 Quickstart Playground 功能。

今日大家都在搜的词: