首页 > 业界 > 关键词  > 机器人最新资讯  > 正文

AI日报:会颠勺的国产机器人Astribot S1来了;Synthesia推能读懂文字情绪的数字人;OpenVoice V2版本发布;DeepFacelive让你在直播中实时换脸

2024-04-26 15:19 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、Synthesia推出新型数字人Expressive-1正式版 能看懂你文字里的情绪

Synthesia公司推出Expressive-1AI Avatars,一款能根据文本内容自动展现丰富表情的AI虚拟形象技术。该技术提升视频表现力和吸引力,具有增强的表现力、情绪反应的同步、模仿人类微表情和身体语言等特点。

image.png

【AiBase提要:】

✨ 增强的表现力: Expressive-1根据文本语义变化自动展现适应的语调、面部表情和身体语言,更自然地表达情绪。

😊 情绪反应的同步: 虚拟形象能准确展示与情感状态相匹配的表情和语调,提高情感表达准确性。

🎤 声音和口型同步: 每个虚拟形象配备匹配的声音和出色的口型同步技术,确保声音和嘴唇动作一致性。

详情链接:https://top.aibase.com/tool/synthesia

2、讯飞星火大模型V3.5升级 推出长文本、长图文、长语音大模型

科大讯飞发布了讯飞星火大模型V3.5升级,引入多情感超拟人合成技术,推出长文本、长图文、长语音大模型,以及星火智能体平台,为招投标应用和合同应用提供强大技术支持。

image.png

【AiBase提要:】

🚀 科大讯飞发布讯飞星火大模型V3.5升级,引入多情感超拟人合成技术。

🔥 推出首个长文本、长图文、长语音大模型,提供更强大的技术支持。

💡 星火大模型在通用长文本处理方面表现优异,甚至超越了GPT-4Turbo。

详情链接:https://top.aibase.com/tool/xunfeixinghuorenzhidamoxing

3、科大讯飞:讯飞星火V4.0版6月27日发布

科大讯飞发布了首个支持长文本、长图文、长语音的大模型,提供了一系列新功能,包括图文识别、合同助手、智能评标助手等,实现更生动、个性化的表达,解决企业落地问题,助力员工提升工作效率。刘庆峰表示,讯飞星火V4.0将于6月27日正式发布。

【AiBase提要:】

🚀 科大讯飞发布首个支持长文本、长图文、长语音的大模型,提供更专业、更精准的行业场景回答。

📝 推出合同助手和智能评标助手,提高合同审核效率,使评标更便捷、更高效、更准确。

🌟 发布全新的智能体平台,解决大模型企业落地问题,为员工打造专属助理,帮助企业解放生产力。

详情链接:https://top.aibase.com/tool/xunfeixinghuorenzhidamoxing

4、会颠勺的国产机器人来了!星尘智能推AI机器人Astribot S1

一款颠覆家务机器人领域的国产AI机器人Astribot S1问世,具备模仿学习、大模型加持、软硬件协同等核心特点。其操作性能卓越,展示了在家居和工作场景中的多任务能力,预示着未来生活中AI机器人的广泛应用潜力。

image.png

【AiBase提要:】

🤖 模仿学习:Astribot S1能模仿人类行为,执行复杂任务,展现出成年人的敏捷和灵活性。

🧠 大模型加持:接入大模型测试,预计在2024年内实现商业化,旨在建立新的AI机器人标准。

🔧 软硬件协同:研发团队取得关键突破,使S1具备智慧的“大脑”和敏捷的“身体”。

6、OpenVoice V2 版本发布 能对声音风格进行精细控制

OpenVoice V2版本是一项创新的声音克隆技术,能够精确复制参考发言者的声音并生成多种语言的语音。该版本具有更好的音频质量和原生多语言支持,集成了MeloTTS技术,支持免费商业使用。技术方法包括声音样式和语言的解耦设计,基础发音者TTS模型与音色转换器,以及训练策略和数据处理。

image.png

【AiBase提要:】

✨ 准确的音色克隆: OpenVoice能精确克隆参考音色并生成多种语言的语音。

🔧 灵活的声音风格控制: 用户可以详细调整声音的情绪、口音、节奏、停顿和语调,实现个性化声音输出。

🌐 高效的计算性能: OpenVoice在保持高性能的同时,计算成本大大降低。

官网:https://research.myshell.ai/open-voice

项目地址:https://top.aibase.com/tool/openvoice

创建自己的语音机器人:https://myshell.ai/

7、英特尔第一季度业绩表现强劲

英特尔第一季度营收达到127亿美元,同比增长9%,主要受到计算、人工智能和边缘产品的推动。英特尔推出新的 Gaudi3AI 加速器,挑战竞争对手 Nvidia 和 AMD,在人工智能领域取得进展。英特尔加速推出 AI PC 产品,预计到2024年底将超过4000万台 AI PC 出货量。

【AiBase提要:】

⭐ 英特尔第一季度营收达到127亿美元,同比增长9%。

⭐ 英特尔推出新的 Gaudi3AI 加速器,挑战竞争对手 Nvidia 和 AMD,在人工智能领域取得进展。

⭐ 英特尔加速推出 AI PC 产品,预计到2024年底将超过4000万台 AI PC 出货量。

8、科技巨头工程师薪酬大揭秘:OpenAI工程师年薪达90万美元

在科技巨头公司,工程师的年薪高达数百万美元,其中OpenAI工程师年薪可达90万美元。不同公司的工程师薪资水平各异,但均在百万美元以上。晋升至高级职位后,工程师年薪更可达数百万美元。人工智能领域的人才因知识而被慷慨报酬。

【AiBase提要:】

⭐️ OpenAI工程师年薪高达90万美元

⭐️ 谷歌、苹果、Facebook、微软等公司工程师薪资均在百万美元以上

⭐️ 工程师晋升至高级职位后,年薪可达数百万美元

9、IntrinsicAnything:调整图片光照 保持物体材质

这篇文章介绍了一种通过生成模型学习材料,规范优化过程的方法,以提高在未知静态照明条件下拍摄的姿势图像中恢复物体材质的准确性。研究者通过漫反射和镜面反射着色项的模型基础,采用从粗到精的训练策略,实现稳定且准确的材质回收结果。

image.png

【AiBase提要:】

⭐ 生成模型学习材料,规范优化过程,提高准确性

⭐ 模型基于漫反射和镜面反射着色项,增加准确性

⭐ 采用从粗到精的训练策略,实现稳定且准确的材质回收结果

详情链接:https://top.aibase.com/tool/intrinsicanything

10、Align Your Steps:低步数推理保持高质量结果

本文介绍了一种名为“步调齐整(Align Your Steps)”的全新方法,旨在优化深度学习领域中的扩散模型(DMs)的采样计划,提升生成过程中的效率和质量。通过严格的定量实验,发现优化计划在图像生成基准测试中显著提升图像质量,同时适用于文本到图像和视频生成领域。

image.png

【AiBase提要:】

✨ 优化采样计划提升生成模型效率和质量

🔧 可适用于多种数据合成基准测试,包括图像、视频等

🚀 提供用户友好的插拔式优化计划应用,提升生成过程中的稳定性和质量

详情链接:https://top.aibase.com/tool/align-your-steps

11、新ID保持项目PuLID:图像背景、光线、风格等均保持高度一致

PuLID是一个新兴的ID保持项目,致力于提升ID保持效果并最小化对原始模型的影响。其核心优势包括高度一致性、多功能性、高保真度、稳定性和准确性,应用广泛。PuLID的发布将推动技术的创新和发展,展现出独特的优势和价值。让我们共同期待PuLID的发布,见证其在技术领域的辉煌表现。

image.png

【AiBase提要:】

🔍 高度一致性: 身份信息加入前后,图像的背景、光线、布局和风格等元素保持一致。

🛠 多功能性: 支持样式更改、IP融合、配件修改、属性编辑和ID混合等多种操作,展现强大功能和效果。

🔒 高保真度: 通过对比对齐,自定义ID的同时保持高保真度,为用户提供更多可能性和选择。

详情链接:https://top.aibase.com/tool/pulid

12、体育老师使用人工智能克隆校长声音进行报复被捕

这篇文章报道了马里兰州巴尔的摩县体育老师达中·达里恩使用人工智能语音克隆服务陷害派克斯维尔高中校长的事件。这起事件揭示了人工智能技术被滥用的风险,引发了社会对个人信息安全和隐私保护的关注。

【AiBase提要:】

🔍 人工智能克隆校长声音事件:体育老师达里恩因涉嫌制作虚假录音被捕。

⚠️ 风险警示:人工智能语音克隆技术滥用引发社会关注,OpenAI限制公众使用其平台。

🔒 隐私保护:立法者努力制定法律保护个人信息免遭科技公司未经许可使用。

举报

  • 相关推荐
  • DeepSeek更新R1推理AI模型,已发布Hugging Face

    更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。

  • AI日报DeepSeek开源新R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • GPTBots 迎来增强 DeepSeek-R1-0528 模型

    GPTBots.ai平台宣布集成深度求索(DeepSeek)最新开源模型DeepSeek-R1-0528,该模型在推理能力上媲美OpenAI和Google的顶级模型,性能显著提升:数学竞赛准确率从70%提升至87.5%,编程性能从63.5%提升至73.3%。该模型支持JSON输出与函数调用,可无缝嵌入企业工作流,同时推出轻量级版本DeepSeek-R1-0528-Qwen3-8B,仅需16GB GPU内存即可运行。此次集成将强化GPTBots为企业提供金融、医疗、教育等领域的AI解决方案能力,助力企业构建定制化AI应用。平台秉持开源理念,采用MIT许可协议,支持商业使用与定制开发。

  • AI日报:腾讯语音数字人模型HunyuanVideo-Avatar;Trae国际版开启付费订阅模式;Claude网页搜索功能全面开放

    本文汇总了AI领域最新动态:1)腾讯开源数字人模型HunyuanVideo-Avatar,支持图像转视频创作;2)Trae国际版开启付费订阅,首月3美元;3)Claude网页搜索功能向免费用户开放;4)印度AI初创Builder.ai破产,亏损超5亿美元;5)腾讯元宝接入微信读书平台;6)快手计划加大AI投入但预计影响利润率;7)Mistral推出智能代理API;8)Claude移动端上线语音对话测试版;9)OpenAI拟推ChatGPT第三方登录功能;10)掘金发布AI项目一键部署工具;11)多模态模型视觉推理能力评估显示准确率仅25.8%;12)中石油发布3000亿参数昆仑大模型,推动油气产业智能化。

  • AI日报ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • AI日报:Anthropic最强编码AI模型Claude4;苹果计划AI智能眼镜;QQ浏览器上线首个高考Agent

    【AI日报】今日AI领域重要动态:1)Anthropic发布Claude4系列AI模型,编程能力超越竞争对手;2)苹果计划2026年推出集成AI技术的智能眼镜;3)字节跳动与清华合作推出时序多模态大模型ChatTS;4)3DTown框架实现单张照片生成逼真3D场景;5)OpenAI秘密开发无屏幕AI设备;6)商汤科技推出儿童AI下棋机器人;7)微软记事本新增AI写作功能;8)深圳设立70亿元基金支持AI硬件初创企业;9)谷歌发布3D视频通信平台Beam;10)阿联酋推出"星际之门"计划,免费提供ChatGPT服务;11)法国Mistral推出开源模型Devstral;12)Anthropic API新增四大功能;13)美国众议院通过法案限制各州监管AI;14)QQ浏览器推出高考AI助手。

  • 普渡机器人发布AI全能清洁机器人PUDU CC1 Pro,商用清洁迈入AI时代

    5月27日,深圳普渡科技发布AI全能清洁机器人PUDU CC1 Pro。该产品通过AI技术实现全流程智能化清洁,具备垃圾识别、力度调节、效果监测等功能,每小时清洁面积达1500-3000㎡。创新性地采用后视AI相机检测二次污染,搭载VSLAM+激光融合定位技术,简化部署流程。产品获得CE-MD认证,适用于商业综合体、医院等大场景。普渡科技作为服务机器人领导品牌,产品已覆盖全球60多个国家�

  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPTAI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

  • 苹果高管:我们的AI聊天机器人,足以媲美ChatGPT最新版本

    据员工透露,苹果目前内部测试的聊天机器人在过去六个月里取得了重大进展,某些高管甚至认为它已赶上了 ChatGPT 的最新版本……

  • Flyme AIOS 2发布:魅族Note 16首发 接入DeepSeek

    在智能交互方面,Flyme AIOS2接入DeepSeek R1满血版,具备深度思考能力,并提供三种模式供用户选择。此外,星纪魅族成为首家接入阿里云首个端到端全模态大模型通义千问Qwen - Omni的厂商,这使得系统能带来更敏捷聪明、更具拟人情感的超自然语音对话体验,正式