8月30日上海举行的2019世界人工智能大会上,滴滴出现对外展示了基于语音和NLP(自然语言处理)技术的驾驶员语音助手,出租车司机已经可以用语音直接“免接触”接单,这一功能已经在日本地区上线,逐步推广至澳大利亚等地区。这一语音助手也将支持全方位的语音交互服务,包括影音娱乐、信息查询、车内温度调节、主动联系乘客或客服,甚至是加油、充电、维保等服务。
(举报)
8月30日上海举行的2019世界人工智能大会上,滴滴出现对外展示了基于语音和NLP(自然语言处理)技术的驾驶员语音助手,出租车司机已经可以用语音直接“免接触”接单,这一功能已经在日本地区上线,逐步推广至澳大利亚等地区。这一语音助手也将支持全方位的语音交互服务,包括影音娱乐、信息查询、车内温度调节、主动联系乘客或客服,甚至是加油、充电、维保等服务。
(举报)
11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
在一项大胆的举措中,ChatGPT的开发者OpenAI已经为一项名为“VoiceEngine”的工具提交了商标申请,这表明了潜在的数字语音助手市场格局可能会发生变化。这一战略举措可能会使OpenAI成为苹果、亚马逊和谷歌等已经主导市场的科技巨头的强劲竞争对手。通过将语音作为主要交互方式,OpenAI旨在促进无缝沟通,弥合人类意图和机器理解之间的差距。
他们可能会将生成式人工智能技术应用于其语音助手Bixby,这是该公司一名高管告诉CNBC的。Bixby于2017年随三星GalaxyS8智能手机推出。苹果宣布将于6月举办其年度开发者大会WWDC,届时公司有望在产品各方面介绍一些AI功能。
快科技4月11日消息,有网友晒出了图片,显示已经有人开始使用小米SU7车辆在滴滴上接单了。据反馈,有网友已经在滴滴平台上成功打到了小米SU7车辆。从截图来看,这位司机已经完成了两单订单。一些网友感慨称,无论这位司机是否真的在使用小米SU7来做网约车,目前来看话题度已经相当高,而且关注度也非常高。还有网友喊话雷军,加快生产小米SU7速度,这样可以能提前�
快科技4月3日消息,据媒体报道,饿了么零售商家SAAS平台翱象”推出的AI经营助手”功能,无疑为零售行业商家提供了一个强大的智能经营工具。这款功能由人工智能技术驱动,集成了自然语言处理、智能决策支持以及深度学习能力,能够为商家提供全方位的经营服务。具体来说,AI经营助手”能够帮助商家智能生成各类经营关键报表和关键数据,包括店铺的有效订单金额、有效订单数、店铺预计毛利等核心指标。这些报表和数据不仅全面反映了商家的经营状况,而且通过人工智能的解读,商家还能获得关于整体经营的建议,从而进一步提升经营能力、把握生
GLM大模型团队旗下的CodeGeeX是一款免费的智能编程助手,它最近在VisualStudio平台上线。这使其成为首个适配VisualStudio平台的国产智能编程助手。通过这些功能,CodeGeeX可以帮助程序员节省时间,提高编程效率,甚至提供技术相关的答案和代码错误修复。
微软近期对其AzureAI语音服务进行了重大升级,推出了9种新的更真实的AI语音,旨在为用户带来更加自然和沉浸式的对话体验。这次升级的核心是引入了零样本学习的文本到语音模型,这些模型在提高合成语音自然度的同时,更好地模仿了提示语音中的特征。微软的这次升级,无疑将为各种业务场景提供更加丰富和真实的语音交互体验。
百度日前官方宣布文心一言语音定制功能上线,只需2秒钟,AI就能完美重建任何一个人的声音,每个人都能拥有自己的AI声优。用户只需打开文心一言App,选择创建智能体,点击创建自己的声音,随后系统会给出一句话,只需用平时说话的语气念一遍。很多时候甚至能理解文本中的情绪,最大程度上保持原声的情感、风格和自然度,因此只需要极短的样本,几秒钟就能完成。
OpenAI近日分享了一个名为VoiceEngine语音合成模型的初步结果。VoiceEngine支持语音克隆,但是未开放使用,提供给了HeyGen等公司使用。OpenAI希望通过与各方合作,加强社会对合成语音技术带来的挑战的防范,促进对合成语音技术的了解和应用。
快科技4月20日消息,小米汽车官方微博发布预告,宣布小米SU7车模的新颜色正在研发中。官方表示,由于小米SU7真车的车漆颜色质感备受好评,因此他们将非常重视车模的漆面调色和手工喷漆工艺,希望用户能够耐心等待。据了解,小米SU7车模于3月份首次销售,售价为499元。这款车模一经上市就被迅速抢购一空,在二手市场上的价格一度炒至1000元,非常抢手。小米SU7车模拥有海湾蓝和雅灰两款配色,采用了三层手工漆面工艺,几乎完美再现了原车漆面效果。车模四门可自动开启并支持自动闭合,前后备箱还可随意悬停于任意角度。车模内部设计逼真,?
近日,一辆面包车未礼让行人导致自行车无接触式摔倒的事件引起了广泛关注。事发时双方均为绿灯状态,但面包车未在斑马线处礼让行人,造成骑自行车的男孩摔倒。在道路行驶中,请务必遵守交通规则,这样即使发生交通事故,也能保证自身无责或次要责任。
Lyrebird Health通过AI技术监听、学习并生成医疗文档,帮助医生在几秒钟内轻松生成记录和文档。它可以学习医生的风格和用词,并根据需要生成各种文档。Lyrebird Health还提供数据加密和隐私保护,以及定制化的记录风格和语言。
风平 IP 智造平台是基于 AIGC 的智能化 IP 打造平台,致力于提供虚拟数字人定制、AI 短视频内容生产和数字人直播的一站式解决方案。通过结合领先的 AI 技术,平台实现了数字人的高质量生产和互动能力,为用户打造全新的数字人 IP 体验。
赛灵力虚拟数字人工厂致力于 2D 虚拟人、3D 虚拟人、声音克隆等 AI 技术探索和产业应用,为企业、政府、个人提供虚拟数字人 AI 视频创作、个人形象定制、声音定制、智能语音合成等服务。
硅基智能是一款数字化虚拟人与 AI 技术相结合的产品,主要应用于智能交互领域。其主要优点包括领先的 AI 技术、智能交互体验、商业化场景应用等。
星火网文助手是一款 AI 创作辅助工具,提供创作灵感、润色续写等功能,帮助作家更高效地写作。背靠强大的 AI 技术支持,定位于提升小说写作体验,提高作品质量。
商汤日日新 SenseNova 大模型体系提供多种大模型及能力,助力各行业智能化创新,以大算力引领通用人工智能发展。
Khroma 利用人工智能学习您喜欢的颜色,并为您创建无限的调色板,帮助您快速发现、搜索和保存色彩组合。Khroma 的个性化算法训练神经网络,生成您喜欢的颜色,过滤您不喜欢的颜色。同时,还可以搜索和保存颜色组合,并获取颜色名称、hex 代码、RGB 值、CSS 代码以及 WCAG 辅助功能评分。
笔灵 AI 写作是一款专业的 AI 论文写作助手,通过人工智能技术帮助用户撰写高质量的论文。其主要优点包括快速生成论文大纲、节省写作时间、提供各类论文模板和服务。产品定位于提高论文写作效率和质量,适用于学生、研究人员等写作需求。
IDM-VTON是一种新型的扩散模型,用于基于图像的虚拟试穿任务,它通过结合视觉编码器和UNet网络的高级语义以及低级特征,生成具有高度真实感和细节的虚拟试穿图像。该技术通过提供详细的文本提示,增强了生成图像的真实性,并通过定制方法进一步提升了真实世界场景下的保真度和真实感。
PhotoMagic 是一款使用人工智能技术的图片处理工具,通过简单操作即可快速生成商业级图片。其主要优点包括快速高效、大幅降低图片处理成本,定位于帮助用户在电商等场景下快速生成吸引人的图片。
京东羚珑是一站式内容生产与管理服务平台,提供商品主图设计、广告 banner 设计、店铺首页设计等功能。其主要优点包括丰富的模板选择、免费设计服务、高效便捷的操作流程。产品定位于为商家提供设计合作伙伴服务。
Overleaf 是基于 LaTeX 的在线协作编辑器,无需安装,支持实时协作、版本控制、数百种 LaTeX 模板等。适用于科学和技术领域的文档写作。
Continue是一个专为软件开发者设计的开源IDE扩展,它通过提供自动化和智能化的工具来加速AI软件的开发流程。它允许开发者在构建软件时保持流畅的工作状态,通过插件和系统整合,轻松开始并加速开发过程。Continue支持多种编程语言的代码自动完成,提供代码段的重写功能,并允许通过自然语言指令来优化代码。它还支持与多种AI模型和开发环境的整合,使得开发者能够构建一个随着新功能出现而进化的软件系统。
Cohere Toolkit是一个开源的AI应用程序开发工具包,它提供了一套生产就绪的应用程序,可以在云服务提供商上部署。这些应用程序可以访问Cohere的Command、Embed和Rerank模型,并且可以连接到企业数据和特定团队,以提高生产力。该工具包包含用于构建独特应用程序并可扩展部署的组件。
Bunny 是一系列轻量级但功能强大的多模态模型,提供多种即插即用的视图编码器和语言主干网络。通过从更广泛的数据源进行精选选择,构建更丰富的训练数据,以补偿模型尺寸的减小。Bunny-v1.0-3B 模型在性能上超越了同类大小甚至更大的 MLLMs(7B)模型,并与 13B 模型性能相当。
llava-llama-3-8b-v1_1是一个由XTuner优化的LLaVA模型,它基于meta-llama/Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336,并通过ShareGPT4V-PT和InternVL-SFT进行了微调。该模型专为图像和文本的结合处理而设计,具有强大的多模态学习能力,适用于各种下游部署和评估工具包。
ID-Animator是一种零样本人类视频生成方法,能够在不需要进一步训练的情况下,根据单个参考面部图像进行个性化视频生成。该技术继承了现有的基于扩散的视频生成框架,并加入了面部适配器以编码与身份相关的嵌入。通过这种方法,ID-Animator能够在视频生成过程中保持人物身份的细节,同时提高训练效率。
HiDiffusion是一个预训练扩散模型,通过仅添加一行代码即可提高扩散模型的分辨率和速度。该模型通过Resolution-Aware U-Net (RAU-Net)和Modified Shifted Window Multi-head Self-Attention (MSW-MSA)技术,动态调整特征图大小以解决对象复制问题,并优化窗口注意力以减少计算量。HiDiffusion能够将图像生成分辨率扩展到4096×4096,同时保持1.5-6倍于以往方法的推理速度。
Snowflake Arctic 是一款专为企业级人工智能任务设计的大规模语言模型(LLM),它在 SQL 生成、编码以及指令遵循等基准测试中表现出色,即使与计算预算更高的开源模型相比也毫不逊色。Arctic 通过其高效的训练和推理,为 Snowflake 客户以及广大 AI 社区提供了一种成本效益极高的定制模型创建方式。此外,Arctic 采用 Apache 2.0 许可,提供无门槛的权重和代码访问,并通过开源数据配方和研究洞察,进一步推动了社区的开放性和成本效益。
OpenVoice V2是一款文本到语音(Text-to-Speech, TTS)的模型,它在2024年4月发布,包含了V1的所有功能,并进行了改进。它采用了不同的训练策略,提供了更好的音质,支持英语、西班牙语、法语、中文、日语和韩语等多种语言。此外,它还允许商业用途的免费使用。OpenVoice V2能够精确地克隆参考音调色彩,并在多种语言和口音中生成语音。它还支持零样本跨语言语音克隆,即生成语音的语言和参考语音的语言不需要在大规模多语种训练数据集中出现。