首页 > 热点 > 关键词  > 阿里大模型产品最新资讯  > 正文

阿里大模型产品 “通义听悟”升级 上线音视频问答助手“小悟”

2024-03-19 11:44 · 稿源:站长之家

站长之家(ChinaZ.com)3月19日 消息:阿里大模型产品通义听悟” 在今日发布了多项新功能。其中,音视频问答助手 “小悟” 是重点新功能之一。用户可以通过 “小悟” 进行自由问答,支持对单个最长6小时、一次性上百条音视频的内容理解问答。

除了音视频问答功能外,通义听悟还提供了一键 AI 改写和思维导图生成等新能力。用户可以利用这些功能进行口语转书面表达、生成思维导图等操作。同时,通义听悟还支持笔记插入视频时间戳及截图、自动识别音视频文件语种等细节体验升级。

微信截图_20240319114359.png

对于教育领域的用户,通义听悟推出了 “高校公益计划”,为教育邮箱认证的中国大陆高校师生提供500小时免费转写时长。这一举措受到了广泛欢迎,许多学生和科研人员都表示通义听悟已成为他们重要的学习工具和科研平台。

总的来说,通义听悟是一款功能强大的音视频 AI 助手,能够帮助用户处理复杂的信息内容,提升工作和学习效率。通过不断升级和优化,通义听悟正逐渐成为用户们新的学习方式和科研利器。

举报

  • 相关推荐
  • 阿里开源通义模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 阿里千问3登顶全球最强开源模型 已在通义App上线

    阿里集团推出新一代开源AI模型"通义千问3"(Qwen3),包含8款不同规格的混合推理模型。旗舰型号Qwen3-235B采用混合专家架构,创下国产模型性能新纪录;Qwen3-32B则以部署成本低、运行稳定见长。该系列在逻辑推理、编程、翻译等专业领域表现卓越,用户可通过通义App和网页版体验。升级后的通义App整合问答对话、图像理解与生成等多项功能,持续强化代码生成、数学解题等专业场景应用能力,致力于打造实用性强的个人AI助手。

  • 大模型不停进步,“杀死”了旧时代的产品经理

    互联网时代属于产品经理的高光没有在AI时代复现。2024年,生成式大模型的迭代步伐暂时放缓,产品经理与创业者们看到了机会窗口,纷纷投入应用层开发,市场也期待从中涌现杀手级应用;但迈进2025年,应用层的失落,以及DeepSeek的出现,再次将行业视线扭回基础模型能力的迭代,“模型即产品”的呼声,引发了新一轮的产品经理“存在危机”。谁先走出从对过往光环的虚�

  • “奥迪助手”来了!全新AUDI车型接入豆包大模型

    2025年4月24日上海车展期间,上汽奥迪发布全新A5L Sportback和首款量产车型E5 Sportback。同时推出与火山引擎合作开发的"奥迪助手"智能交互系统,基于豆包大模型实现自然对话体验。该系统将搭载于两款新车,并同步部署在车载端和手机APP端,支持跨设备对话记录同步。火山引擎为系统提供大模型技术支持,实现语音指令控制、车辆功能讲解等智能服务,并整合抖音、汽水音乐等内容生态。上汽奥迪表示,该合作将助力品牌打造更智能、个性化的产品矩阵。

  • AI日报:阿里通义万相首尾帧生视频模型;豆包开源Seed智能体模型UI-TARS-1.5;OpenAI首发“智能体实践指南”

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型,标志着AI视频生成技术的重大进步。该模型支持高清视频生成

  • 阿丘科技李嘉悦:大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

    3月28日,由机器视觉产业联盟主办、慕尼黑展览有限公司承办的VisionChina2025机器视觉展在上海新国际博览中心圆满落幕。阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会现场,围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”的主题,发表了精彩演讲。”今年,在这个快速变化的时代,我要补充一句:“AI工业视觉的格局正在加速变革,不会用大模型的将会被善用大模型的人淘汰。

  • 马斯克炫酷变身毒液!实测通义Wan2.1首尾帧视频模型,还能“拼接”经典梗图

    在GitHub狂揽1w+星标的通义万相Wan2.1,又双叒上新了!最新打开方式是酱婶儿的:给出开始(首帧)和结束(尾帧)两张图片,Wan2.1便能分分钟生成一段丝滑的5s、720p视频。根据前后视角的不同,还能自动调整镜头角度,缓慢变成高空俯拍,并同时保证人物光影正确:原来这是阿里通义万相Wan2.1最新开源的首尾帧视频模型,基于Wan2.1文生视频14B大模型,为创作者们提供更高效、更灵活的

  • 脑 AI:重新定义语音处理效率的全能助手

    听脑AI是一款专注于语音/视频转文本的智能助手,具备三大核心功能:1)实时语音转写,支持会议、课堂等多场景录音转文字,自动区分发言人;2)音视频解析,可提取本地文件或平台链接内容生成可编辑文档;3)AI问答辅助,能基于语音内容生成摘要、PPT大纲等二次创作。其优势在于毫秒级响应、125种语言互译、智能降噪,适用于商务会议、教育学习、内容创作等场景,显著提升工作效率。支持多端同步与加密存储,提供20分钟免费试用体验。

  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

热文

  • 3 天
  • 7天