首页 > 业界 > 关键词  > 正文

AI日报:当前国产Sora大模型Vidu发布;Kimi Chat移动端升级;通义千问开源首个千亿参数模型;苹果计划与 OpenAI 合作

2024-04-28 15:08 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频

清华大学与生数科技在中关村论坛未来人工智能先锋论坛上发布了中国首个长时长、高一致性、高动态性视频大模型Vidu,标志着中国在视频生成技术领域取得重要进展。该模型采用创新性的U-ViT架构,能一键生成高清视频内容,具备高时空一致性和丰富的想象力。

image.png

【AiBase提要:】

🎥 Vidu是中国首个长时长、高一致性、高动态性视频大模型

🌟 融合Diffusion与Transformer技术,能一键生成长达 16 秒、1080P的高清视频内容。

🚀 不仅能模拟真实物理世界,还具备丰富的想象力,支持多镜头生成

产品入口:https://top.aibase.com/tool/vidu

2、通义千问团队开源首个千亿参数模型Qwen1.5-110B

通义千问团队开源的首个千亿参数模型Qwen1.5-110B在基础能力和Chat评估中表现出色,展示了模型规模扩展对性能提升的重要意义。该模型采用Transformer解码器架构,支持多种语言,具有高效的分组查询注意力机制。Qwen1.5-110B是通义千问系列中规模最大的模型,拥有超过1000亿参数,在与SOTA模型的比较中表现出色。团队将继续探索模型规模提升和扩展预训练数据规模的优势。

【AiBase提要:】

🌟 Qwen1.5-110B是首个拥有超过1000亿参数的模型,在Chat评估中表现更好,展示了更大规模模型的潜力。

🔍 110B模型的性能提升主要来自于增加的模型规模,而训练方法并未大幅改变,表明模型规模扩展对性能提升具有重要意义。

💡 Qwen1.5-110B采用Transformer解码器架构,支持多种语言,具有高效的分组查询注意力机制,展示了在模型大小扩展方面仍有提升空间。

模型链接:https://top.aibase.com/tool/qwen1-5-110b

3、Kimi Chat移动端UI大幅重构

Kimi Chat移动端应用迎来了重要的更新,版本1.2.1对用户界面进行了全面的重构,引入了“月之亮面”浅色模式,提供更加舒适和直观的用户体验。更新包括界面改进、性能优化、内存管理、电池效率、功能增强、安全性提升、兼容性改进、错误修复、本地化支持和辅助功能。用户只需更新至最新版本1.2.1即可体验新功能。

image.png

【AiBase提要:】

🎨 界面改进: 界面重新设计,美观易用,操作更直观。

⚡ 性能优化: 提升响应速度和流畅度,减少卡顿和延迟。

🔒 安全性提升: 增强应用安全性,保护用户数据和隐私。

详情链接:https://top.aibase.com/tool/kimi-chat

4、Domo AI新增乐高、美国漫画等4个风格 新用户可免费试用15个点数

DomoAI最近新增了乐高风格、美国漫画风格、彩笔风格、像素艺术四个新风格,并且为庆祝其推特账号粉丝超过1万,新用户可免费试用15个点数。此前,DomoAI推出了视频色度抠图功能,用户可以将扣出的人物合成到新背景中。用户还可以轻松自定义后台背景颜色,制作跳舞视频等功能。

image.png

【AiBase提要:】

🎨 DomoAI新增了乐高风格、美国漫画风格、彩笔风格、像素艺术四个新风格

🔑 新用户可免费试用15个点数

💃 用户可以使用 /move 命令将静态照片变成动态视频

详情链接:https://top.aibase.com/tool/domoai

5、苹果计划与 OpenAI 合作,加强 iPhone 人工智能功能

苹果寻求与 OpenAI 合作,以提升 iPhone 的人工智能功能。前任机器学习总监离职后,苹果人工智能发展步履维艰。苹果可能在全球开发者大会前推出新的生成式人工智能产品。

【AiBase提要:】

📌 苹果寻求与 OpenAI 合作,提升 iPhone 的人工智能功能。

📌 前任机器学习总监离职后,苹果人工智能发展步履维艰。

📌 苹果可能在全球开发者大会前推出新的生成式人工智能产品。

6、谷歌推出 AI 英语对话练习功能

谷歌最近推出了AI语音对话练习功能,让用户可以通过手机与对话机器人进行英语会话练习。虽然功能目前仅限于部分国家使用,但谷歌可能会将其扩展到更多国家。文章介绍了谷歌的语言学习工具提供的对话练习和反馈功能,以及其在AI辅助语言学习领域的发展。

image.png

【AiBase提要:】

🎙️ 谷歌推出AI语音对话练习功能,让用户通过手机与对话机器人进行英语会话练习。

🌐 目前功能仅限于部分国家使用,但可能会扩展到更多国家。

💬 虽然缺乏像Duolingo等应用的课程设置,但提供了对话练习和反馈功能。

7、元象开源首个多模态大模型XVERSE-V

作为元象公司发布的首个多模态大型模型,XVERSE-V在多个权威评测中表现优异,综合能力出色。该模型融合整体和局部信息的策略,提高了图像识别和分析的准确性和全面性。除了图像识别,XVERSE-V在信息图理解、视障场景处理、文本生成、教育解题等实际应用中也表现突出。

image.png

【AiBase提要:】

🌟 XVERSE-V是首个多模态大型模型,支持任意宽高比的图像输入

🔍 该模型在综合能力上表现出色,取得优异成绩

💡 XVERSE-V采用融合整体和局部信息的策略,提高图像识别和分析的准确性和全面性

详情链接:https://huggingface.co/xverse/XVERSE-V-13BModelScope

8、Perplexica:开源AI驱动的问答搜索引擎

Perplexica是一个开源的AI驱动搜索引擎,提供多种搜索模式,旨在为用户提供更精准、更智能的搜索体验。它具有先进的机器学习算法,确保用户隐私和提供最新的搜索结果。Perplexica致力于成为全面、高效的搜索解决方案。

image.png

【AiBase提要:】

🔍 提供多种搜索模式,根据用户需求调整搜索算法,以获得更相关的搜索结果。

🔍 使用先进的机器学习算法来精细化搜索结果,包括相似性搜索和嵌入技术。

🔍 确保隐私保护,使用SearxNG作为当前性保障,避免每日数据更新的开销。

详情链接:https://top.aibase.com/tool/perplexica

9、Meta 推出 LayerSkip:提升大语言模型推理速度

Meta公司最新发布的LayerSkip技术旨在提升大型语言模型的推理速度,通过优化推理过程,减少计算资源消耗,保持模型性能。这对实时需求高的应用场景具有重要意义,反映了Meta在AI模型效率方面的持续投入和创新。LayerSkip技术的未来展望将为大语言模型的部署和使用带来更多可能性,特别是在需要快速处理大量语言数据的场合。

【AiBase提要:】

🚀 LayerSkip在CNN/DM文档摘要任务中将推理速度提升了2.16倍,显著提高了文档处理效率。

⚡ LayerSkip在编程任务中实现了1.82倍的速度提升,可能优化编程辅助工具的性能。

💡 LayerSkip在TOPv2语义解析任务上推理速度提升达到了2.0倍,对语义解析等自然语言处理任务有重要影响。

论文:https://huggingface.co/papers/2404.16710

10、调查显示:1/3的翻译者和1/4的插画师已经因AI失去了工作

AI技术的快速发展对创意产业造成深远影响,英国作家协会的调查揭示了AI对作家、翻译者、插画师等职业的影响,引发了行业内的担忧和呼吁。

【AiBase提要:】

🤖 约五分之一的创作者在工作中使用过生成性AI,AI技术已经开始渗透到各个创作领域。

💼 1/4的插画师和1/3的翻译者因生成性AI失去了工作,工作机会受到直接威胁。

💰 大多数小说家和非小说类作家担心AI技术将对未来创意工作收入产生负面影响,强烈呼吁获得版权保护和政府监管。

11、WebLlama:基于Llama-3-8B的智能网页浏览代理

WebLlama是一款基于Llama-3-8B模型的智能代理工具,通过对话与用户互动,执行网页浏览相关任务。它能处理连续对话,理解用户指令,自动完成网上搜索、导航和信息检索等操作。WebLlama展示了强大的对话处理能力和网页交互功能,提高用户获取信息效率,减少手动操作需求。在专业基准测试中表现优异,具有先进性和实用性,有望在自动化网页浏览和信息收集方面发挥更大作用。

【AiBase提要:】

🗣️ 对话理解: 能听取用户指令,与用户交互。

🌐 自动网页浏览: 执行搜索、导航,帮助用户获取信息。

🤖 完成复杂任务: 能预定酒店、购物或查找信息等实际应用任务。

详情链接:https://top.aibase.com/tool/webllama

12、Mutable AI发布Auto Wiki v2:将代码转换为类似于维基百科风格的文章

Mutable AI推出的Auto Wiki v2是一款革命性的工具,能够自动将代码转化为维基百科风格的文章,解决了代码文档化难题。这一创新解决方案提供了清晰描述的代码文档,可视化理解代码,提升开发效率。

image.png

【AiBase提要:】

🤖 自动将代码转化为维基百科风格文章,解决代码文档化难题。

📝 自动生成清晰描述的代码文档,可视化理解代码。

⚙️ 提供代码图表、自动更新文档等多项功能,提升开发效率。

详情链接:https://top.aibase.com/tool/mutable

13、Cog-Become-Image:将任意人物图像转换成指定风格的图

Cog-Become-Image项目是一个创新的图像转换工具,可以将任意人物的面部图像转换成另一种风格的图片。该项目在艺术创作、媒体制作和娱乐行业有广泛的应用前景,为图像转换领域带来新的可能。无论是专业开发者还是技术爱好者,都可以利用这个项目来实现创意图像的转换。

image.png

【AiBase提要:】

🎨 面部图像转换: 用户可以将2D动漫人物或其他风格的人脸图像转换成逼真的真人图像。

🎥 动画视频制作: 转换后的图像可以进一步利用Hyper AI等工具制作成动画视频。

🛠 易于使用: 项目提供了Replicate和ComfyUI两种运行模型的方式,使得用户可以轻松地进行图像转换。

项目地址:https://top.aibase.com/tool/cog-become-image

试玩地址:https://replicate.com/fofr/become-image

14、PhysDreamer:让3D物体符合物理规律动起来

通过视频生成模型学习的物体动态先验知识,实现静态3D物体对新型交互的真实响应。PhysDreamer利用物理学方法赋予静态3D物体交互式动态,提升虚拟体验的真实感和吸引力。研究提出的PhysDreamer为静态3D物体动态响应提供了一种物理合理的方式。

image.png

【AiBase提要:】

🌟 通过视频生成模型学习的物体动态先验知识,实现静态3D物体对新型交互的真实响应。

🌟 PhysDreamer利用物理学方法赋予静态3D物体交互式动态,提升虚拟体验的真实感和吸引力。

🌟 研究提出的PhysDreamer为静态3D物体动态响应提供了一种物理合理的方式。

详情链接:https://top.aibase.com/tool/physdreamer

举报

  • 相关推荐
  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线;智谱AI企业级超级助手Agent CoCo上线

    【AI日报】今日AI领域重要动态:1.通义千问3大模型全球下载量超1250万,衍生模型13万+;2.即梦图片3.0上线,AI设计进入"零门槛"时代;3.智谱AI发布企业级超级助手Agent CoCo;4.百度推出金融行业大模型"千帆慧金";5.小红书开源首个大模型dots.llm1,含1420亿参数;6.Hugging Face开源LeRobot项目,降低机器人研发门槛;7.ChatGPT语音功能升级,支持更自然对话翻译;8.Google Gemini应用下载量超ChatGPT但活跃度不足;9.轻量级文档解析模型MonkeyOCR表现优异;10.Google Veo3推出高速视频生成模式;11.Google调整AI Studio政策,限制Gemini2.5Pro免费访问。

  • AI日报:MiniMax-M1开源;阿里Qwen3升级版适配苹果MLX架构;月之暗面发布新模型Kimi-Dev-72B

    《AI日报》汇总了近期AI领域多项重要进展:1)月之暗面推出开源编程模型Kimi-Dev-72B,在软件工程任务测试中创下新纪录;2)MiniMax开源M1模型,支持超长上下文推理且训练成本低;3)腾讯发布AI音乐模型LeVo,支持音色克隆和分轨生成;4)阿里云Qwen3升级版适配苹果MLX架构;5)豆包推出"AI播客"功能,可将PDF转为对话播客;6)夸克App上线个性化AI家教"夸克老师";7)松下发布多模态大模型OmniFlow,实现文本/图像/音频自由切换;8)TikTok推出三款AI视频创作工具;9)极氪与火山引擎合作,将豆包大模型接入智能座舱系统;10)Meta的Llama3.1模型在文本记忆方面表现突出;11)Grok上线定时追踪X热门话题功能;12)Gemini2.5Pro即将更新Deep Think功能;13)谷歌地图引入AI技术升级导航和个性化推荐功能。

  • 极氪接入通义千问3,知识库问答命中率达98%

    极氪汽车接入通义千问3大模型,打造专属知识库"极氪知道",问答准确率达98%。基于阿里云平台调用Qwen3-235B-A22B大模型,构建图文视三位一体的知识呈现系统,可提供标准化文本介绍及多媒体资源。通义千问3的快慢思考融合架构能提供更富逻辑性的车辆对比介绍,提升客户决策体验。极氪车联网、APP等核心业务已运行在阿里云平台。

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报: ChatGPT免费开放记忆功能;华为WATCH 5智能手表接入双大模型;Claude Pro升级重磅功能

    本期AI日报主要报道了多项AI领域重要进展:1)OpenAI向所有ChatGPT用户免费开放记忆功能;2)蚂蚁集团推出"AI健康管家",服务4000万用户;3)Anthropic与DeepLearning.AI合作推出免费MCP课程;4)谷歌DeepMind开发无需3D模型即可生成逼真运动视频的新技术;5)Exa与OpenRouter合作为400+大模型提供实时网络搜索功能;6)中国知网推出CNKI AI学术研究助手;7)Anthropic推出Claude Explains博客项目;8)Claude Pro新增研究模式和远程MCP整合功能;9)Fish Audio发布基于200万小时数据训练的OpenAudio S1语音模型;10)OpenAI升级Codex编程工具;11)华为WATCH5接入盘古和DeepSeek双大模型。

  • AI日报:月之暗面首款自主智能体Kimi-Researcher;MiniMax推音色设计功能;Jaaz发布Lovart AI本地化替代品

    【AI日报】今日AI领域重要动态:1)月之暗面发布Kimi-Researcher智能体,多轮搜索推理能力超越谷歌和OpenAI同类产品;2)MiniMax推出Voice Design功能,支持多语言/音色组合;3)火山引擎上线AI智能域名推荐功能;4)Anthropic强化VSCode集成;5)Google推出Gemini2.5Flash-Lite模型,可实时生成交互界面;6)苹果拟300亿美元收购AI公司Perplexity;7)月之暗面开源Kimi-2506多模态模型;8)Firecrawl将推出开源问答引擎Fireplexity;9)银河通用机器人获宁德时代10亿元融资;10)字节跳动发布DreamActor-H1视频生成系统;11)Google推出开源实时音乐生成模型Magenta RealTime;12)开源AI设计工具Jaaz发布。