首页 > 业界 > 关键词  > Midjourney最新资讯  > 正文

AI视野:Midjourney开始训练视频模型;文心一言用户破亿;优酷上线“AI搜片”功能;快手开源KwaiAgents系统

2023-12-28 15:43 · 稿源:站长之家

📰🤖📢AI新鲜事

Midjourney开始训练视频模型

Midjourney昨晚发布了重要消息,将开始视频模型训练,同时计划下周推出V6版本的重大更新。该更新将在文本处理方面有显著进步,提高内容连贯性和提示准确性。重点改进包括Inpainting功能和全新的风格调整器,为V7版本的重大更新做准备。

【AiBase提要:】

🚀 视频模型训练启动: Midjourney宣布即将开始视频模型训练,拓展其领先地位。

🆕 V6版本重大更新: 下周V6版本将推出,带来文本处理方面的显著进步,包括Inpainting功能和全新风格调整器。

🔮 V7版本预告: Midjourney透露V7版本将是一次重大更新,预示在视频生成领域竞争中的强劲实力。

文心一言用户破亿

百度首席技术官王海峰在WAVESUMMIT大会上宣布,文心一言用户数量突破1亿,与飞桨开发者规模达到千万。

【AiBase提要:】

🚀 文心一言用户已突破1亿,自8月31日开放服务以来,用户提问量与模型效果同步提升。

🛠️ 文心一言作为百度核心技术之一,在语义理解和自然语言处理领域取得显著成就。

💻 与文心一言技术深度绑定的百度飞桨开发平台成功发展,开发者规模已超过千万,达到1070万。

三星新推AI智能冰箱

三星推出2024Bespoke4-DoorFlexRefrigerator,内置摄像头识别食物,App提供个性化食谱建议,32英寸触摸屏支持TikTok和YouTube,强化AI功能。

【AiBase提要:】

🌿 内置摄像头辨识食物,App提供个性化食谱建议。

📲 与Galaxy手机镜像,32英寸触摸屏支持TikTok和YouTube。

🍽️ 强化的AI功能,如视觉AI识别食物并提供更多定制化选项。

阿里发布《AIGC治理与实践白皮书》

阿里巴巴携手中国电子技术标准化研究院发布《AIGC治理与实践白皮书》。阿里强调在AI发展中建立防火墙,同时突破AI应用的天花板,与社会共同解决问题,推动AI造福更广泛人群。

【AiBase提要:】

🔥 发展防火墙: 阿里致力于在AI领域筑牢发展的防火墙,确保安全发展。

🚀 突破天花板: 阿里强调不断突破AI应用的天花板,迎接前所未有的挑战。

🤝 社会共创: 阿里betway体育注册努力与社会各界合作,共同利用AI技术解决社会难题,推动AI造福更多人。

《纽约时报》起诉微软和OpenAI

纽约时报起诉微软和OpenAI,指责它们侵犯版权、滥用报纸知识产权,要求数十亿美元的法定和实际损害赔偿。

【AiBase提要:】

📰 侵权指控:微软和OpenAI被指控侵犯《纽约时报》版权,滥用报纸知识产权用于训练ChatGPT语言模型。

🤝 合作寻求解决方案:OpenAI表示对起诉感到失望,强调与媒体机构的对话,寻求互利合作方式,但未透露具体细节。

🔍 AI模型竞争与商业机会限制:纽约时报指责微软和OpenAI的GPT模型与其内容直接竞争,同时改变内容限制了时报的商业机会,引发媒体机构对人工智能模型的担忧。

比尔·盖茨预测人工智能将引发技术爆炸

比尔·盖茨预测人工智能将在未来18至24个月内迎来广泛应用,特别关注其在发展中国家的应用,强调全球卫生领域的平等性。

【AiBase提要:】

💡 盖茨预测人工智能将在未来18至24个月内广泛应用,加速科技领域的新发现。

🌍 盖茨关注人工智能在发展中国家的应用,特别强调在全球卫生领域的平等性。

🚀 盖茨指出人工智能在教育、抗击疾病等方面的多个应用案例,强调应根据各国实际情况进行调整。

🤖📈💻💡大模型动态

深言科技“语鲸大模型”通过备案

深言科技的“语鲸大模型”已通过备案,具备强大的语义理解与文本生成、代码理解等能力,将在文本创作、数学计算、代码补全等领域向社会公众开放服务。

【AiBase提要:】

🐋 技术实力: 深言科技的“语鲸大模型”在中文理解和生成方面领先,80亿参数的LingoWhale-8B模型已在多个评测基准上达到领先效果。

📅 产业合作: 入选“北京市通用人工智能产业创新伙伴计划”,并与清华大学NLP实验室合作,致力于推动人工智能产业创新。

🌐 开源与商用: LingoWhale-8B模型已开源供学术研究免费使用,商业用途需申请授权,展示深言科技在大模型领域的技术实力。

字节发布AI模型DiffPortrait3D

DiffPortrait3D是字节跳动团队开发的条件扩散模型,通过零样本能力,从一张肖像图生成逼真、多样的3D面部视图,支持不定姿态、夸张表情和各种艺术风格。

【AiBase提要:】

🌐 独特技术:DiffPortrait3D采用2D扩散模型生成先验,结合条件控制模块、交叉视图注意力模块和3D感知噪声生成机制,实现多视角、野外场景下的高质量3D人像合成。

📸 零样本方法:通过零样本方法,DiffPortrait3D能够从单一肖像生成3D一致的新视图,支持不规定相机视角、极端面部表情和多样艺术描绘,无需繁琐微调。

🔬 综合优势:引入条件控制模块、交叉视图注意力模块和3D感知噪声生成机制,确保在合成图像中保持面部特征一致性,经过多视角和野外基准测试展现出逼真高质量的3D面部重建。

🤖📱💼AI应用

优酷上线“AI搜片”功能

一项全新的AI功能“AI搜片”在优酷上线,被称为全网首个AI对话类影视搜索引擎。用户可通过多轮对话实现模糊搜索、影视问答等功能,提升搜索体验,使影视内容查找更智能和个性化。

微信截图_20231228111602.png

【AiBase提要:】

🔍 优酷推出全新AI功能“AI搜片”——首个AI对话类影视搜索引擎。

🎙️ 用户通过对话实现模糊搜索、影视问答,无需具象问题即可完成搜索。

🌐 涵盖全网百万级影视剧实体信息,融合万亿条文娱相关知识词条,提升用户搜索体验。

👨‍💻💡🎯聚焦开发者

腾讯MotionCtrl正式开源

腾讯视频发布的MotionCtrl视频运动控制器正式开源,具有高度自定义相机和物体运动轨迹,实现精细多样化运动控制。

image.png

Demo:https://huggingface.co/spaces/TencentARC/MotionCtrl

项目地址:https://top.aibase.com/tool/motionctrl

【AiBase提要:】

🔄 MotionCtrl开源:腾讯视频发布的MotionCtrl视频运动控制器正式开源。

📹 多样化运动控制:项目可高度自定义相机和物体在3D空间的运动轨迹,实现更精细和多样化的运动控制。

🌐 架构优势:MotionCtrl独立控制摄像机和物体运动,考虑了它们的固有属性,提高了运动控制的灵活性。

快手开源KwaiAgents系统 性能超越GPT-3.5

快手与哈尔滨工业大学联合研发的「KwaiAgents」系统成功开源,通过Meta-Agent Tuning方法提升7B/13B模型性能,超越了GPT-3.5。

image.png

项目地址:https://github.com/KwaiKEG/KwaiAgents

【AiBase提要】

🚀 开源项目优势: 快手联合哈尔滨工业大学开源「KwaiAgents」系统,包含轻量级AI Agents系统、通用能力大模型、自动化评测Benchmark,为研究者提供便利。

🔄 Meta-Agent Tuning方法: 通过MAT方法,引入更多Agent Prompt模板,提升大模型在任务规划、工具使用、反思等能力,避免过拟合问题。

📈 性能超越GPT-3.5: 经过MAT调优后,7B-13B模型在各项能力上显著提升,评测结果显示超越了GPT-3.5效果。

字节推图像分割项目UniRef++

UniRef++项目由字节公司推出,通过整合即参考图像分割、少镜头图像分割、参考视频对象分割和视频对象分割四种方式,利用UniFusion模块和SAM模型提高图像分割效率和精确度。

image.png

论文地址:https://arxiv.org/pdf/2312.15715.pdf

【AiBase提要】

🔍 UniRef++整合四种图像分割方式,实现自动选择最适合任务的分割方式。

🔄 UniFusion模块与SAM模型结合,进一步提高图像分割效率和精确度。

🚀 项目允许在广泛基准上进行联合训练,提高资源利用效率,实验结果显示在不同任务上取得先进性能。

举报

  • 相关推荐
  • 快手正式成立可灵AI事业部 可灵AI半年收入破亿

    快科技4月30日消息,快手宣布正式成立可灵AI事业部,负责可灵、可图等系列大模型业务。根据快手的组织架构调整公告,可灵AI事业部为公司一级部门,下设成立可灵AI产品部、运营部和技术部。据悉,快手高级副总裁盖坤将担任可灵AI事业部负责人,继续兼任社区科学线负责人,向快手科技创始人兼CEO程一笑汇报。2023年,快手启动AI战略,研发多模态大模型。而除了视频大模型可灵,快手还发布过1750亿参数规模的通用大语言模型快意”和文生图大模型可图”。在2025年3月25日的快手财报电话会上,快手CEO程一笑称:目前可灵AI图生视频功能的综合效

  • AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队

    本文汇总了AI领域最新动态:1)小米开源70亿参数大模型Xiaomi MiMo,在数学推理和代码竞赛中超越OpenAI和阿里模型;2)快手推出AI笔记工具"喵记多",简化笔记管理;3)Luma AI发布电影级镜头控制API,降低视频生成门槛;4)腾讯重组AI团队,加大语言模型研发投入;5)Anthropic为Claude引入新语音"Glassy";6)谷歌NotebookLM新增50+语言音频概述功能;7)xAI将发布Grok3.5模型;8)Meta推出独立AI助手应用挑战ChatGPT;9)OpenAI紧急修复GPT-4o"谄媚"问题;10)Mac本地AI助手Simular升级隐私保护;11)CameraBench项目帮助AI理解镜头运动;12)谷歌推出个性化语言学习AI工具。

  • AI日报:阿里通义万相首尾帧生视频模型;豆包开源Seed智能体模型UI-TARS-1.5;OpenAI首发“智能体实践指南”

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型,标志着AI视频生成技术的重大进步。该模型支持高清视频生成

  • 多模态和Agent成为大厂AI的新赛 点

    这是《窄播Weekly》的第52期,本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景,多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心,就是让大模型的能力越来越接近人。沿着这个主旋律,可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现,需要给到大模型多

  • 多模态和Agent成为大厂AI的新赛点

    本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势,重点分析了多模态能力和代理执行两大发展方向。文章指出,大模型落地的核心在于让人机交互更自然,具体表现为:1)通过多模态技术降低用户使用门槛,如阿里夸克新推出的"拍照问夸克"功能;2)通过代理执行提升复杂任务处理能力,如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显:国�

  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • 醒醒,只靠MCP和A2A还带不来AI Agent的大繁荣

    文章探讨了AI Agents发展需要类似HTTPS的安全协议保障。回顾互联网发展历程,TCP/IP协议统一了网络通信标准,HTTP协议实现了全球互联,而HTTPS通过SSL加密解决了安全问题。类比互联网发展,当前AI Agents产业面临类似挑战:Anthropic推出的MCP协议解决智能体与工具连接问题,Google的A2A协议实现智能体间协作,但缺乏安全标准。IIFAA联盟正致力于构建AI Agents安全生态,推出ASL中间件保障数据隐私和身份认证。文章指出,正如HTTPS推动电商繁荣,AI Agents的安全标准化将加速商业化进程,蚂蚁集团等企业已开始实践MCP应用。未来AI Agents可能通过统一入口调用工具池,改变现有交互模式。

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 再获权威认可!数势科技上榜IDC中国AI Agent应用市场全景图报告

    近日,国际数据公司(IDC)发布的《IDC Market Glance:中国AI Agent应用市场概览,1Q25》(Doc#CHC53057625, 2025 年 3 月)研究报告中,数势科技凭借在企业级智能体应用领域的技术突破,成功入围"数据分析"细分领域代表厂商,成为该赛道智能化转型的标杆企业。数势科技首发企业级决策分析智能体平台SwiftAgent数势科技SwiftAgent 作为基于DeepSeek及行业先进大模型构建的企业级智能决策分�

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。