首页 > 业界 > 关键词  > 百度最新资讯  > 正文

AI视野:百度推视频生成模型UniVG;下一代大模型Llama3正在训练;腾讯推视频模型VideoCrafter2;TikTok测试AI作曲功能

2024-01-19 15:30 · 稿源:站长之家

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

🤖📱💼AI应用

1、百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入

image.png

【AiBase提要:】

⭐ UniVG是一种“统一模态视频生成系统”。

⭐ 采用了“多条件交叉注意力”技术和“偏置高斯噪声”。

⭐ 在MSR-VTT视频数据库上表现出色,获得了。

项目地址:https://top.aibase.com/tool/univg

2、腾讯推视频生成模型 VideoCrafter2,克服数据限制,提高视频质量

image.png

【AiBase提要:】

👉 商业视频模型已能生成逼真视频

👉 VideoCrafter2目标是生成高质量视频

👉 VideoCrafter2提供显著的视频质量改进

项目地址:https://top.aibase.com/tool/videocrafter2

3、TikTok测试一项AI歌曲创作功能“AI Song”

【AiBase提要:】

🎵 TikTok推出AI Song,让用户通过文本提示创作歌曲

🎶 初期反馈显示生成的歌曲存在音调不准问题

🎤 YouTube也在测试音乐创作功能,提供更多创作可能

4、钉钉计划4月推出AI智能体商店

【AiBase提要:】

🎯 钉钉计划推出AI智能体商店

🎯 目标是在3年内产生1000万个AI助理,成为最活跃的AI智能体孵化、分发和交易平台

🎯预计未来将产生交易型的智能体,甚至会有很多个人来开发这类应用。

5、英伟达发布ChatQA模型 性能达到GPT-4级别

【AiBase提要:】

⭐ ChatQA模型性能超越GPT-4

⭐ 使用两阶段指令调整和改进的上下文检索

⭐ 通过在多轮QA数据集上微调密集检索器,显著改善了对话式QA结果

项目地址:https://top.aibase.com/tool/aim

6、苹果发布自回归视觉模型AIM 验证性能与模型规模有关

image.png

【AiBase提要:】

👉 随着容量或预训练数据量的增加,模型性能不断提升

👉 论文证实自回归训练对于图像模型学习表征能力具有扩展性

👉 自回归目标足以满足视觉特征的训练要求,且没有饱和的迹象

📰🤖📢AI新鲜事

7、小扎正式宣战开源AGI!下一代大模型Llama3正在训练

image.png

【AiBase提要:】

🔸 下一代大模型Llama3正在训练

🔸 Meta将拥有60万个GPU等效算力

🔸35万块H100,这比GPT-4的计算能力高出约30倍

8、谷歌生成式AI搜索引擎占据84%的搜索查询

【AiBase提要:】

🔍 谷歌的Gen-AI占据84%搜索查询

🔶 搜索引擎优化格局改变,Gen-AI搜索引擎通过分析搜索的上下文、情感、意图和细微差别,提供基于事实的意见。

📈 尽管Gen-AI搜索引擎尚未全面推出,但业界已感受到变革的迫近。

9、OpenAI与亚利桑那州立大学合作,AI进入高等教育领域

【AiBase提要:】

🔹 亚利桑那州立大学计划使用OpenAI技术

🔹 合作重点:学术成功、创新研究、组织流程

🔹 拟为学生提供ChatGPT企业版使用权限

10、AI爆款设备Rabbit R1将接收Perplexity AI的实时信息

【AiBase提要:】

🔍 Rabbit在2024年CES展上宣布与Perplexity达成合作伙伴关系

🔍 该合作将将“对话式AI动力回答引擎”与Rabbit R1相连

🔍 Rabbit R1是由TeenageEngineering设计的AI设备,售价199美元

11、AI虚拟博主盘点 AI网红6周创收超1万美元

【AiBase提要:】

😍 国外创作者根据ChatGPT创建AI网红Emily 每周稳定收入1万美元

😍 测评类AI网红年收入达1700万美元

😍 时尚AI博主Lil Miquela 通过分享穿搭吸引大量品牌合作

更多AI网红致富秘诀点此查看:https://www.chinaz.com/2024/0119/1591649.shtml

12、日本文学奖得主承认借助用ChatGPT写作小说 占比5%

【AiBase提要:】

1. 🏆 日本文学奖得主承认她的小说《Tokyo-to Dojo-to》约有5%是使用ChatGPT生成的。

2. 🤖 ChatGPT不仅帮助她实现潜力,还成为她的创作灵感和心灵依托,启发了小说中的对话。

3. 🤝 与一些担忧AI抄袭的艺术家不同,她看待AI为人类能力的补充,希望未来与AI保持“良好关系”并共同发展创造力。

13、Meta提出TextureDreamer:利用扩散模型生成完整的3D模型纹理贴图

image.png

【AiBase提要:】

⭐ 高质量的3D内容对AR/VR、机器人技术至关重要

⭐ TextureDreamer利用扩散模型生成完整的3D模型纹理贴图

⭐ 通过关键技术的综合应用,取得了显著改进,推动了纹理创作的民主化。

论文地址:https://arxiv.org/pdf/2401.09416.pdf

14、卡内基大学开源TOFU框架,帮助大模型遗忘隐私数据

【AiBase提要:】

🔹 TOFU框架的核心功能之一是遗忘模块

🔹 TOFU数据集帮助深入理解大模型的遗忘过程

🔹 TOFU的遗忘模块可以帮助开发者移除敏感数据

项目地址:https://top.aibase.com/tool/tofu

15、智源推Vision Mamba 高效处理视觉任务,内存能省87%

【AiBase提要:】

🔸 Vision Mamba 在图像分类、对象检测和语义分割任务上性能更高

🔸 Mamba的提出引发了对状态空间模型的兴趣

🔸 Vision Mamba块整合了双向序列建模和位置嵌入

项目地址:https://github.com/hustvl/Vim

16、新AI框架 AboutMe:用网页中自我描述来记录英语预训练数据过滤器的效果

【AiBase提要:】

🔸研究人员介绍了一个名为 AboutMe 的新数据集和框架,用于记录数据过滤对文本的影响。

🔸通过分析网页的 “关于我” 部分,研究团队测量了网站作者的兴趣、社会角色和地理位置等信息。

🔸研究强调了预训练数据筛选过程中的复杂性,并呼吁进一步研究其社会影响。

项目网址:https://github.com/lucy3/whos_filtered

举报

  • 相关推荐
  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • TikTok电商抢滩日本,有哪些机遇和挑战?

    ​TikTok电商全球化布局再落一子。 6月30日,TikTok正式在日本上线电商业务,核心模式为直播带货。品牌、卖家及创作者可通过发布含购物功能的视频或直播,在TikTok内直接销售商品。 在东南亚、美区等市场,TikTok电商已证明了其直播带货模式的爆发力。如今全球化布局再下一城,给从业者带来了哪些新的机遇和挑战? TikTok Shop在日本上线 早在4月28日,TikTok日本正式宣布推出

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • @开发者们:百度文心大模型4.5系列模型开源,国内首发平台GitCode现已开放下载!

    6月30日,百度文心大模型4.5系列正式开源并在国内领先的开源平台GitCode首发上线。该系列包含10款模型,涵盖47B和3B参数的混合专家(MoE)模型及0.3B的稠密参数模型,采用创新的多模态异架构结构实现跨模态知识融合。模型基于飞桨框架开发,训练效率达47% MFU,在文本和多模态基准测试中达到SOTA水平。所有模型按Apache2.0协议开源,配套产业级开发套件支持多种芯片部署。GitCode平台已汇聚620万用户,为AI开发者提供代码托管、协同开发等全流程支持。此次开源将推动中国AI生态创新,加速大模型技术产业化应用。

  • 双第一!百度智能云领跑2025上半年大模型中标市场

    2025年上半年,全球AI产业迎来关键拐点,多模态理解、深度逻辑推理等核心能力实现重大突破。大模型加速渗透产业核心场景,推动AI从通用能力向深度行业应用转变。我国大模型项目呈现爆发式增长,中标项目累计1810个,金额突破64亿元。百度智能云表现突出,以48个中标项目和5.1亿元金额稳居"双第一",在金融、能源、政务等重点行业持续领先。行业趋势表明,大模型市场正从"通用竞争"迈向"行业深耕"阶段,技术实力与落地能力成为关键。百度智能云依托领先的大模型技术与全栈智能基础设施,助力企业高效部署应用AI,目前已有65%央企选择与其合作。在能源、交通、金融等领域,百度打造了多个行业标杆案例,显著提升业务效率。

  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin

  • 可灵AI全系模型上线“视频音效”功能 可同步生成高质量立体声音效

    可灵AI宣布全系列视频模型上线“视频音效”功能,用户在使用可灵AI进行视频创作时,不仅能获得高质量的视频画面,更能体验到与视频精准匹配、富有空间感的立体声音效……