首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:快手推“可灵AI”独立APP;百度将推AI智能眼镜;智谱AI开源CogVideoX v1.5并上线“新清影”;Krea AI上线Lora训练功能

2024-11-08 15:43 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、快手推出“可灵AI”独立APP 加码移动端AI创作布局

快手最近推出了“可灵AI”独立APP,致力于在移动端扩展AI创作领域。该APP基于快手自研的可灵大模型和可图大模型,提供视频、图片生成与编辑能力。尽管功能上不及网页版,但已吸引360万用户,创作超过3700万个视频和一亿张图片。与抖音的“即梦AI”APP形成竞争。

image.png

【AiBase提要:】

🚀 快手推出“可灵AI”独立APP,扩展移动端AI创作布局。

💡 “可灵AI”APP基于自研大模型,提供视频、图片生成与编辑能力。

💪 已吸引360万用户,创作超过3700万视频和一亿张图片。与抖音的“即梦AI”形成竞争。

2、智谱AI开源最新版视频模型CogVideoX v1.5

智谱技术团队发布了最新视频生成模型CogVideoX v1.5,并将其开源。这一版本在视频生成能力方面有重大提升,支持5/10秒视频、768P分辨率和16帧生成能力。新清影平台上线,结合CogSound音效模型,提供超高清4K视频生成。数据处理与算法创新确保视频质量和连贯性。

image.png

【AiBase提要:】

🚀 CogVideoX v1.5开源,支持5/10秒视频、768P分辨率和16帧生成能力。

🎬 新清影平台上线,结合CogSound音效模型,提供超高清4K视频生成。

🔬 数据处理与算法创新,确保生成视频的质量和连贯性。

详情链接:https://github.com/thudm/cogvideo

3、报道称百度将发布一款内置 AI 助手的智能眼镜,基于文心模型

百度计划推出一款内置小度 AI 助手的智能眼镜,将在2024年度百度世界大会上展示。这款眼镜具有创新功能,提供全新智能体验。

【AiBase提要:】

🌟 眼镜将配备摄像头,支持照片和视频拍摄功能。

📷 眼镜支持基于 Ernie 模型的语音交互,提升用户体验。

🗣️ 百度智能眼镜将提供更个性化、符合中国用户需求的解决方案。

4、氪金玩家狂喜!Krea AI上线Lora训练功能

Krea AI推出了Lora训练功能,为用户提供个性化角色、风格、产品等训练服务。用户上传多张图片即可开始训练,界面简洁易用。训练参数设置简单,训练效果良好,对小白用户友好。会员价格为每月10美元,支持商用。

【AiBase提要:】

🔥 Krea AI推出Lora训练功能,让用户定制个性化角色、风格、产品等训练服务。

💡 界面简洁,上传图片后即可设置基础参数,训练过程简单易上手。

💰 会员价格每月10美元,可生成720张FLux图像,36000张实时图像,支持商用。

详情链接:https://www.krea.ai/train

5、可灵推自定义模型功能 克服AI视频生成角色一致性难题

可灵最新推出的自定义模型功能为AI视频生成领域带来重要突破,解决了角色一致性的技术难题。该功能让创作者上传多个视频片段进行训练,支持使用可灵自身生成的AI视频,提供更大灵活性。训练后系统能生成保持角色一致性的视频内容,展示出色彩斑斓的创作可能。

image.png

【AiBase提要:】

🔑 创作者可上传多个视频片段进行模型训练,支持使用可灵自身生成的AI视频,提供更大灵活性。

🚀 训练完成后系统能生成保持角色一致性的视频内容,展示360度旋转展示和复杂场景的稳定外观特征。

💡 KLING1.5版本支持1080p高清视频输出,提供多种格式选择,满足不同平台的内容需求。动作笔刷工具提升视频创作精确度和灵活性。

6、小巧强大!口袋级视觉AI模型moondream2,手机就能运行

Moondream推出的moondream2是一款性能出色的紧凑型视觉语言模型,仅有16亿参数,可在智能手机等小型设备上运行。该模型具备强大的文本和图像处理能力,在各项基准测试中表现优异。Moondream团队持续更新模型性能,成功筹集450万美元资金,CEO具有丰富经验。

image.png

【AiBase提要:】

🌟 Moondream推出moondream2,仅有1.6亿参数,可在智能手机等小型设备上运行。

💰 Moondream成功筹集450万美元资金,CEO曾在亚马逊工作,团队持续更新提升模型性能。

📈 moondream2具备强大的文本和图像处理能力,能回答问题、进行OCR、物体计数和分类,基准测试表现出色。

详情链接:https://huggingface.co/vikhyatk/moondream2

7、小米官宣大模型小爱升级:多端设备支持“音乐问答”功能

小米官方宣布大模型小爱音乐能力升级,新增了「音乐问答」功能,用户可在多端设备上体验。这一功能基于人工智能能力提升,帮助用户查询歌曲信息和解答专业音乐知识。小爱同学在今年7月经历了重大版本更新,全面提升了自然问答和智能助手功能,提升用户体验。

image.png

【AiBase提要:】

🎵 小米小爱同学新增「音乐问答」功能,支持歌曲信息查询及专业音乐知识解答。

📱 功能适用于多端设备,用户需将小爱同学升级至最新版本。

🚗 小爱同学在过去的更新中,全面提升了自然问答及智能助手的多项功能,提升用户体验。

8、Mistral AI推出多语言内容审核API,挑战OpenAI

Mistral AI推出了一款全新的内容审核API,旨在与行业领军者竞争,解决AI安全与内容过滤问题。该API基于Ministral8B模型,能检测多种有害内容,支持多语言,并已在Le Chat平台上投入使用。Mistral与多家企业合作,展现其成熟技术和欧洲视角。

image.png

【AiBase提要:】

🌍 多语言支持:API覆盖11种语言,检测色情内容、仇恨言论等有害内容。

🔗 与企业合作:在Le Chat平台应用,与微软Azure、Qualcomm等建立合作关系。

🔒 技术优势:以对话背景为基础,提升对潜在有害内容的检测能力。

详情链接:https://docs.mistral.ai/capabilities/guardrailing/

9、AI “电子舌”来了!可品尝食物味道,轻松检测食品新鲜度

科学家们成功研发出一种名为“电子舌”的新型设备,利用人工智能技术,能准确区分不同咖啡混合物,检测食品和饮料新鲜度,为食品检测和品质控制提供新解决方案。电子舌模仿人类味觉技术,提高准确性和工作效率,可加速口味研发和确保产品品质。具备监测食品新鲜度功能,保护消费者健康,商家质量把控。未来应用前景广阔,可拓展至医药和环境监测等多个领域。

image.png

【AiBase提要:】

🌟 电子舌利用人工智能技术,准确区分不同咖啡混合物。

🍽️ 检测食品和饮料新鲜度,防止变质。

🔬 未来电子舌有望应用于医药和环境监测等多个领域。

详情链接:https://www.nature.com/articles/s41586-024-08003-w

10、谷歌黑科技ReCapture:可一键生成“多机位”视频大片

ReCapture技术是谷歌研究院推出的一项创新技术,通过重新生成带有自定义摄像机轨迹的视频,让用户可以从全新视角体验原始视频内容。这项技术背后的原理并不复杂,通过多视角扩散模型和遮罩视频微调技术,实现粗略视频到清晰、连贯、动感视频的转变。谷歌的研究人员表示,ReCapture不需要大量训练数据,适用于各种视频和视角转换,让普通用户也能轻松制作专业级“多机位”视频。

image.png

【AiBase提要:】

🔍 ReCapture技术让用户重新体验视频,生成带有自定义摄像机轨迹的新版本。

🛠️ 利用多视角扩散模型和遮罩视频微调技术,实现粗略视频到清晰、连贯、动感视频的转变。

🎥 ReCapture不需要大量训练数据,适用于各种视频和视角转换,让普通用户也能制作专业级“多机位”视频。

详情链接:https://generative-video-camera-controls.github.io/

11、OpenAI在版权诉讼中胜诉,AI数据抓取合法化成趋势?

近日,纽约南区法院驳回了Raw Story Media,Inc.和AlterNet Media,Inc.对OpenAI提起的版权侵犯诉讼,认为该案缺乏立案资格。这一裁决标志着在AI与版权之间的法律争议中,OpenAI赢得了一场重要的胜利,也为未来类似案件的处理提供了参考。法院裁定驳回诉讼,强调生成型AI的内容综合性使得逐字复制的可能性较小,为未来AI与版权纠纷的处理提供了法律参考和启示。

【AiBase提要:】

📜 原告未能证明因OpenAI的行为造成实际损害,法院裁定驳回诉讼。

🔍 法官强调生成型AI的内容综合性使得逐字复制的可能性较小。

⚖️ 该判决为未来AI与版权纠纷的处理提供了法律参考和启示。

12、微软Outlook推出基于AI个性化动态主题,根据天气和位置动态更新

微软最新推出的Co pilot 主题功能为Outlook带来了个性化的视觉体验,让用户能够定制独特的外观。AI驱动的主题功能不仅美观亲切,还能根据天气、地点等因素动态更新,提升用户体验。用户可以享受到更愉悦和个性化的电子邮件管理体验。

image.png

【AiBase提要:】

🌈 Co pilot 主题功能需要Co pilot Pro或企业许可证支持

🌦️ 用户可以根据天气和地点定制主题,实现动态更新

🎨 提供多种非AI主题选项,包括绿色、红色和紫色,适用于各个版本的Outlook

举报

  • 相关推荐
  • AI日报:Anthropic最强编码AI模型Claude4;苹果计划AI智能眼镜;QQ浏览器上线首个高考Agent

    【AI日报】今日AI领域重要动态:1)Anthropic发布Claude4系列AI模型,编程能力超越竞争对手;2)苹果计划2026年推出集成AI技术的智能眼镜;3)字节跳动与清华合作推出时序多模态大模型ChatTS;4)3DTown框架实现单张照片生成逼真3D场景;5)OpenAI秘密开发无屏幕AI设备;6)商汤科技推出儿童AI下棋机器人;7)微软记事本新增AI写作功能;8)深圳设立70亿元基金支持AI硬件初创企业;9)谷歌发布3D视频通信平台Beam;10)阿联酋推出"星际之门"计划,免费提供ChatGPT服务;11)法国Mistral推出开源模型Devstral;12)Anthropic API新增四大功能;13)美国众议院通过法案限制各州监管AI;14)QQ浏览器推出高考AI助手。

  • 博士眼镜线下首发李未可最新 AI 智能眼镜产品,加速AI智能眼镜市场普及

    2025年5月25日,博士眼镜与李未可品牌合作推出三款AI智能眼镜新品:LAWK City、LAWK City Air和LAWK View。新品在合肥滨湖国际会展中心首发,主打AI翻译(支持128种语言)、智能拍摄和快拆设计等功能。博士眼镜通过全国30家线下门店和小程序同步发售,深化"科技+健康"理念。这是双方继2023年合作后的再次联手,标志着博士眼镜在智能眼镜生态布局的加速,未来将持续探索个性化视觉服务和智能交互领域。

  • AI日报DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

  • 快手可灵AI上线2.1系列模型:生成5秒视频不到1分钟

    快手旗下可灵AI发布2.1系列模型,包含720p标准版和1080p高品质版,在性价比、生成速度和质量三大维度实现突破。新模型生成5秒视频仅需20-35灵感值,与上代保持相同成本;1080p视频生成时间不到1分钟,快于行业同级产品2-3倍。模型在动态表现、物理模拟和语义理解方面均有优化,人物动作更真实自然。可灵AI自发布以来发展迅猛,全球用户突破2200万,月活增长25倍,累计生成1.68亿视频和3.44亿图片。商业化进程加速,2025年Q1营收超1.5亿元人民币,展现强劲市场潜力。

  • AI日报:通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线智谱AI企业级超级助手Agent CoCo上线

    【AI日报】今日AI领域重要动态:1.通义千问3大模型全球下载量超1250万,衍生模型13万+;2.即梦图片3.0上线,AI设计进入"零门槛"时代;3.智谱AI发布企业级超级助手Agent CoCo;4.百度推出金融行业大模型"千帆慧金";5.小红书开源首个大模型dots.llm1,含1420亿参数;6.Hugging Face开源LeRobot项目,降低机器人研发门槛;7.ChatGPT语音功能升级,支持更自然对话翻译;8.Google Gemini应用下载量超ChatGPT但活跃度不足;9.轻量级文档解析模型MonkeyOCR表现优异;10.Google Veo3推出高速视频生成模式;11.Google调整AI Studio政策,限制Gemini2.5Pro免费访问。

  • AI日报:美团AI编程工具NoCode上线;火山引擎发布MCP Servers;腾讯混元上线游戏视觉生成平台

    本文汇总了近期AI领域的重要动态:1)美团将推出对话式编程工具"NoCode";2)火山引擎发布大模型生态平台MCP Servers;3)B站开源动画视频生成模型Index-AniSora;4)字节跳动升级AI耳机Ola Friend的英语学习功能;5)GitHub推出AI编程助手自动修复代码漏洞;6)腾讯混元上线游戏视觉生成平台;7)微软将VS Code转型为开源AI编辑器;8)Windows 11原生支持MCP协议;9)Anthropic发布AI代理开发指南;10)谷歌推出编程AI代理Jules;11)NotebookLM推出iOS版;12)Genspark创3600万美元ARR纪录;13)Bright Data发布开源MCP服务器;14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

  • AI日报DeepSeek入选2025年度十大IP快手推出AI作图工具 Poify;字节跳动开源代码模型Seed-Coder

    本文介绍了AI领域多项最新进展:1)快手推出电商AI作图工具Poify,提升商品展示效率;2)字节跳动开源8B参数代码模型Seed-Coder,展现强大编程能力;3)DeepSeek App入选2025全球十大IP;4)Claude AI新增网页搜索功能;5)苹果发布移动端视觉语言模型FastVLM;6)腾讯推出3D形状生成框架PrimitiveAnything;7)首个智能文档处理基准发布;8)谷歌Gemini2.5Pro实现6小时视频理解;9)研究显示简洁提问易致AI错误;10)首款AI智能浏览器Fellou发布;11)NVIDIA推出音频生成技术Audio-SDS;12)Kimi入驻小红书,转向内容深耕。这些创新展现了AI在电商、编程、多模态理解等领域的快速发展。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:昆仑万维天工超级智能体发布;OpenAI核心API支持MCP百度飞桨PaddleOCR 3.0开源

    【AI日报】汇总了近期AI领域重要动态:1)百度飞桨发布PaddleOCR3.0,提升文字识别精度13%;2)昆仑万维发布天工超级智能体,AI办公成本仅为OpenAI的40%;3)OpenAI API新增MCP支持简化开发流程;4)xAI推出实时网页搜索API;5)谷歌Sparkify可将问题秒变动画;6)Mistral发布高效代码模型Devstral;7)Video Ocean推出4K视频生成工具;8)谷歌推出AI内容识别工具SynthID;9)谷歌NotebookLM使用量半年增长56%;10)硅基流动升级128K长文本模型;11)DeepMind发布音乐生成模型Lyria2;12)多模态大模型MMaDA实现跨模态推理;13)微软发布网页智能体Magentic-UI;14)Framer推出AI建站套件。