首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:快手推“可灵AI”独立APP;百度将推AI智能眼镜;智谱AI开源CogVideoX v1.5并上线“新清影”;Krea AI上线Lora训练功能

2024-11-08 15:43 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、快手推出“可灵AI”独立APP 加码移动端AI创作布局

快手最近推出了“可灵AI”独立APP,致力于在移动端扩展AI创作领域。该APP基于快手自研的可灵大模型和可图大模型,提供视频、图片生成与编辑能力。尽管功能上不及网页版,但已吸引360万用户,创作超过3700万个视频和一亿张图片。与抖音的“即梦AI”APP形成竞争。

image.png

【AiBase提要:】

🚀 快手推出“可灵AI”独立APP,扩展移动端AI创作布局。

💡 “可灵AI”APP基于自研大模型,提供视频、图片生成与编辑能力。

💪 已吸引360万用户,创作超过3700万视频和一亿张图片。与抖音的“即梦AI”形成竞争。

2、智谱AI开源最新版视频模型CogVideoX v1.5

智谱技术团队发布了最新视频生成模型CogVideoX v1.5,并将其开源。这一版本在视频生成能力方面有重大提升,支持5/10秒视频、768P分辨率和16帧生成能力。新清影平台上线,结合CogSound音效模型,提供超高清4K视频生成。数据处理与算法创新确保视频质量和连贯性。

image.png

【AiBase提要:】

🚀 CogVideoX v1.5开源,支持5/10秒视频、768P分辨率和16帧生成能力。

🎬 新清影平台上线,结合CogSound音效模型,提供超高清4K视频生成。

🔬 数据处理与算法创新,确保生成视频的质量和连贯性。

详情链接:https://github.com/thudm/cogvideo

3、报道称百度将发布一款内置 AI 助手的智能眼镜,基于文心模型

百度计划推出一款内置小度 AI 助手的智能眼镜,将在2024年度百度世界大会上展示。这款眼镜具有创新功能,提供全新智能体验。

【AiBase提要:】

🌟 眼镜将配备摄像头,支持照片和视频拍摄功能。

📷 眼镜支持基于 Ernie 模型的语音交互,提升用户体验。

🗣️ 百度智能眼镜将提供更个性化、符合中国用户需求的解决方案。

4、氪金玩家狂喜!Krea AI上线Lora训练功能

Krea AI推出了Lora训练功能,为用户提供个性化角色、风格、产品等训练服务。用户上传多张图片即可开始训练,界面简洁易用。训练参数设置简单,训练效果良好,对小白用户友好。会员价格为每月10美元,支持商用。

【AiBase提要:】

🔥 Krea AI推出Lora训练功能,让用户定制个性化角色、风格、产品等训练服务。

💡 界面简洁,上传图片后即可设置基础参数,训练过程简单易上手。

💰 会员价格每月10美元,可生成720张FLux图像,36000张实时图像,支持商用。

详情链接:https://www.krea.ai/train

5、可灵推自定义模型功能 克服AI视频生成角色一致性难题

可灵最新推出的自定义模型功能为AI视频生成领域带来重要突破,解决了角色一致性的技术难题。该功能让创作者上传多个视频片段进行训练,支持使用可灵自身生成的AI视频,提供更大灵活性。训练后系统能生成保持角色一致性的视频内容,展示出色彩斑斓的创作可能。

image.png

【AiBase提要:】

🔑 创作者可上传多个视频片段进行模型训练,支持使用可灵自身生成的AI视频,提供更大灵活性。

🚀 训练完成后系统能生成保持角色一致性的视频内容,展示360度旋转展示和复杂场景的稳定外观特征。

💡 KLING1.5版本支持1080p高清视频输出,提供多种格式选择,满足不同平台的内容需求。动作笔刷工具提升视频创作精确度和灵活性。

6、小巧强大!口袋级视觉AI模型moondream2,手机就能运行

Moondream推出的moondream2是一款性能出色的紧凑型视觉语言模型,仅有16亿参数,可在智能手机等小型设备上运行。该模型具备强大的文本和图像处理能力,在各项基准测试中表现优异。Moondream团队持续更新模型性能,成功筹集450万美元资金,CEO具有丰富经验。

image.png

【AiBase提要:】

🌟 Moondream推出moondream2,仅有1.6亿参数,可在智能手机等小型设备上运行。

💰 Moondream成功筹集450万美元资金,CEO曾在亚马逊工作,团队持续更新提升模型性能。

📈 moondream2具备强大的文本和图像处理能力,能回答问题、进行OCR、物体计数和分类,基准测试表现出色。

详情链接:https://huggingface.co/vikhyatk/moondream2

7、小米官宣大模型小爱升级:多端设备支持“音乐问答”功能

小米官方宣布大模型小爱音乐能力升级,新增了「音乐问答」功能,用户可在多端设备上体验。这一功能基于人工智能能力提升,帮助用户查询歌曲信息和解答专业音乐知识。小爱同学在今年7月经历了重大版本更新,全面提升了自然问答和智能助手功能,提升用户体验。

image.png

【AiBase提要:】

🎵 小米小爱同学新增「音乐问答」功能,支持歌曲信息查询及专业音乐知识解答。

📱 功能适用于多端设备,用户需将小爱同学升级至最新版本。

🚗 小爱同学在过去的更新中,全面提升了自然问答及智能助手的多项功能,提升用户体验。

8、Mistral AI推出多语言内容审核API,挑战OpenAI

Mistral AI推出了一款全新的内容审核API,旨在与行业领军者竞争,解决AI安全与内容过滤问题。该API基于Ministral8B模型,能检测多种有害内容,支持多语言,并已在Le Chat平台上投入使用。Mistral与多家企业合作,展现其成熟技术和欧洲视角。

image.png

【AiBase提要:】

🌍 多语言支持:API覆盖11种语言,检测色情内容、仇恨言论等有害内容。

🔗 与企业合作:在Le Chat平台应用,与微软Azure、Qualcomm等建立合作关系。

🔒 技术优势:以对话背景为基础,提升对潜在有害内容的检测能力。

详情链接:https://docs.mistral.ai/capabilities/guardrailing/

9、AI “电子舌”来了!可品尝食物味道,轻松检测食品新鲜度

科学家们成功研发出一种名为“电子舌”的新型设备,利用人工智能技术,能准确区分不同咖啡混合物,检测食品和饮料新鲜度,为食品检测和品质控制提供新解决方案。电子舌模仿人类味觉技术,提高准确性和工作效率,可加速口味研发和确保产品品质。具备监测食品新鲜度功能,保护消费者健康,商家质量把控。未来应用前景广阔,可拓展至医药和环境监测等多个领域。

image.png

【AiBase提要:】

🌟 电子舌利用人工智能技术,准确区分不同咖啡混合物。

🍽️ 检测食品和饮料新鲜度,防止变质。

🔬 未来电子舌有望应用于医药和环境监测等多个领域。

详情链接:https://www.nature.com/articles/s41586-024-08003-w

10、谷歌黑科技ReCapture:可一键生成“多机位”视频大片

ReCapture技术是谷歌研究院推出的一项创新技术,通过重新生成带有自定义摄像机轨迹的视频,让用户可以从全新视角体验原始视频内容。这项技术背后的原理并不复杂,通过多视角扩散模型和遮罩视频微调技术,实现粗略视频到清晰、连贯、动感视频的转变。谷歌的研究人员表示,ReCapture不需要大量训练数据,适用于各种视频和视角转换,让普通用户也能轻松制作专业级“多机位”视频。

image.png

【AiBase提要:】

🔍 ReCapture技术让用户重新体验视频,生成带有自定义摄像机轨迹的新版本。

🛠️ 利用多视角扩散模型和遮罩视频微调技术,实现粗略视频到清晰、连贯、动感视频的转变。

🎥 ReCapture不需要大量训练数据,适用于各种视频和视角转换,让普通用户也能制作专业级“多机位”视频。

详情链接:https://generative-video-camera-controls.github.io/

11、OpenAI在版权诉讼中胜诉,AI数据抓取合法化成趋势?

近日,纽约南区法院驳回了Raw Story Media,Inc.和AlterNet Media,Inc.对OpenAI提起的版权侵犯诉讼,认为该案缺乏立案资格。这一裁决标志着在AI与版权之间的法律争议中,OpenAI赢得了一场重要的胜利,也为未来类似案件的处理提供了参考。法院裁定驳回诉讼,强调生成型AI的内容综合性使得逐字复制的可能性较小,为未来AI与版权纠纷的处理提供了法律参考和启示。

【AiBase提要:】

📜 原告未能证明因OpenAI的行为造成实际损害,法院裁定驳回诉讼。

🔍 法官强调生成型AI的内容综合性使得逐字复制的可能性较小。

⚖️ 该判决为未来AI与版权纠纷的处理提供了法律参考和启示。

12、微软Outlook推出基于AI个性化动态主题,根据天气和位置动态更新

微软最新推出的Co pilot 主题功能为Outlook带来了个性化的视觉体验,让用户能够定制独特的外观。AI驱动的主题功能不仅美观亲切,还能根据天气、地点等因素动态更新,提升用户体验。用户可以享受到更愉悦和个性化的电子邮件管理体验。

image.png

【AiBase提要:】

🌈 Co pilot 主题功能需要Co pilot Pro或企业许可证支持

🌦️ 用户可以根据天气和地点定制主题,实现动态更新

🎨 提供多种非AI主题选项,包括绿色、红色和紫色,适用于各个版本的Outlook

举报

  • 相关推荐
  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • AI日报:12306 MCP Server上线;百度推AI搜索助手Tizzy.ai;ChatGPT录音模式面向Plus用户开放

    【AI日报】今日AI领域重要动态:1)百度推出无广告智能搜索助手Tizzy.ai,整合影视资源与深度思考功能;2)12306开源火车票查询引擎上线,采用FastAPI架构实现秒级响应;3)ChatGPT向Plus用户全面开放录音功能,支持实时记录与内容总结;4)开源SaaS模板FireGEO助力快速构建现代化Web应用;5)国产工具ReadMeX可一键生成高质量GitHub文档;6)百度AI助手新增视频通话功能,支持方言识别;7)Jacky

  • 国内有哪些AI资讯网站?可灵AI上线可图2.1等热点新闻哪里看最及时?

    本文介绍了国内主要AI资讯平台,帮助用户获取及时全面的AI信息。重点推荐了机器之心、AI科技评论、新智元等综合性平台,以及CSDN、InfoQ等技术导向网站,特别强调AIbase.cn的时效性优势,该平台能第一时间发布如可灵AI可图2.1模型免费开放等重要动态。文章指出,选择资讯平台需结合时效性与内容深度,建议用户根据自身需求建立信息筛选体系,通过订阅日报、设置关键词提醒等方式构建个人AI资讯生态系统,其中AIbase.cn因其更新快、覆盖全的特点值得重点关注。

  • TDBC大会揭幕:百度智能云再造数据与AI新连接,激活大模型生命线

    中国通信标准化协会等机构联合主办的"TDBC2025可信数据库发展大会"在京召开。会上公布了上半年"可信数据库"评估测试结果,百度智能云向量数据库VectorDB成为国内首批完成测试的向量数据库产品。该测试覆盖稠密向量检索、多向量检索、标量向量融合检索三种场景,评估指标包括索引构建时间、QPS、延迟、资源占用等多个维度。百度智能云总架构师朱洁指出,超过50%的AI项目时间消耗在数据治理环节,提出构建"智能数据基座"实现数据统一管理,形成"Data+AI+App"闭环。百度智能云通过湖仓一体架构提升AI训练数据效率,智能调度CPU/GPU算力优化资源分配,预计到2028年多数生成式AI应用将直接基于企业数据平台构建。

  • 秘塔AI也终于悄悄上线了DeepResearch。

    测试完以后,我觉得这玩意,还是值得我将近通宵写一篇的。 深度研究,也就是DeepResearch。 我过去写过很多次秘塔AI了,因为我自己的搜索习惯,现在基本就是,大活上ChatGPT用DeepResearch,常识问答直接找豆包,一般的AI搜索就是秘塔AI。 当然很多ChatBot产品都有AI搜索,但是我自己这两年,还是习惯用秘塔AI和Perplexity这样形态的原生AI搜索产品了,这可能就是习惯的力量吧。

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • 领先OpenAI三个月,百度文库GenFlow领跑通用Agent领域,2.0版本8月上线

    百度文库即将在8月发布GenFlow2.0版本,该版本具备更强大的多模态能力,支持生成多种内容形态,大幅缩短任务交付时间。相比OpenAI同日发布的ChatGPT+Agent,百度文库早在4月就已上线GenFlow1.0,实现全场景覆盖和全链路调度。GenFlow基于MoE架构,在成本、性能和效率上占优,能快速生成PPT、研报等多样化内容,且依托百度14亿专业文档资源,内容质量更可靠。此外,GenFlow还能调用用户个人数据实现个性化定制,并提供内容后期编辑功能,灵活性更高。

  • 百度网盘上线知识问答功能:你的数据会自己“说话”了

    ,百度网盘宣布上线知识问答”功能,变成活的知识库”。 据了解,百度网盘通过AI技术整合用户在网盘中的数据,如学习资料、生活照片、办公文件等多源信息,形成结构化知识库。 它帮助用户快速查找”、问答”、创作”,实现知识的长期沉淀与高效复用。 从存储工具到知识中枢,百度网盘实现了从被动存储”到主动管理”的升级,构建你的第二大脑”。 它支持多模�

  • AI日报:B站或将推“代号H” AI创作工具;智元发布哪吒机器人灵犀X2-N;宇树科技冲刺科创板IPO

    【AI日报】今日AI领域重要动态:1)B站将推出"代号H"AI创作工具,助力视频博主提升效率;2)智元发布双形态机器人"灵犀X2-N",展现强大适应性;3)宇树科技冲刺科创板IPO,获阿里腾讯投资,估值达120亿;4)开源多模态大模型EarthMind发布,革新地球观测数据分析;5)Gemini CLI更新,新增音视频处理与隐私保护功能;6)开源AI助手Glass上线,智能记录生活点滴;7)Claude将发布Neptune v3模型,数学能力突出;8)OpenAI宣布GPT-5将整合多种模型,实现全新突破。

  • 小米回应AI眼镜没有屏显功能:专注拍摄、AI语音交互

    在当前产品开发阶段,小米将重心放在打磨最核心的语音交互与AI能力上,力求让用户能够以最自然、高效的方式获取信息、完成指令。小米强调,这种设计选择有助于提升产品的核心性能,确保用户在拍摄和语音交互过程中获得流畅、便捷的体验。 针对用户关心的视频防抖效果问题,小米透露,新一代增强防抖算法已在紧锣密鼓的开发和测试中。该算法将显著优化视频在后�