AI日报：Claude新增PDF文件处理功能；Runway推出摄像机控制；支持视频转视频的开源神器ComfyUI-MochiEdit

2024-11-04 15:27 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Claude3.5Sonnet模型增加PDF文件处理功能

Anthropic公司最新推出的Claude3.5Sonnet模型增加了PDF文件处理功能，用户可以通过该模型分析PDF文档中的文本和视觉元素，包括图像、图表和表格等，适用于多种场景。

【AiBase提要:】
📄 Claude3.5Sonnet模型新增PDF文件处理功能，支持文本和图像分析。
🖼️ 处理过程包括提取文本、转换页面为图像和综合分析三个步骤。
💰 处理费用根据文档长度和内容密度不同，用户需遵循文件大小和页数限制。

2、OpenAI完整版o1模型曝光:能力超强可处理20万个token

我对最新曝光的OpenAI o1模型进行了点评。该模型被称为OpenAI最强大的模型，具备处理大量文本和分析图像的能力，特别适合高级推理和创造性任务。预计完整版将在今年晚些时候推出，引起了人工智能领域的广泛关注。用户们对o1模型的体验充满期待。

【AiBase提要:】
🌟 o1模型短暂开放，能处理约20万字和分析图像。
🚀 OpenAI称其为“最强大的模型”，适合高级推理和创造性任务。
📅 完整版尚未发布，预计将于今年晚些时候推出。

3、告别随机生成!Runway推出高级摄像机控制像导演一样掌控镜头

Runway最新推出的高级摄像机控制功能让用户像导演一样掌控虚拟场景中的镜头移动，为AI视频创作带来前所未有的灵活性和掌控力。用户可以实现水平移动、环绕拍摄、位置探索、循环拍摄等多种效果，极大拓展了创作潜力。这一功能改变了用户对数码相机工作的看法，实现无缝过渡和增强场景构图。

【AiBase提要:】
🎥 用户可以像导演一样精准控制虚拟场景中的镜头移动，实现多种效果，包括水平移动、环绕拍摄等。
🔍 结合速度变化的循环拍摄功能，用户可以生成吸睛的视觉循环或过渡，极大拓展了创作潜力。
📽️ 高级摄像机控制功能让用户精确控制场景和主题的呈现方式，将观众带入一个栩栩如生、看似3D的世界。
详情链接:https://top.aibase.com/tool/runway

4、付费用户仅60+，月入却达3万!开源AI聊天工具LobeChat盈利模式大揭秘

LobeChat团队在开源AI聊天工具LobeChat的云服务公测中取得初步成绩，月收入突破3万元人民币，但面临付费转化率低的挑战。团队计划通过差异化功能和调整订阅模式解决问题，同时承诺解决产品设计中的挑战。盈利空间有限，将关注MRR指标确保可持续发展。

【AiBase提要:】
📈 LobeChat云服务一个月月收入突破3万元人民币，付费用户数达60+，展现商业化希望。
🔍 付费转化率低，仅不到1%，可能因市场竞争激烈和功能差距。
💡 LobeChat团队计划推出差异化功能和调整订阅模式，关注MRR指标确保可持续发展。
详情链接:https://lobechat.com/welcome

5、Diffusion 模型也能“举一反三”?阿里IC-LoRA给图像生成模型增加情节记忆力能力

阿里巴巴通义实验室最新研究表明，现有的文生图Diffusion Transformer模型已具备生成多张具有特定关系图像的能力，通过IC-LoRA的加持，模型变得更智能，只需少量样本即可学会新技能。研究人员设计了简单有效的流程，唤醒Diffusion模型的“上下文学习”能力，大大降低了AI模型的训练成本，让更多人参与AI创作。IC-LoRA的出现是AI图像生成领域的里程碑式进步，让每个人都能成为艺术家。

【AiBase提要:】
🔍 现有的文生图Diffusion Transformer模型已具备生成多张具有特定关系图像的能力
🧠 IC-LoRA加持使模型变得更智能，只需少量样本即可学会新技能
💡 设计简单有效的流程唤醒Diffusion模型的“上下文学习”能力
详情链接:https://ali-vilab.github.io/In-Context-LoRA-Page/

6、颠覆视频编辑!开源神器ComfyUI-MochiEdit 支持视频转视频，局部编辑

我想象过像操控文字一样编辑视频的情景，现在这个想法已经成为现实。ComfyUI-MochiEdit是一款基于ComfyUI和Genmo Mochi的开源视频编辑工具，它提供了一种全新的视频编辑思路:将视频转换为噪声，再通过目标提示重新采样噪声，生成全新视频。这种方法实现了局部编辑和视频转视频功能，让用户可以轻松修改视频的部分而无需处理整个视频。

【AiBase提要:】
⚙️ 视频转噪声再重采样，实现局部编辑和视频转视频功能
🎨 可将输入视频转换为具有特定风格或内容的新视频
🔧 用户可通过调整节点参数控制最终视频效果
详情链接:https://github.com/logtd/ComfyUI-MochiEdit?tab=readme-ov-file#mochi-unsampler

7、AI热潮推动!Python超越JavaScript，成GitHub最受欢迎编程语言

Python在GitHub开发者平台成功超越JavaScript，主要源自生成式人工智能热潮。GitHub指出AI并未降低开源项目代码质量，反而促进了AI项目贡献增长。开发者越来越多地将AI模型集成到工具链中，关注小型高效模型和AI代理自动化。2024年最受关注的开源AI项目是“ollama/ollama”，展示了AI领域的快速发展。

【AiBase提要:】
🌟 Python成功超越JavaScript，成为GitHub最受欢迎编程语言，受益于生成式人工智能热潮。
📈 生成式AI项目贡献增长59%，总数增加98%，推动了AI领域的发展。
🤖 GitHub表示AI并未降低开源项目代码质量，开发者对小型高效模型和AI代理自动化表现出浓厚兴趣。

8、Meta最新黑科技:Sparsh赋予机器人“人类级”触觉，灵巧操作不再是梦!

Meta FAIR 实验室近日发布了名为“Sparsh”的人工多模态指尖触觉感知技术，为机器人赋予近似人类的触觉感知能力，将在机器人操控领域带来革命性变化。该技术采用自监督学习，利用46万+触觉图像进行预训练，支持多种视觉触觉传感器，显著提升机器人在触觉感知任务上的性能。发布的Sparsh模型标志着AI触觉感知领域的重大突破，未来有望改变机器人与物理世界交互方式。

【AiBase提要:】
🤖 Sparsh模型采用自监督学习，预训练使用46万+触觉图像，无需人工标注数据，学习通用触觉表征。
👆 Sparsh模型支持多种视觉触觉传感器，如DIGIT、GelSight2017和GelSight Mini，提升机器人在触觉感知任务上的性能。
🌟 Sparsh模型在TacBench基准测试平台上表现出色，在力估计、滑动检测等任务中即使使用1%标注数据也能取得满意结果。
详情链接:
https://scontent-sjc3-1.xx.fbcdn.net/v/t39.2365-6/464969941_1107633400780143_7479102347328147009_n.pdf?_nc_cat=103&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=y8Ui1HEw3BQQ7kNvgFe-ePu&_nc_zt=14&_nc_ht=scontent-sjc3-1.xx&_nc_gid=AeaFsuZziasVwPfMQsEoZqu&oh=00_AYAMqxGq0ATCySDxZWB0ZT8BgSkogYmj13c9f3ytVtkmSg&oe=672DEEE4

9、全新开源音频模型Hertz-Dev:超低延迟，实现AI实时对话

在当今科技的浪潮中，对话式人工智能（AI）已经成为我们生活中的重要组成部分。Standard Intelligence Lab推出的Hertz-Dev开源音频模型，实现了超低延迟的实时对话AI，为人与机器之间的互动带来新的希望。

【AiBase提要:】
🌟 Hertz-Dev是一个开源的8.5亿参数音频模型，理论延迟仅为80毫秒，实际延迟为120毫秒，极大提升了实时对话体验。
💡 独立开发者和研究人员可以轻松使用先进的实时对话AI技术，无需庞大硬件支持，降低了门槛。
🚀 Hertz-Dev的广泛应用将推动人工智能在客户支持、智能家居等领域发展，让人与机器的互动更为自然。
详情链接:https://github.com/Standard-Intelligence/hertz-dev

10、前小鹏高管创办 AI 陪伴机器人公司，成功融资千万元!

作为前小鹏机器人产品设计负责人的孙兆治创办的上海珞博智能科技有限公司成功完成千万元级人民币的天使轮融资。公司专注于AI陪伴机器人领域，产品定位为“AI潮玩”，将兼顾桌面和可穿戴场景，具备多项创新特性。

【AiBase提要:】
🚀 珞博智能完成千万元级人民币的天使轮融资，主要来自行业投资者。
💡 公司成立于2024年1月，首款产品定位为“AI潮玩”，已完成前三轮原型机设计开发。
🔑 创始人孙兆治具有丰富的用户体验设计和工业设计背景，公司目标市场明确，面向年轻女性用户的情感陪伴需求。

（举报）

相关推荐

关键词：

Claude

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日AI领域动态：阿里夸克启动"C计划"布局对话式AI应用，剑指字节"豆包"；Anthropic推出Claude Code网页版，支持浏览器直接编码；谷歌Veo新增视频"精确编辑"功能，提升创作效率；Fish Audio升级S1语音克隆模型，10秒即可复刻真人声音；AWS美东故障影响ChatGPT等多项服务；DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈；Adobe推出AI Foundry服务，支持企业定制品牌AI模型；Anthropic发布Claude for Life Sciences，加速生命科学研究。

AI 对话式AI 阿里巴巴
EUDR认证大概需要多少钱？绿舟为您带来费用详解

欧盟《零毁林法案》(EUDR)将于2025年底实施，中国出口企业面临合规挑战。认证成本因企业规模、供应链复杂度而异，中小型企业费用约数万元，大型企业可达数十万元。核心支出包括供应链追溯、风险评估及第三方审核。案例显示认证橡胶原料溢价达200美元/吨，但长期可通过价格溢价抵消部分成本。建议企业提前规划，采用区块链等技术提升追溯效率，并争取将中国列为低风险国家以简化流程。合规虽增加短期成本，却是提升国际竞争力和供应链转型的契机。

EUDR认证欧盟零毁林法案绿色通行证
无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

1980年代汉斯·莫拉维克提出人工智能悖论：计算机在逻辑推理等高级智能活动中易超越人类，但实现儿童般的感知与常识认知却极困难。智能驾驶的核心挑战在于让AI理解物理世界并进行因果推理。视觉-语言-行动模型通过融合多模态数据，使系统具备推理驾驶能力，推动行业迈向L5完全自动驾驶。面对VLA模型的数据处理、训练效率和成本挑战，阿里云等超级AI云提供全栈解决方案，从算力基础设施到开源生态，加速技术迭代与商业化落地。

人工智能莫拉维克悖论智能驾驶
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑
健康生活从饮食开始三星Galaxy Watch抗氧化指数体验解析

三星Galaxy Watch8推出革命性抗氧化指数功能，通过手腕实时测量类胡萝卜素水平。该技术将实验室级传感器微型化，用户仅需5秒扫描即可获得精准数据，将日常饮食转化为可量化指标。类胡萝卜素作为关键抗氧化物质，能有效反映果蔬摄入量，帮助用户追踪长期营养状况。结合睡眠、压力等综合数据，该功能为健康老龄化提供全面洞察，重新定义可穿戴设备在预防性医疗中的角色。

抗氧化指数营养追踪健康生活
绿舟EUDR合规已成功交付！4周完成，领先行业！

绿舟成为行业首批成功交付欧盟零毁林法规(EUDR)合规申报的服务商，最快4周完成合规，率先提供全流程服务。距法规执行仅剩两个月，绿舟凭借专业团队、标准化流程和全链路支持，帮助企业快速应对合规挑战，规避货物扣留、高额罚款等风险，抢占欧盟市场先机。

EUDR合规跨境贸易环保合规
如何证明企业已满足EUDR认证要求？绿舟带来三大核心要素解析

欧盟《零毁林法案》(EUDR)将于2025年底全面实施，企业需通过完整体系证明合规性。核心要求包括：建立可追溯的供应链数据，记录产品从原料到成品的完整路径；开展尽职调查，涵盖风险评估、缓解措施及持续监控记录；向欧盟提交附证明文件的尽职调查声明。企业需建立常态化监控机制，并保存数据至少五年。建议采用卫星遥感、区块链等技术提升数据透明度，借助现有认证体系降低成本。系统性合规不仅是法律要求，更是企业赢得欧盟市场竞争优势的关键起点。

欧盟零毁林法案 EUDR合规供应链可追溯性
claude官网地址多少？claude怎么用？claude和chatGPT有和不同？

一支前OpenAI的研究团队和工程师组成的团队宣布，他们开发了一个名为Claude的聊天机器人，旨在对抗ChatGPT，这是目前最先进的聊天系统之一。Claude的特点是能够检测和回避ChatGPT的潜在陷阱，如逻辑错误、不恰当的内容、重复性和无聊等。申请地址:https://www.anthropic.com/earlyaccess提交申请，审核通过后，Anthropic会发邮件通知你。

Claude OpenAI 聊天系统
锐我科技正式获得Gala授权《飞飞：无限宇宙》即将启程

国家新闻出版署日前公布新版号，经典游戏《飞飞》续作《飞飞：无限宇宙》国服获批。该游戏由GALA研发、锐我科技独家代理运营，将实现三端互通，继承原版飞行系统、人物形象和社交玩法，并优化画面与内容。运营团队正全力推进本地化适配及测试筹备，预约站已上线，玩家可关注官方信息获取测试资格。

飞飞:无限宇宙 Flyff Universe
双十一智能手表怎么选？这几款三星Galaxy Watch千万别错过

双十一选购智能手表时，三星Galaxy Watch系列提供多样选择：Galaxy Watch8设计轻盈简约，适合日常佩戴；Watch8 Classic采用经典旋转表圈，风格优雅百搭；Watch Ultra则主打坚固耐用，专为户外运动设计。三款均搭载全面健康监测功能，包括睡眠分析、跑步教练指导及身体成分测量，帮助用户提升生活质量。根据个人审美与需求，可轻松挑选心仪款式。

智能手表三星Galaxy Watch

今日大家都在搜的词：

热文

3 天
7天

AI日报：Claude新增PDF文件处理功能；Runway推出摄像机控制；支持视频转视频的开源神器ComfyUI-MochiEdit

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

EUDR认证大概需要多少钱？绿舟为您带来费用详解

无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

健康生活从饮食开始三星Galaxy Watch抗氧化指数体验解析

绿舟EUDR合规已成功交付！4周完成，领先行业！

如何证明企业已满足EUDR认证要求？绿舟带来三大核心要素解析

claude官网地址多少？claude怎么用？claude和chatGPT有和不同？

锐我科技正式获得Gala授权《飞飞：无限宇宙》即将启程

双十一智能手表怎么选？这几款三星Galaxy Watch千万别错过

今日大家都在搜的词：

热文

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

雷军回应小米双11战绩：谢谢大家支持

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

卢伟冰：小米手机双11连续三年国产销量第一

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

雷军回应小米双11战绩：谢谢大家支持

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

卢伟冰：小米手机双11连续三年国产销量第一

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

站长商机