首页 > 原创 > 关键词  > Claude最新资讯  > 正文

AI日报:Claude新增PDF文件处理功能;Runway推出摄像机控制;支持视频转视频的开源神器ComfyUI-MochiEdit

2024-11-04 15:27 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Claude3.5Sonnet模型增加PDF文件处理功能

Anthropic公司最新推出的Claude3.5Sonnet模型增加了PDF文件处理功能,用户可以通过该模型分析PDF文档中的文本和视觉元素,包括图像、图表和表格等,适用于多种场景。

【AiBase提要:】

📄 Claude3.5Sonnet模型新增PDF文件处理功能,支持文本和图像分析。

🖼️ 处理过程包括提取文本、转换页面为图像和综合分析三个步骤。

💰 处理费用根据文档长度和内容密度不同,用户需遵循文件大小和页数限制。

2、OpenAI完整版o1模型曝光:能力超强 可处理20万个token

我对最新曝光的OpenAI o1模型进行了点评。该模型被称为OpenAI最强大的模型,具备处理大量文本和分析图像的能力,特别适合高级推理和创造性任务。预计完整版将在今年晚些时候推出,引起了人工智能领域的广泛关注。用户们对o1模型的体验充满期待。

image.png

【AiBase提要:】

🌟 o1模型短暂开放,能处理约20万字和分析图像。

🚀 OpenAI称其为“最强大的模型”,适合高级推理和创造性任务。

📅 完整版尚未发布,预计将于今年晚些时候推出。

3、告别随机生成!Runway推出高级摄像机控制 像导演一样掌控镜头

Runway最新推出的高级摄像机控制功能让用户像导演一样掌控虚拟场景中的镜头移动,为AI视频创作带来前所未有的灵活性和掌控力。用户可以实现水平移动、环绕拍摄、位置探索、循环拍摄等多种效果,极大拓展了创作潜力。这一功能改变了用户对数码相机工作的看法,实现无缝过渡和增强场景构图。

【AiBase提要:】

🎥 用户可以像导演一样精准控制虚拟场景中的镜头移动,实现多种效果,包括水平移动、环绕拍摄等。

🔍 结合速度变化的循环拍摄功能,用户可以生成吸睛的视觉循环或过渡,极大拓展了创作潜力。

📽️ 高级摄像机控制功能让用户精确控制场景和主题的呈现方式,将观众带入一个栩栩如生、看似3D的世界。

详情链接:https://top.aibase.com/tool/runway

4、付费用户仅60+,月入却达3万!开源AI聊天工具LobeChat盈利模式大揭秘

LobeChat团队在开源AI聊天工具LobeChat的云服务公测中取得初步成绩,月收入突破3万元人民币,但面临付费转化率低的挑战。团队计划通过差异化功能和调整订阅模式解决问题,同时承诺解决产品设计中的挑战。盈利空间有限,将关注MRR指标确保可持续发展。

image.png

【AiBase提要:】

📈 LobeChat云服务一个月月收入突破3万元人民币,付费用户数达60+,展现商业化希望。

🔍 付费转化率低,仅不到1%,可能因市场竞争激烈和功能差距。

💡 LobeChat团队计划推出差异化功能和调整订阅模式,关注MRR指标确保可持续发展。

详情链接:https://lobechat.com/welcome

5、Diffusion 模型也能“举一反三”?阿里IC-LoRA给图像生成模型增加情节记忆力能力

阿里巴巴通义实验室最新研究表明,现有的文生图Diffusion Transformer模型已具备生成多张具有特定关系图像的能力,通过IC-LoRA的加持,模型变得更智能,只需少量样本即可学会新技能。研究人员设计了简单有效的流程,唤醒Diffusion模型的“上下文学习”能力,大大降低了AI模型的训练成本,让更多人参与AI创作。IC-LoRA的出现是AI图像生成领域的里程碑式进步,让每个人都能成为艺术家。

image.png

【AiBase提要:】

🔍 现有的文生图Diffusion Transformer模型已具备生成多张具有特定关系图像的能力

🧠 IC-LoRA加持使模型变得更智能,只需少量样本即可学会新技能

💡 设计简单有效的流程唤醒Diffusion模型的“上下文学习”能力

详情链接:https://ali-vilab.github.io/In-Context-LoRA-Page/

6、颠覆视频编辑!开源神器ComfyUI-MochiEdit 支持视频转视频,局部编辑

我想象过像操控文字一样编辑视频的情景,现在这个想法已经成为现实。ComfyUI-MochiEdit是一款基于ComfyUI和Genmo Mochi的开源视频编辑工具,它提供了一种全新的视频编辑思路:将视频转换为噪声,再通过目标提示重新采样噪声,生成全新视频。这种方法实现了局部编辑和视频转视频功能,让用户可以轻松修改视频的部分而无需处理整个视频。

【AiBase提要:】

⚙️ 视频转噪声再重采样,实现局部编辑和视频转视频功能

🎨 可将输入视频转换为具有特定风格或内容的新视频

🔧 用户可通过调整节点参数控制最终视频效果

详情链接:https://github.com/logtd/ComfyUI-MochiEdit?tab=readme-ov-file#mochi-unsampler

7、AI热潮推动!Python超越JavaScript,成GitHub最受欢迎编程语言

Python在GitHub开发者平台成功超越JavaScript,主要源自生成式人工智能热潮。GitHub指出AI并未降低开源项目代码质量,反而促进了AI项目贡献增长。开发者越来越多地将AI模型集成到工具链中,关注小型高效模型和AI代理自动化。2024年最受关注的开源AI项目是“ollama/ollama”,展示了AI领域的快速发展。

image.png

【AiBase提要:】

🌟 Python成功超越JavaScript,成为GitHub最受欢迎编程语言,受益于生成式人工智能热潮。

📈 生成式AI项目贡献增长59%,总数增加98%,推动了AI领域的发展。

🤖 GitHub表示AI并未降低开源项目代码质量,开发者对小型高效模型和AI代理自动化表现出浓厚兴趣。

8、Meta最新黑科技:Sparsh赋予机器人“人类级”触觉,灵巧操作不再是梦!

Meta FAIR 实验室近日发布了名为“Sparsh”的人工多模态指尖触觉感知技术,为机器人赋予近似人类的触觉感知能力,将在机器人操控领域带来革命性变化。该技术采用自监督学习,利用46万+触觉图像进行预训练,支持多种视觉触觉传感器,显著提升机器人在触觉感知任务上的性能。发布的Sparsh模型标志着AI触觉感知领域的重大突破,未来有望改变机器人与物理世界交互方式。

【AiBase提要:】

🤖 Sparsh模型采用自监督学习,预训练使用46万+触觉图像,无需人工标注数据,学习通用触觉表征。

👆 Sparsh模型支持多种视觉触觉传感器,如DIGIT、GelSight2017和GelSight Mini,提升机器人在触觉感知任务上的性能。

🌟 Sparsh模型在TacBench基准测试平台上表现出色,在力估计、滑动检测等任务中即使使用1%标注数据也能取得满意结果。

详情链接:

https://scontent-sjc3-1.xx.fbcdn.net/v/t39.2365-6/464969941_1107633400780143_7479102347328147009_n.pdf?_nc_cat=103&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=y8Ui1HEw3BQQ7kNvgFe-ePu&_nc_zt=14&_nc_ht=scontent-sjc3-1.xx&_nc_gid=AeaFsuZziasVwPfMQsEoZqu&oh=00_AYAMqxGq0ATCySDxZWB0ZT8BgSkogYmj13c9f3ytVtkmSg&oe=672DEEE4

9、全新开源音频模型Hertz-Dev:超低延迟,实现AI实时对话

在当今科技的浪潮中,对话式人工智能(AI)已经成为我们生活中的重要组成部分。Standard Intelligence Lab推出的Hertz-Dev开源音频模型,实现了超低延迟的实时对话AI,为人与机器之间的互动带来新的希望。

image.png

【AiBase提要:】

🌟 Hertz-Dev是一个开源的8.5亿参数音频模型,理论延迟仅为80毫秒,实际延迟为120毫秒,极大提升了实时对话体验。

💡 独立开发者和研究人员可以轻松使用先进的实时对话AI技术,无需庞大硬件支持,降低了门槛。

🚀 Hertz-Dev的广泛应用将推动人工智能在客户支持、智能家居等领域发展,让人与机器的互动更为自然。

详情链接:https://github.com/Standard-Intelligence/hertz-dev

10、前小鹏高管创办 AI 陪伴机器人公司,成功融资千万元!

作为前小鹏机器人产品设计负责人的孙兆治创办的上海珞博智能科技有限公司成功完成千万元级人民币的天使轮融资。公司专注于AI陪伴机器人领域,产品定位为“AI潮玩”,将兼顾桌面和可穿戴场景,具备多项创新特性。

【AiBase提要:】

🚀 珞博智能完成千万元级人民币的天使轮融资,主要来自行业投资者。

💡 公司成立于2024年1月,首款产品定位为“AI潮玩”,已完成前三轮原型机设计开发。

🔑 创始人孙兆治具有丰富的用户体验设计和工业设计背景,公司目标市场明确,面向年轻女性用户的情感陪伴需求。

举报

  • 相关推荐
  • 字节跳动AI Agent平台扣子Coze上线3.0版本:支持Openclaw、Claude Code一键接入

    字節跳動旗下AI開發平台扣子(Coze)發布3.0版本,實現手機、電腦及網頁全端更新。新版基於AI團隊協作架構,支援Agent創建、接入與調度,並可將任務放入項目空間拆解分配。用戶能自定義Agent團隊,接入本地工具如Claude Code、Codex CLI等,或使用雲端Agent長期在線協作。扣子3.0還提供行業技能包、職業模板及項目空間功能,支援多Agent分工協作,深化編程與視頻項目處理能力,實現多端協同工作體驗。

  • AI日报:Claude Opus 4.8上线;小红书PC端上线AI搜索助手点点;阶跃星辰开源Step 3.7 Flash 大模型

    今日AI领域亮点:Anthropic发布Claude Opus 4.8,性能提升且价格大降;小红书PC端上线AI搜索助手“点点”,基于真实笔记提供对话式交互;阶跃星辰开源Step 3.7 Flash模型,专注智能体生产化;拼多多加强AI治理,打击涉考作弊工具;Grok Build 0.2.7更新,新增多代理共享终端;小米宣布MiMo旧版模型2026年6月下线;阿里云百炼全面CLI化并开源;腾讯混元推出Hy-Memory智能记忆插件,提升记忆密度与效率。

  • 1541分!阿里 Qwen3.7-Max编程力登顶国产第一 全球仅次 Claude

    5月26日凌晨,全球权威三方编程榜单Code Arena放榜,阿里最新旗舰模型Qwen3.7-Max得分1541,超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等一众模型,仅次于Claude系列,在大模型厂商中排名全球第二,这也标志着在代码理解与生成领域,千问3.7成功跻身全球编程模型第一梯队。

  • 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计

    腾讯云在2026 AI产业应用大会上发布CodeBuddy+ Security,结合自研AI深度审计引擎与静态分析工具Xcheck,解决AI时代漏洞激增及传统代码审计瓶颈。该产品采用“双引擎协同+工程化约束”策略,通过AI引擎专攻深层逻辑漏洞,Xcheck处理已知特征漏洞,并引入独立二次校验和PoC验证,确保漏洞真实可修复。目前已在NVIDIA、Google等主流项目中发现并协助修复多个有效漏洞,并逐步接入腾讯内部发布流水线,面向企业开放试用。

  • Origin Code 携手技嘉与Intel,于 COMPUTEX 2026 发布全新 4R CUDIMM 内存

    Origin Code今日宣布推出4R CUDIMM DDR5内存方案,由技嘉联合打造,针对Intel Core Ultra平台优化。该方案采用四Rank架构与CKD设计,突破传统双Rank容量限制,单条可达128GB,在1.4V电压下实现DDR5-8000MT/s、CL42低延迟,将工作站级容量带入高端桌面,满足AI训练、8K视频剪辑等高负载需求,并将在COMPUTEX 2026展示。

  • 不止于连接!销售易智能体集成套件上线WorkBuddy

    在腾讯云AI大会上,销售易宣布其“智能体集成套件”正式上线腾讯桌面级AI智能体WorkBuddy,通过连接器与销售助手,使用户能便捷调用CRM核心业务能力,实现“入口级智能+业务级闭环”的深度融合。同时,销售易作为首批成员入选“腾讯AI共创营——Buddy+AI生态共创计划”,将与生态伙伴共同定义智能体在业务场景中的应用标准,推动AI从“能用”走向“好用”,加速业务场景的智能化落地。

  • DAU已死,Token无用:李彦宏用DAA终结了AI的度量衡之争

    ​今年4月,AI行业出现了一组让投资人坐立难安的数据:Anthropic年化营收突破300亿美元,正式超过OpenAI的约250亿美元。 但反常的是,据第三方机构估算,Claude的月活用户仅约为ChatGPT的2.44%。以及,Anthropic的模型训练投入只有OpenAI的四分之一。 更低的投入、更少的月活,却做到了更高的收入。 按移动互联网的DAU(日活用户数)铁律:用户规模越大、网络效应越强、商业化效率越

  • 腾讯乐享升级企业Agentic知识库,成为WorkBuddy企业版知识中枢

    6月5日,腾讯乐享发布企业Agentic知识库升级方案,定位从知识管理平台升级为知识中枢。方案具备三大核心能力:海量多源知识连接、AI驱动知识动态治理、原生Agent架构知识执行,实现知识从静态资产到生产力的转变。同时与WorkBuddy企业版深度集成,覆盖新人入职、客服售后、销售赋能等十大场景。已在金融、制造、零售等30多个行业落地,超30万家企业构建了可复用、可迭代的企业AI资产。

  • 收费才是DeepSeek的“成人礼”

    DeepSeek首次融资的“金主”名单,逐渐浮出水面。 6月3日,媒体报道称,DeepSeek计划募集约500亿元人民币,投后估值达3500亿至4000亿元。相比上月底传闻的700亿元,最新传出的融资规模略有收缩。 除了DeepSeek创始人梁文锋承诺投入200亿元外,腾讯考虑投资100亿元,宁德时代也可能投资50亿元。综合多方消息,其他潜在投资方包括国家集成电路产业投资基金、网易、京东、砺思资�

  • claude官网地址多少?claude怎么用?claude和chatGPT有和不同?

    一支前OpenAI的研究团队和工程师组成的团队宣布,他们开发了一个名为Claude的聊天机器人,旨在对抗ChatGPT,这是目前最先进的聊天系统之一。Claude的特点是能够检测和回避ChatGPT的潜在陷阱,如逻辑错误、不恰当的内容、重复性和无聊等。申请地址:https://www.anthropic.com/earlyaccess提交申请,审核通过后,Anthropic会发邮件通知你。

今日大家都在搜的词: