AI日报：Claude 3 Haiku支持微调；Heygen推对口型工具；百度称萝卜快跑安全水平接近C919飞机

2024-07-12 16:24 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、Anthropic宣布Claude 3 Haiku支持微调

Anthropic宣布用户现在可以在Amazon Bedrock中微调最新模型Claude 3 Haiku，提高模型在特定任务上的效果。微调功能使用户能根据业务需求定制模型知识和能力，带来诸多好处。

【AiBase提要:】
🛠️ 用户可以通过高质量的提示-完成对进行微调，提升模型的专业能力。
⚡ Claude 3 Haiku是最快和最具成本效益的模型，适合专门任务使用。
🔒 客户的专有训练数据保持在AWS环境内，确保安全性和低风险。
详情链接:https://aws.amazon.com/cn/bedrock/claude/

2、Heygen推对口型工具上传照片+音频即可说话、唱歌

最近，AI照片“复活术”在网络上掀起波澜，Heygen推出对口型工具，让照片中人物根据音频内容说话、唱歌，支持长达20秒音频，唇形与表情同步。Heygen融资5亿美元，由Benchmark领投，发展势头强劲。中国区用户受限制，令部分用户失望。Heygen利用生成式AI技术制作影片，已筹集7400万美元。

【AiBase提要:】
🌟 Heygen推出对口型工具，让照片中人物根据音频内容说话、唱歌，支持长达20秒音频。
💡 Heygen融资5亿美元，由Benchmark领投，发展势头强劲。
🔒 中国区用户受限制，令部分用户失望。Heygen利用生成式AI技术制作影片，已筹集7400万美元。
详情链接:https://labs.heygen.com/guest/expressive-photo-avatar

3、百度飞桨PaddleOCR发布v2.8.0新版本

PaddleOCR v2.8.0作为飞桨深度学习开源框架下的文字识别开发套件，发布了里程碑式的更新。这个版本引入了前沿的OCR技术，包括PaddleOCR算法模型挑战赛的冠军方案，如场景文本识别算法SVTRv2和表格识别算法SLANet-LCNetV2，为OCR领域树立了新的标准。项目结构经过深度优化，非核心模块被迁移至新仓库，使项目更专注于OCR核心技术。新版本解决了历史疑难问题，提升了用户体验，增强了稳定性、兼容性和性能。

【AiBase提要:】
🚀 PaddleOCR v2.8.0引入了前沿的OCR技术，包括SVTRv2和SLANet-LCNetV2，树立了OCR领域新标准。
🔧 项目结构优化，非核心模块迁移至新仓库，专注于OCR核心技术。
🌟 新版本解决历史疑难问题，提升用户体验，增强稳定性、兼容性和性能。
详情链接:https://github.com/PaddlePaddle/PaddleOCR

4、百度称萝卜快跑安全水平接近C919飞机

萝卜快跑公司推出第六代无人车，成功接入百度ApolloADFM大模型，安全性超过人类驾驶员10倍以上。百度对无人车安全性充满信心，每辆车及乘客投保500万元保险。运行数据显示出险率仅为人类司机的1/14，安全性表现卓越。百度Apollo自动驾驶技术已行驶超过1亿公里，无重大伤亡事故，成功实现武汉全域、全时空自动驾驶服务覆盖。

【AiBase提要:】
🚗 无人车安全性超过人类驾驶员10倍以上
💼 每辆车及乘客投保500万元保险
🛣️ 运行数据显示出险率仅为人类司机的1/14

5、智谱AI宣布开源视频理解模型CogVLM2-Video

智谱AI最新开源的CogVLM2-Video模型在视频理解领域取得显著进展，通过解决时间信息丢失问题，实现了优异的性能表现。该模型不仅在视频字幕生成和时间定位方面表现出色，还为视频生成和摘要等任务提供了强大工具。通过自动生成丰富的时间定位数据集，模型在公共视频理解基准上达到最新性能，展现出卓越的性能。

【AiBase提要:】
⏰ CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入，解决了现有视频理解模型在处理时间信息丢失问题上的局限。
💡 模型利用自动化的时间定位数据构建方法，生成了3万条与时间相关的视频问答数据，为训练提供丰富的时间定位数据。
🚀 CogVLM2-Video在多个公开评测集上展现了卓越性能，包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化评估指标上的优异表现。
详情链接:https://github.com/THUDM/CogVLM2

6、腾讯AI实验室的项目vta-ldm：输入视频生成对齐音频

随着文本到视频生成技术的进步，研究者们关注如何生成与视频输入在语义和时间上对齐的音频内容。腾讯AI实验室推出VTA-LDM模型，通过隐含对齐技术提供高效音频生成解决方案，拓展视频生成应用场景。

【AiBase提要:】
🎬 研究聚焦于生成与视频输入在语义和时间上对齐的音频内容。
🔍 探讨了视觉编码器、辅助嵌入和数据增强技术的重要性。
📈 实验结果显示模型在视频到音频生成领域达到先进水平，推动相关技术发展。
详情链接:https://top.aibase.com/tool/vta-ldmVTA-LDM

7、GPT-4o和Sonnet-3.5在视力测试中败北，VLM们竟是“盲人”？

这篇文章揭示了视觉语言模型（VLMs）在图像处理能力上的局限性，通过BlindTest测试发现它们并非像人类一样能准确理解图像细节。文章呼吁对VLMs的视觉理解能力持谨慎态度，警示AI并未达到完全替代人类的水平。

【AiBase提要:】
👓 VLMs在BlindTest测试中表现不佳，平均准确率仅56.20%
🔍 VLMs处理图像时缺乏精确的空间信息，难以判断图形重叠或相交
🔢 VLMs在数数时存在偏好，对数字5特别熟悉，表现不稳定
论文地址:https://arxiv.org/pdf/2407.06581
文章详细内容：https://www.chinaz.com/ainews/10186.shtml

8、商汤科技发布「东风」泰语大模型

商汤科技与泰国DTGO集团及Quinnnova联合发布了名为「东风」的泰语大模型（DTLM），这是全球首个能够在泰文、中文、英文三种语言环境下高效工作的AI大语言模型。该模型结合了商汤的基模型和算力优势以及DTGO对泰国语言文化的深入了解，旨在提供本地化的生成式AI体验。

【AiBase提要:】
⚙️ 「东风」是全球首个能够在泰文、中文、英文三种语言环境下高效工作的AI大语言模型。
🌏 模型结合了商汤的基模型和算力优势以及DTGO对泰国语言文化的深入了解，旨在提供本地化的生成式AI体验。
💡 模型将服务于泰国的个人用户和企业，满足多语言需求，同时为当地企业和政府客户提供创新的AI解决方案，推动泰国AI生态系统的发展。

9、三星 Galaxy AI 推出“数学辅导”新模式告诉孩子解题技巧

三星在昨日的Unpacked活动上宣布了Galaxy AI的重大进展，推出了专为帮助儿童完成家庭作业而设计的AI助手。这一举措展现了三星在人工智能领域的雄心壮志，为智能手机市场带来新的竞争维度，推动整个行业向更智能、更有教育价值的方向发展。

【AiBase提要:】
🚀 三星发布Galaxy AI，覆盖高达2亿台设备，展现雄心壮志。
🔍 家庭作业助手基于Galaxy AI的“圆圈搜索”功能，引导孩子完成问题解决过程。
📚 家庭作业助手提供数学问题解决，培养孩子独立思考能力。

10、三家欧洲汽车制造商将集成ChatGPT功能提升驾驶体验

Stellantis旗下的法国标致、德国欧宝和英国沃克斯豪尔将整合ChatGPT人工智能技术，通过SoundHound的ChatAI系统提供语音助手功能，改善驾驶体验。这一合作标志着汽车科技的发展，将带来更自然、流畅的驾驶交互体验。

【AiBase提要:】
🚗 Stellantis旗下Peugeot、Opel和Vauxhall将集成ChatGPT人工智能技术，提升汽车产品功能。
🌍 跨越17个国家，支持12种语言的语音助手系统，为更多驾驶者提供便利。
📱 SoundHound的ChatAI将带来更自然的驾驶交互体验，推动汽车科技发展。

11、谷歌正通过Gemini AI训练机器人，提高导航和任务完成能力

谷歌正在利用Gemini AI训练机器人，提高其导航和任务完成能力。通过Gemini1.5Pro，机器人可以执行自然语言指令，计划执行超出导航范围的任务。研究表明，Gemini让机器人成功执行用户指令的成功率高达90%。尽管处理指令需要一定时间，但这些机器人有望帮助人们完成各种任务，如找到遗失物品。

【AiBase提要:】
🤖 Gemini AI训练机器人，提高导航和任务完成能力
🧠 Gemini1.5Pro让机器人执行自然语言指令
🔍 研究发现Gemini让机器人能够计划执行超出导航范围的指令

12、OpenAI首次披露AGI评估标准：ChatGPT仅为第一级

OpenAI公司公布了内部量表，用于追踪其大型语言模型在通用人工智能（AGI）方面的进展，展示了其在AGI领域的雄心。该举措为业界提供了衡量AI发展的新标准，引发了对AI安全和伦理的担忧。

【AiBase提要:】
🚀 OpenAI创建AGI评估标准，展示雄心
💡 量表分为五级，包括能创造新创新的AI和执行整个组织工作的AI
⏳ 专家对AGI实现时间表存在分歧，OpenAI与洛斯阿拉莫斯国家实验室合作探索AI在生物科学研究中的应用

（举报）

相关推荐

关键词：

Claude3

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日AI领域动态：阿里夸克启动"C计划"布局对话式AI应用，剑指字节"豆包"；Anthropic推出Claude Code网页版，支持浏览器直接编码；谷歌Veo新增视频"精确编辑"功能，提升创作效率；Fish Audio升级S1语音克隆模型，10秒即可复刻真人声音；AWS美东故障影响ChatGPT等多项服务；DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈；Adobe推出AI Foundry服务，支持企业定制品牌AI模型；Anthropic发布Claude for Life Sciences，加速生命科学研究。

AI 对话式AI 阿里巴巴
EUDR认证大概需要多少钱？绿舟为您带来费用详解

欧盟《零毁林法案》(EUDR)将于2025年底实施，中国出口企业面临合规挑战。认证成本因企业规模、供应链复杂度而异，中小型企业费用约数万元，大型企业可达数十万元。核心支出包括供应链追溯、风险评估及第三方审核。案例显示认证橡胶原料溢价达200美元/吨，但长期可通过价格溢价抵消部分成本。建议企业提前规划，采用区块链等技术提升追溯效率，并争取将中国列为低风险国家以简化流程。合规虽增加短期成本，却是提升国际竞争力和供应链转型的契机。

EUDR认证欧盟零毁林法案绿色通行证
荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

本期AI日报聚焦多领域技术突破：美团发布全模态交互模型LongCat-Flash-Omni；阿里通义千问Qwen3-Max上线深度思考功能；百度文心5.0升级多模态生成能力；谷歌确认Gemini3年内发布并整合至苹果Siri；OpenAI向多国开放Sora2视频工具；云存储与AI开发工具持续优化，展现行业加速迭代态势。

AI 多模态实时交互
绿舟EUDR合规已成功交付！4周完成，领先行业！

绿舟成为行业首批成功交付欧盟零毁林法规(EUDR)合规申报的服务商，最快4周完成合规，率先提供全流程服务。距法规执行仅剩两个月，绿舟凭借专业团队、标准化流程和全链路支持，帮助企业快速应对合规挑战，规避货物扣留、高额罚款等风险，抢占欧盟市场先机。

EUDR合规跨境贸易环保合规
你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略，3步把曝光拉满

GEO指数是AI搜索时代的品牌可见度衡量指标，量化品牌被AI引用、推荐和对比的频率与深度。与传统SEO比拼搜索排名不同，GEO衡量的是品牌在AI回答中的提及率和好感度。数据显示，高GEO指数品牌在AI搜索中的转化率是传统SEO的3.4倍。文章通过案例说明，企业可通过监控竞品差距、补充缺失内容关键词、优化AI提示词等策略提升GEO指数。建议立即使用AIBase平台免费体验GEO监控，把握AI搜索新机遇。

GEO指数 AI搜索品牌能见度
如何证明企业已满足EUDR认证要求？绿舟带来三大核心要素解析

欧盟《零毁林法案》(EUDR)将于2025年底全面实施，企业需通过完整体系证明合规性。核心要求包括：建立可追溯的供应链数据，记录产品从原料到成品的完整路径；开展尽职调查，涵盖风险评估、缓解措施及持续监控记录；向欧盟提交附证明文件的尽职调查声明。企业需建立常态化监控机制，并保存数据至少五年。建议采用卫星遥感、区块链等技术提升数据透明度，借助现有认证体系降低成本。系统性合规不仅是法律要求，更是企业赢得欧盟市场竞争优势的关键起点。

欧盟零毁林法案 EUDR合规供应链可追溯性
健康生活从饮食开始三星Galaxy Watch抗氧化指数体验解析

三星Galaxy Watch8推出革命性抗氧化指数功能，通过手腕实时测量类胡萝卜素水平。该技术将实验室级传感器微型化，用户仅需5秒扫描即可获得精准数据，将日常饮食转化为可量化指标。类胡萝卜素作为关键抗氧化物质，能有效反映果蔬摄入量，帮助用户追踪长期营养状况。结合睡眠、压力等综合数据，该功能为健康老龄化提供全面洞察，重新定义可穿戴设备在预防性医疗中的角色。

抗氧化指数营养追踪健康生活
排队5小时，互动3分钟，年轻人流行“调戏”景区NPC

当被NPC“李世民”现场封为大唐郡主、骠骑大将军时，游客们大概就知道，这景区来对了。最近，因为在全国各大景区还原李世民等经典角色，演员郑国霖翻红，成了名副其实的“打工皇帝”、景区NPC顶流。有媒体报道，不久前的十一假期，他七天内去了七个城市，最忙的一天只睡三四个小时。 NPC原指游戏中的非玩家角色（Non-Player Character），但在近几年，一些景区会安排

景区NPC 郑国霖李世民
锐我科技正式获得Gala授权《飞飞：无限宇宙》即将启程

国家新闻出版署日前公布新版号，经典游戏《飞飞》续作《飞飞：无限宇宙》国服获批。该游戏由GALA研发、锐我科技独家代理运营，将实现三端互通，继承原版飞行系统、人物形象和社交玩法，并优化画面与内容。运营团队正全力推进本地化适配及测试筹备，预约站已上线，玩家可关注官方信息获取测试资格。

飞飞:无限宇宙 Flyff Universe
数智驱动，共赢跨境｜RixDesk亮相ICBE 2025，重磅发布“跨屏全媒介广告投放解决方案”

在ICBE2025深圳跨境电商博览会上，RixDesk发布“跨屏全媒介广告投放解决方案”。该方案针对用户多设备切换导致的广告触点分散问题，通过跨屏整合、一次创建全媒介触达、智能优化及数据闭环四大核心功能，帮助品牌实现多平台高效投放，提升传播效果与ROI。系统利用AI技术自动分发内容、优化策略，助力跨境品牌在复杂流量环境中精准获客与持续增长。

跨境电商广告投放数字营销

今日大家都在搜的词：

热文

3 天
7天

AI日报：Claude 3 Haiku支持微调；Heygen推对口型工具；百度称萝卜快跑安全水平接近C919飞机

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

EUDR认证大概需要多少钱？绿舟为您带来费用详解

荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

绿舟EUDR合规已成功交付！4周完成，领先行业！

你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略，3步把曝光拉满

如何证明企业已满足EUDR认证要求？绿舟带来三大核心要素解析

健康生活从饮食开始三星Galaxy Watch抗氧化指数体验解析

排队5小时，互动3分钟，年轻人流行“调戏”景区NPC

锐我科技正式获得Gala授权《飞飞：无限宇宙》即将启程

数智驱动，共赢跨境｜RixDesk亮相ICBE 2025，重磅发布“跨屏全媒介广告投放解决方案”

今日大家都在搜的词：

热文

OPPO Reno15系列定档11月17日发布

焕新享界S9开卖72小时预订突破8000台

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

鸿蒙智行：智界R7累计交付量破10万台

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为Mate70 Air官宣今日开启预售

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

站长商机