首页 > 业界 > 关键词  > Claude3最新资讯  > 正文

AI日报:Claude 3 Haiku支持微调;Heygen推对口型工具;百度称萝卜快跑安全水平接近C919飞机

2024-07-12 16:24 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、Anthropic宣布Claude 3 Haiku支持微调

Anthropic宣布用户现在可以在Amazon Bedrock中微调最新模型Claude 3 Haiku,提高模型在特定任务上的效果。微调功能使用户能根据业务需求定制模型知识和能力,带来诸多好处。

image.png

【AiBase提要:】

🛠️ 用户可以通过高质量的提示-完成对进行微调,提升模型的专业能力。

⚡ Claude 3 Haiku是最快和最具成本效益的模型,适合专门任务使用。

🔒 客户的专有训练数据保持在AWS环境内,确保安全性和低风险。

详情链接:https://aws.amazon.com/cn/bedrock/claude/

2、Heygen推对口型工具 上传照片+音频即可说话、唱歌

最近,AI照片“复活术”在网络上掀起波澜,Heygen推出对口型工具,让照片中人物根据音频内容说话、唱歌,支持长达20秒音频,唇形与表情同步。Heygen融资5亿美元,由Benchmark领投,发展势头强劲。中国区用户受限制,令部分用户失望。Heygen利用生成式AI技术制作影片,已筹集7400万美元。

【AiBase提要:】

🌟 Heygen推出对口型工具,让照片中人物根据音频内容说话、唱歌,支持长达20秒音频。

💡 Heygen融资5亿美元,由Benchmark领投,发展势头强劲。

🔒 中国区用户受限制,令部分用户失望。Heygen利用生成式AI技术制作影片,已筹集7400万美元。

详情链接:https://labs.heygen.com/guest/expressive-photo-avatar

3、百度飞桨PaddleOCR发布v2.8.0新版本

PaddleOCR v2.8.0作为飞桨深度学习开源框架下的文字识别开发套件,发布了里程碑式的更新。这个版本引入了前沿的OCR技术,包括PaddleOCR算法模型挑战赛的冠军方案,如场景文本识别算法SVTRv2和表格识别算法SLANet-LCNetV2,为OCR领域树立了新的标准。项目结构经过深度优化,非核心模块被迁移至新仓库,使项目更专注于OCR核心技术。新版本解决了历史疑难问题,提升了用户体验,增强了稳定性、兼容性和性能。

【AiBase提要:】

🚀 PaddleOCR v2.8.0引入了前沿的OCR技术,包括SVTRv2和SLANet-LCNetV2,树立了OCR领域新标准。

🔧 项目结构优化,非核心模块迁移至新仓库,专注于OCR核心技术。

🌟 新版本解决历史疑难问题,提升用户体验,增强稳定性、兼容性和性能。

详情链接:https://github.com/PaddlePaddle/PaddleOCR

4、百度称萝卜快跑安全水平接近C919飞机

萝卜快跑公司推出第六代无人车,成功接入百度ApolloADFM大模型,安全性超过人类驾驶员10倍以上。百度对无人车安全性充满信心,每辆车及乘客投保500万元保险。运行数据显示出险率仅为人类司机的1/14,安全性表现卓越。百度Apollo自动驾驶技术已行驶超过1亿公里,无重大伤亡事故,成功实现武汉全域、全时空自动驾驶服务覆盖。

【AiBase提要:】

🚗 无人车安全性超过人类驾驶员10倍以上

💼 每辆车及乘客投保500万元保险

🛣️ 运行数据显示出险率仅为人类司机的1/14

5、智谱AI宣布开源视频理解模型CogVLM2-Video

智谱AI最新开源的CogVLM2-Video模型在视频理解领域取得显著进展,通过解决时间信息丢失问题,实现了优异的性能表现。该模型不仅在视频字幕生成和时间定位方面表现出色,还为视频生成和摘要等任务提供了强大工具。通过自动生成丰富的时间定位数据集,模型在公共视频理解基准上达到最新性能,展现出卓越的性能。

image.png

【AiBase提要:】

⏰ CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。

💡 模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,为训练提供丰富的时间定位数据。

🚀 CogVLM2-Video在多个公开评测集上展现了卓越性能,包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化评估指标上的优异表现。

详情链接:https://github.com/THUDM/CogVLM2

6、腾讯AI实验室的项目vta-ldm:输入视频生成对齐音频

随着文本到视频生成技术的进步,研究者们关注如何生成与视频输入在语义和时间上对齐的音频内容。腾讯AI实验室推出VTA-LDM模型,通过隐含对齐技术提供高效音频生成解决方案,拓展视频生成应用场景。

image.png

【AiBase提要:】

🎬 研究聚焦于生成与视频输入在语义和时间上对齐的音频内容。

🔍 探讨了视觉编码器、辅助嵌入和数据增强技术的重要性。

📈 实验结果显示模型在视频到音频生成领域达到先进水平,推动相关技术发展。

详情链接:https://top.aibase.com/tool/vta-ldmVTA-LDM

7、GPT-4o和Sonnet-3.5在视力测试中败北,VLM们竟是“盲人”?

这篇文章揭示了视觉语言模型(VLMs)在图像处理能力上的局限性,通过BlindTest测试发现它们并非像人类一样能准确理解图像细节。文章呼吁对VLMs的视觉理解能力持谨慎态度,警示AI并未达到完全替代人类的水平。

【AiBase提要:】

👓 VLMs在BlindTest测试中表现不佳,平均准确率仅56.20%

🔍 VLMs处理图像时缺乏精确的空间信息,难以判断图形重叠或相交

🔢 VLMs在数数时存在偏好,对数字5特别熟悉,表现不稳定

论文地址:https://arxiv.org/pdf/2407.06581

文章详细内容:https://www.chinaz.com/ainews/10186.shtml

8、商汤科技发布「东风」泰语大模型

商汤科技与泰国DTGO集团及Quinnnova联合发布了名为「东风」的泰语大模型(DTLM),这是全球首个能够在泰文、中文、英文三种语言环境下高效工作的AI大语言模型。该模型结合了商汤的基模型和算力优势以及DTGO对泰国语言文化的深入了解,旨在提供本地化的生成式AI体验。

【AiBase提要:】

⚙️ 「东风」是全球首个能够在泰文、中文、英文三种语言环境下高效工作的AI大语言模型。

🌏 模型结合了商汤的基模型和算力优势以及DTGO对泰国语言文化的深入了解,旨在提供本地化的生成式AI体验。

💡 模型将服务于泰国的个人用户和企业,满足多语言需求,同时为当地企业和政府客户提供创新的AI解决方案,推动泰国AI生态系统的发展。

9、三星 Galaxy AI 推出“数学辅导”新模式 告诉孩子解题技巧

三星在昨日的Unpacked活动上宣布了Galaxy AI的重大进展,推出了专为帮助儿童完成家庭作业而设计的AI助手。这一举措展现了三星在人工智能领域的雄心壮志,为智能手机市场带来新的竞争维度,推动整个行业向更智能、更有教育价值的方向发展。

image.png

【AiBase提要:】

🚀 三星发布Galaxy AI,覆盖高达2亿台设备,展现雄心壮志。

🔍 家庭作业助手基于Galaxy AI的“圆圈搜索”功能,引导孩子完成问题解决过程。

📚 家庭作业助手提供数学问题解决,培养孩子独立思考能力。

10、三家欧洲汽车制造商将集成ChatGPT功能 提升驾驶体验

Stellantis旗下的法国标致、德国欧宝和英国沃克斯豪尔将整合ChatGPT人工智能技术,通过SoundHound的ChatAI系统提供语音助手功能,改善驾驶体验。这一合作标志着汽车科技的发展,将带来更自然、流畅的驾驶交互体验。

【AiBase提要:】

🚗 Stellantis旗下Peugeot、Opel和Vauxhall将集成ChatGPT人工智能技术,提升汽车产品功能。

🌍 跨越17个国家,支持12种语言的语音助手系统,为更多驾驶者提供便利。

📱 SoundHound的ChatAI将带来更自然的驾驶交互体验,推动汽车科技发展。

11、谷歌正通过Gemini AI训练机器人,提高导航和任务完成能力

谷歌正在利用Gemini AI训练机器人,提高其导航和任务完成能力。通过Gemini1.5Pro,机器人可以执行自然语言指令,计划执行超出导航范围的任务。研究表明,Gemini让机器人成功执行用户指令的成功率高达90%。尽管处理指令需要一定时间,但这些机器人有望帮助人们完成各种任务,如找到遗失物品。

image.png

【AiBase提要:】

🤖 Gemini AI训练机器人,提高导航和任务完成能力

🧠 Gemini1.5Pro让机器人执行自然语言指令

🔍 研究发现Gemini让机器人能够计划执行超出导航范围的指令

12、OpenAI首次披露AGI评估标准:ChatGPT仅为第一

OpenAI公司公布了内部量表,用于追踪其大型语言模型在通用人工智能(AGI)方面的进展,展示了其在AGI领域的雄心。该举措为业界提供了衡量AI发展的新标准,引发了对AI安全和伦理的担忧。

【AiBase提要:】

🚀 OpenAI创建AGI评估标准,展示雄心

💡 量表分为五级,包括能创造新创新的AI和执行整个组织工作的AI

⏳ 专家对AGI实现时间表存在分歧,OpenAI与洛斯阿拉莫斯国家实验室合作探索AI在生物科学研究中的应用

举报

  • 相关推荐
  • “无限量”供应Claude,就是AI IDE们的百亿补贴

    Anthropic于2025年7月28日宣布,将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用,一次使用成本甚至高达数万美元,远远超过普通订阅预期。 同样在上个月,Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制,导致大量用户抱怨“实际上并非无限”,纷纷在社群中吐槽,迫使公司CEO出面道歉、甚至给出退款补偿。 这两�

  • GPT-5和Claude 4 Opus谁更强?用这个AI大模型对比工具一眼明了

    OpenAI正式发布GPT-5,与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出;Claude4Opus编程优异(72.5%)但数学较弱(33.9%);Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面,GPT-5和Gemini2.5Pro定价相近($1.25-$10),Claude4Opus较高($15-$75)。建议根据需求选择:GPT-5适合综合应用,Claude4Opus适合专业编程,Gemini2.5Pro适合长文档�

  • GPT-5正式发布:与Claude 4、Gemini 2.5等主流大模型谁更胜一筹?

    2025年8月7日,OpenAI正式发布GPT-5,官方称其为"最智能、最快速、最实用"的AI模型。GPT-5在数学推理能力上大幅提升,在AIME2025测试中取得94.6%的高分,处理速度也有明显改善。但与竞争对手相比仍存在差距:Claude4在代码生成和逻辑推理方面表现优异,支持200K token长文本;Gemini2.5具备2M超大上下文窗口和全模态支持;国产模型DeepSeek R1在中文理解和性价比方面具有优势。AI�

  • 三星推出Galaxy Buds3 FE耳机新品:带来更加智能、时尚的音频新体验

    三星电子于2025年8月18日发布新款智能耳机Galaxy Buds3 FE,主打亲民价格与高端性能。新品延续标志性刀锋设计,配备升级版主动降噪(ANC)和Galaxy AI功能,支持跨设备无缝切换和语音交互。通过增强型扬声器实现三频均衡音效,超宽频通话技术确保清晰沟通。耳机采用哑光双色半透明设计,支持与三星生态设备联动,提供智能翻译等AI功能。将于9月5日上市,提供银雾灰、暗羽黑两种配色,进一步扩展三星Galaxy生态体验。

  • 蓝耘元生代MaaS × Kimi K2 × Claude CodeUI,开启编程效率革命

    蓝戟元生代MaaS平台推出"Kimi K2×Claude CodeUI"AI编程解决方案,通过国产首个万亿参数MoE架构开源模型Kimi K2驱动Claude Code,实现本地化部署。该方案具有三大优势:1)成本直降90%,免翻墙使用;2)支持128K超长上下文处理,编程能力超越主流模型;3)提供600万token免费额度。平台采用交互式界面设计,支持移动端操作和WebSocket通信,集成文件管理、Git工具和会话追踪功能,�

  • AI日报:腾讯推音效生成工具AudioGenie;阿里推智能体WebWatcher;我国首个法律垂直大模型“小包公”发布

    本文介绍了AI领域最新动态:1)腾讯推出电影级音频生成工具AudioGenie,展现中国AI技术实力;2)阿里开源多模态智能体WebWatcher,突破现有系统局限;3)港大等高校联合推出3D建模技术OmniPart,实现模型组件独立性和清晰度;4)Meta发布无需标注数据的通用图像处理模型DINOv3;5)国内首个法律大模型"小包公"发布;6)ChatGPT移动端收入突破20亿美元;7)安卓厂商借鉴灵动岛设计,新芯片推动AI功能普及;8)欧洲AI公司推出仅94MB的超小模型;9)Claude Code新增编程教学模式;10)AI技术被滥用于电商恶意退款;11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

  • AI日报:百度推全球首批AI数字员工;Claude Opus4.1出世;谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态:1)Claude Opus4.1发布,编程能力提升74.5%;2)OpenAI开源GPT-OSS-120B和20B模型;3)谷歌DeepMind推出革命性3D世界模型Genie3;4)谷歌Gemini新增AI故事书生成功能;5)ElevenLabs推出商用AI音乐生成器;6)百度智能云发布首批AI数字员工;7)OpenAI估值或达5000亿美元;8)00后创业者推出云端AI协作开发工具Vinsoo;9)腾讯启动2026校园招聘,重点培养AI人才;10)马斯克宣�

  • BeauEver革新护肤流程,水油双相方案提升养护效率

    新西兰高端护肤品牌BeauEver推出两款双相油敷水,以92:8精准水油配比实现保湿与修护合一。产品通过摇匀即可快速融合水油相,5-10分钟完成高效护理,突破传统繁琐步骤。引力塑颜款侧重紧致亮肤,安肤愈颜款专注舒缓修护,针对不同肌肤需求提供分区护理可能。该系列从实际使用场景出发,解决现代人对高效多效合一的护肤诉求,为追求理性护肤的消费者提供新选择。

  • Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比:谁在性价比上更胜一筹?

    面对琳琅满目的大模型API,开发团队常陷入选择困境。文章指出,2024年既是机遇也是挑战的时代,闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例,前者综合能力强适合多语言场景,后者在代码生成和成本控制上优势明显。建议开发者明确需求,通过实际测试验证模型表现,理性选择最适合的方案。

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

今日大家都在搜的词: