首页 > 业界 > 关键词  > AI最新资讯  > 正文

Llama3-V:全新开源视觉大语言模型正式亮相

2024-05-29 09:07 · 稿源:站长之家

AI界近日迎来了一项重大突破,一款名为Llama3-V的全新开源视觉大语言模型正式亮相。据称,Llama3-V基于Llama38B和siglip-so400m构建,被业界誉为最先进的视觉大语言模型之一。该模型不仅性能卓越,还具备快速的本地推理能力,极大地方便了用户的操作。

Llama3-V的关键特点包括:性能上优于LLaVA约10-20%,训练成本控制在 500 美元以下,并且能够与GPT4-V、Gemini Ultra和Claude3 等顶尖模型相媲美。此外,Llama3-V的权重、训练和推理代码将全部开源,鼓励更多开发者参与到模型的开发和优化中。

目前,Llama3-V已经在Hugging Face平台和Github上发布,迅速吸引了广泛的关注和好评。这款模型不仅在性能上超越了以往的同类产品,更以其较小的模型体积实现了与大型模型相媲美的性能,展现了其卓越的性价比。

Llama3-V的推出预示着AI领域将迎来新的发展机遇。业界普遍期待,这款模型将为人工智能领域带来哪些突破性的创新和变革。

了解更多信息,请访问:

HF Model:https://huggingface.co/mustafaaljadery/llama3v

Github Repo:https://github.com/mustafaaljadery/llama3v

Uploaded Image

随着Llama3-V的加入,AI领域的发展将更加多元化和充满活力。让我们共同期待Llama3-V在未来AI应用中的精彩表现。

举报

  • 相关推荐
  • 腾讯混元视频生成工具全新开源:人物不会“变脸” 物体不会“漂移”

    腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造,支持文本、图像、音频等多模态输入,能生成高质量定制视频。主要功能包括:单/多主体视频生成、视频配音、局部编辑等,在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景,如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源,其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

  • 宁德时代或将发布钠离子电池产品 全新钠离子动力电池正式亮相

    宁波时代宣布突破一项关键技术,全新锂电池动力系统正式亮相,并计划于今年12月启动量产工作。该新型电池不仅标志着动力能源领域的重大进步,还将为混合动力及纯电动市场带来新的活力。其能量密度达到行业领先水平,性能表现令人瞩目。此外,在安全性方面,该电池展现出超越传统铅酸电池的优势,通过一系列严谨测试,包括多面挤压、针刺、电锯穿透以及电池短路等极端条件,均未出现起火或爆炸现象,为用户提供了更安全的使用体验。实测数据显示,在-30摄氏度的极寒环境下,该电池从30%充电至80%仅需30分钟,且可用电量高达93%。即使在10%SOC(电池剩余电量)的状态下,车辆仍能维持120km/h的高速行驶,展现了卓越的低温性能。宁波时代动⼒锂电池的量产将推动电动车行业的持续发展与技术升级。

  • 球首款鸿蒙折叠电脑!华为MateBook Fold非凡大师正式亮相

    华为在5月19日新品发布会上推出全球首款鸿蒙折叠电脑MateBook Fold非凡大师。该产品采用超轻薄折叠设计,展开仅7.3mm厚、重1.16kg,配备18英寸全球最大折叠屏,合上后仅13英寸。提供锻影黑、天际白、云水蓝三种配色,采用锻压云纹、乌金腰线等设计元素,搭载鸿蒙操作系统5。余承东表示,该产品成功解决了大屏与便携难以兼得的难题,兼顾时尚美学与沉浸体验。

  • 鸿蒙电脑将于5月8日正式亮相 延续五大核心体验

    华为将于5月8日上午在深圳举办鸿蒙电脑技术与生态沟通会,正式发布首款搭载鸿蒙操作系统的国产电脑。这款产品被定义为从操作系统内核到应用层全栈自研的国产设备,标志着华为在PC领域迈出关键一步。

  • 小米Civi 5 Pro官宣5月发布:外观正式亮相

    小米集团总裁卢伟冰宣布,小米Civi5 Pro将于本月发布。新机采用圆形Deco三摄设计,配备横置闪光灯和徕卡Logo,辨识度高。核心配置搭载高通第四代骁龙8s处理器,采用台积电4nm工艺,CPU性能提升31%,GPU性能提升49%。配备1.5K全等深微曲屏,前后摄像头均针对暗光环境优化,内置5000万像素长焦镜头和6000mAh大电池。延续轻薄设计风格,在性能和影像能力上全面升级,有望成为Civi系列史上最强机型。

  • 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

    Kimi-Audio是一款开源的通用音频基础模型,在语音识别、音频理解、音频转文本、语音对话等任务中表现优异。该模型采用集成式架构设计,包含音频分词器、音频大模型和音频去分词器三大核心组件,支持多模态输入处理。在十余项音频基准测试中,Kimi-Audio均取得领先性能,如LibriSpeech ASR测试WER仅1.28%,VocalSound测试达94.85%。模型使用1300万小时多语言音频数据进行预训练,并构建了自动处理流水线生成高质量训练数据。评估结果显示,Kimi-Audio在语音识别、音乐理解、语音情感分析等任务上全面超越同类模型,在OpenAudioBench和VoiceBench对话测试中也表现最佳。目前模型代码、检查点和评估工具包已在GitHub开源。

  • 阿里千问3登顶球最强开源模型 已在通义App上线

    阿里集团推出新一代开源AI模型"通义千问3"(Qwen3),包含8款不同规格的混合推理模型。旗舰型号Qwen3-235B采用混合专家架构,创下国产模型性能新纪录;Qwen3-32B则以部署成本低、运行稳定见长。该系列在逻辑推理、编程、翻译等专业领域表现卓越,用户可通过通义App和网页版体验。升级后的通义App整合问答对话、图像理解与生成等多项功能,持续强化代码生成、数学解题等专业场景应用能力,致力于打造实用性强的个人AI助手。

  • Qwen3深夜正式开源,小尺寸也能大力出奇迹。

    阿里发布通义千问Qwen3大模型系列,包含8个不同规模的模型,从0.6B到235B参数全覆盖。亮点包括:1)全球顶尖模型能力;2)首个开源的混合推理模型;3)支持119种语言;4)部署成本仅为DeepSeek+R1的三分之一;5)支持MCP协议。其中235B旗舰模型性能对标顶级闭源模型,30B-MoE模型激活参数仅3B。所有模型均采用Apache2.0协议开源,支持商用。实测显示Qwen3在代码和写作方面优于DeepSeek

  • 上线仅7天!阿里通义千问3强势登顶全球开源模型宝座

    据了解,千问3是国内首个混合推理模型”,快思考”与慢思考”集成进同一个模型,对简单需求可低算力秒回”答案,对复杂问题可多步骤深度思考”,大大节省算力消耗。

  • “奥迪助手”来了!全新AUDI车型接入豆包大模型

    2025年4月24日上海车展期间,上汽奥迪发布全新A5L Sportback和首款量产车型E5 Sportback。同时推出与火山引擎合作开发的"奥迪助手"智能交互系统,基于豆包大模型实现自然对话体验。该系统将搭载于两款新车,并同步部署在车载端和手机APP端,支持跨设备对话记录同步。火山引擎为系统提供大模型技术支持,实现语音指令控制、车辆功能讲解等智能服务,并整合抖音、汽水音乐等内容生态。上汽奥迪表示,该合作将助力品牌打造更智能、个性化的产品矩阵。

热文

  • 3 天
  • 7天