首页 > 原创 > 关键词  > 正文

AI日报:OpenAI重磅上线Sora;智谱AI免费多模态模型GLM-4V-Flash;腾讯云打造AI代码助手

2024-12-10 15:25 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI正式上线Sora,ChatGPT Pro用户可无限生成、最长20秒

OpenAI 在 "ship-mas" 系列活动中发布了 Sora Turbo 视频生成 AI,支持生成20秒1080p 视频,用户可通过文本、图片或视频进行创作,具有多种风格和剪辑功能。该平台强调创意表达与内容安全,用户可浏览其他创作者的视频。

image.png

【AiBase 提要:】

🌟 Sora Turbo 支持生成最高1080p 分辨率的20秒视频。

🎨 用户可以使用多种工具进行创意视频制作。

🔒 所有生成视频均附加水印和 C2PA 元数据确保安全。

详情链接:https://sora.com/

2、智谱AI上线免费多模态模型GLM-4V-Flash:图像处理精确度提升

北京智谱华章科技有限公司推出了其首个免费多模态API——GLM-4V-Flash,旨在提升图像处理的精确度,降低开发者的使用门槛。该模型支持多种语言,并具备多项高级图像处理功能,如图像描述生成和视觉问答等,能够为特定行业提供精准解决方案。

【AiBase提要:】

🌐 GLM-4V-Flash是首个免费多模态API,支持26种语言,降低开发门槛。

📊 具备图像描述生成、分类、视觉推理等高级功能,适用于多个行业。

🚀 该模型已在社交媒体、教育、美容等领域展现出显著效益。

详情链接:https://www.bigmodel.cn/console/trialcenter

3、腾讯云AI代码助手上线,基于混元大模型打造

腾讯云推出的AI代码助手旨在通过预测和提供代码建议来帮助程序员提升开发效率。该工具利用混元大模型,能够深入理解代码上下文,提供精准的代码补全建议,超越传统的关键词匹配方式。它不仅能适应程序员的编码风格,还在多个关键场景中展现了强大的编码辅助能力,如生成正则表达式、快速生成前端页面以及清晰解读复杂代码。

微信截图_20241210085836.png

【AiBase提要:】

⚙️ AI代码助手通过深入理解代码上下文,提供精准的代码补全建议,显著提升开发效率。

📈 该助手能够学习程序员的编码风格,提供定制化的代码补全,贴合个人习惯。

🔍 通过混元大模型,AI代码助手在多个场景中展现强大能力,包括生成正则表达式和快速适配新接口规范。

4、可灵AI API V1.5模型新增标准std模式、V1.0模型新增运动笔刷

北京快手科技有限公司近日推出了可灵AI的API V1.5模型标准模式和V1.0模型的“运动笔刷”功能。这些更新旨在提升用户体验,增强艺术创作的灵活性与效率。V1.5模型以其卓越的效果和快速的处理速度为用户提供了高性价比的选择,而V1.0模型的新功能则允许用户为图片中的人物或物体指定运动轨迹,带来了更精准的运动控制和生动的表现。

image.png

【AiBase提要:】

✨ V1.5模型标准模式提供了出色的效果和快速的处理速度,提升用户体验。

🖌️ V1.0模型新增的“运动笔刷”功能允许用户指定运动轨迹,实现精准控制。

🌟 新功能丰富了可灵AI的功能,为视觉艺术创作带来了创新的可能性。

5、书生·万象多模态大模型InternVL2.5开源 性能媲美GPT-4o

上海 AI 实验室推出的书生·万象InternVL2.5模型在多模态理解基准上取得了超过70%的准确率,成为首个开源模型与商业模型如GPT-4o和Claude-3.5-Sonnet相媲美。该模型通过链式思考推理技术提升了性能,并在多个领域展现了强大的测试时间可扩展性及多学科推理能力。

image.png

【AiBase提要:】

🚀 InternVL2.5模型在多模态理解基准上达到了超过70%的准确率,表现出色。

📈 通过链式思考推理技术,该模型实现了3.7个百分点的性能提升,展现了强大的可扩展性。

🌐 开源特性使得研究人员和开发者能够自由访问和使用该模型,推动多模态AI技术的发展。

详情链接:https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942

6、Swift Ventures发布AI公司指数明确人工智能投资标准

Swift Ventures推出了一项新的人工智能公司指数,旨在帮助投资者识别真正进行AI技术投资的上市公司。该指数分析了数千份数据,发现尽管公司在财报中频繁提及AI,实际大规模投资的公司却寥寥无几。当前追踪的90家公司在AI研究和人才密度方面表现突出,年增长率远超市场平均水平。

【AiBase提要:】

📊 该指数追踪约90家公司,依据AI研究投资、人才密度和AI收入进行评分。

💡 投资AI研究的公司,其平均毛利润是未投资公司的两倍,显示出研究与盈利能力的正相关。

🚀 一些低调公司在AI领域表现出色,年增长率超过50%,表明AI转型已超越大技术公司。

7、量子计算惊天一跃!谷歌Willow芯片5分钟搞定138亿年计算,OpenAI都看傻了

谷歌的Willow量子芯片在量子计算领域取得了划时代的突破,成功将计算任务从传统计算机需要的10^25年缩短至仅5分钟,展示了量子技术的巨大潜力。通过精细的工程设计,Willow在增加量子比特数量的同时,显著降低了计算误差,推动了量子计算的进步。

image.png

【AiBase提要:】

⚡ Willow芯片在量子计算中实现了低于阈值的误差控制,错误率显著降低。

⏱️ 计算速度惊人,10^25年的任务仅需5分钟,展现了量子计算的巨大潜力。

🔒 Willow的进步引发了对加密安全的担忧,尤其是对比特币等加密货币的潜在威胁。

8、宅男福音!VR角色扮演AI来了,南洋理工“造人”新突破,唱跳互动还能陪你聊!

新加坡南洋理工大学的研究团队推出了名为SOLAMI的AI技术,能够创造出活灵活现的3D虚拟角色,支持实时互动、语音理解和动作响应。该技术利用深度学习,将用户的语音和动作转化为虚拟角色可理解的语言,提供自然流畅的互动体验。SOLAMI还配备VR界面,用户可通过VR设备与虚拟角色进行面对面交流。

image.png

【AiBase提要:】

🎮 SOLAMI是一个端到端的社会视觉-语言-动作建模框架,实现用户与虚拟角色的自然互动。

📊 SynMSI合成数据集为训练提供了丰富的对话和动作数据,解决了数据缺乏的问题。

🌐 SOLAMI的沉浸式VR界面让用户能够身临其境地与虚拟角色互动,提升了社交体验。

详情链接:https://solami-ai.github.io/

9、X 正式表态,全新AI图像生成器Aurora将在本周内向所有用户推出

近日,社交网络 X(前身为推特)推出了新的图像生成器Aurora,经过数十亿个样本训练,具备高质量图像生成能力。虽然最初被撤下,但现已重新上线,计划在一周内向所有用户推广。Aurora能够精准渲染真实世界的视觉细节,尽管在测试中发现其生成的图像偶尔存在不自然的融合和细节缺失问题。

image.png

【AiBase提要:】

✨ Aurora是由xAI开发的新图像生成器,具备照片级渲染能力。

🌍 目前已在部分国家上线,预计一周内向所有用户推广。

🔍 测试发现Aurora生成的图像有时存在不自然的融合和人物细节缺失问题。

详情链接:https://x.ai/blog/grok-image-generation-release

10、Reddit 推出 AI 问答功能,但用户却不买账!

Reddit最近推出了名为“Reddit Answers”的新功能,旨在通过AI驱动的问答提升用户搜索体验。然而,尽管该功能可以基于平台内的帖子和评论提供答案,用户的反馈却并不积极,许多人认为改善搜索功能的优先级更高。该功能目前仅在美国的有限用户中测试,且尚未在Android平台上推出。

image.png

【AiBase提要:】

🔍 新功能“Reddit Answers”开始在美国有限用户中测试,旨在提升搜索体验。

🤖 该功能利用Reddit平台内的帖子和评论,提供AI驱动的问答服务。

😟 用户反响平平,许多人对搜索功能改善的优先级表示不满。

11、特斯拉陶琳:将坚持自动驾驶纯视觉路线

特斯拉副总裁陶琳重申了公司在自动驾驶技术上坚持纯视觉路线的决心。她强调,只有通过摄像头和视觉神经网络的结合,才能更好地模拟人类的驾驶习惯,从而实现更安全、更智能的完全自动驾驶。特斯拉的AI4芯片已在所有在售车型中配备,算力提升显著,标志着公司在硬件上已为完全自动驾驶做好准备。

【AiBase提要:】

🔍 特斯拉坚持通过纯视觉技术实现完全自动驾驶,认为这是最安全、最智能的方案。

💡 自动驾驶技术采用端到端大模型,已实现从光子输入到决策输出的全过程。

📈 所有在售车型均配备最新AI4芯片,算力提升5倍,为实现完全自动驾驶奠定基础。

12、惊人复苏!Stability AI新管理层六个月实现无债务、三位数业务增长

Stability AI在新任首席执行官普雷姆・阿卡拉朱的带领下,经过六个月的努力,成功实现了业务的三位数增长,并清除了所有债务。阿卡拉朱强调公司资产负债表的健康状态,并专注于API和许可服务的快速发展。新管理团队的形成吸引了曾经离开的投资者回归,标志着公司前景的向好。

【AiBase提要:】

💼 Stability AI新CEO普雷姆・阿卡拉朱表示,公司业务已实现三位数增长,且无债务。

📈 新管理团队在六个月内完成复苏,吸引曾离开的投资者回归。

🎥 知名导演詹姆斯・卡梅隆已加入Stability AI董事会,显示行业信心回升。

13、智源开源无标注视频学习的3D 生成模型 See3D

北京智源人工智能研究院推出了 See3D 模型,能够利用无标注互联网视频进行3D 生成。该模型通过视觉条件技术,生成相机方向可控且何一致的多视角图像,避免传统相机标注的需求,具有良好的数据扩展性和适用性。See3D 已开源,支持多种3D 创作应用。

微信截图_20241210151417.png

【AiBase 提要:】

🌟 See3D 利用大规模无标注视频进行3D 学习,降低数据采集成本。

🎥 模型支持从文本、单视图到3D 生成,功能多样。

🔍 开源模型和数据集促进3研究社区关注无相机标注数据。

项目地址:https://vision.baai.ac.cn/see3d

举报

  • 相关推荐
  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报腾讯AI智能编程插件CodeBuddy;字节推Seed1.5-VL多模态模型;Manus母公司否认15亿美元融资传闻

    《AI日报》今日聚焦多项AI领域突破:腾讯推出CodeBuddy 3.0编程助手,深度整合微信小程序开发工具;字节跳动发布仅20B参数的Seed1.5-VL多模态模型,性能达行业领先;通义千问上线"Deep Research"智能研究系统,免费开放体验。此外,苹果推出革命性3D建模工具Matrix3D,Anthropic即将发布Claude Neptune新模型,清华与面壁智能联合推出端侧GUI智能体AgentCPM-GUI。谷歌搜索正测试"AI Mode"新功能,或将取代传统"手气不错"按钮。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报:通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线智谱AI企业级超级助手Agent CoCo上线

    【AI日报】今日AI领域重要动态:1.通义千问3大模型全球下载量超1250万,衍生模型13万+;2.即梦图片3.0上线,AI设计进入"零门槛"时代;3.智谱AI发布企业级超级助手Agent CoCo;4.百度推出金融行业大模型"千帆慧金";5.小红书开源首个大模型dots.llm1,含1420亿参数;6.Hugging Face开源LeRobot项目,降低机器人研发门槛;7.ChatGPT语音功能升级,支持更自然对话翻译;8.Google Gemini应用下载量超ChatGPT但活跃度不足;9.轻量级文档解析模型MonkeyOCR表现优异;10.Google Veo3推出高速视频生成模式;11.Google调整AI Studio政策,限制Gemini2.5Pro免费访问。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • AI日报:Anthropic推最强编AI模型Claude4;苹果计划推AI智能眼镜;QQ浏览器上线首个高考Agent

    【AI日报】今日AI领域重要动态:1)Anthropic发布Claude4系列AI模型,编程能力超越竞争对手;2)苹果计划2026年推出集成AI技术的智能眼镜;3)字节跳动与清华合作推出时序多模态大模型ChatTS;4)3DTown框架实现单张照片生成逼真3D场景;5)OpenAI秘密开发无屏幕AI设备;6)商汤科技推出儿童AI下棋机器人;7)微软记事本新增AI写作功能;8)深圳设立70亿元基金支持AI硬件初创企业;9)谷歌发布3D视频通信平台Beam;10)阿联酋推出"星际之门"计划,免费提供ChatGPT服务;11)法国Mistral推出开源模型Devstral;12)Anthropic API新增四大功能;13)美国众议院通过法案限制各州监管AI;14)QQ浏览器推出高考AI助手。

  • 腾讯云TencentOS Server AI,助力荣耀打造高性能AI底座

    随着生成式AI技术爆发式增长,AI大模型开始渗透至手机领域。荣耀基于腾讯云TencentOS Server AI的TACO-LLM加速模块部署DeepSeek-R1等开源大模型,在内部场景应用中实现稳定性、可靠性和推理性能的大幅提升。测试显示,使用TACO-LLM后,首Token延迟最高降低6.25倍,吞吐提升2倍,端到端延迟降低100%。TACO-LLM通过投机采样技术实现大模型"并行"解码,从根本上解决计算密度问题,大幅提升解码效率。荣耀表示该方案打造了高性能AI底座,提供高吞吐低延迟的优化方案,能无缝整合现有大模型部署方案。腾讯云TACO-LLM针对企业级AI模型私有化部署挑战,专门优化了大语言模型内核运行效率。

  • 腾讯云助力文博会打造AI会展助手“文小博”,提升参展方交易磋商效率

    第二十一届中国(深圳)国际文化产业博览交易会于5月22-26日在深圳国际会展中心举办。本届文博会开启智能会展新时代,推出由腾讯云AI技术打造的"文小博"智能助手,通过深度重构会展服务体系,为参展方带来全新AI体验。"文小博"依托腾讯混元大模型+DeepSeek双模底座能力,可自动生成参展商精准画像,实现智能匹配、实时翻译等功能。展会设置8大展馆,展览面积达16万平方米,吸引超30万专业采购商参与。文博会还与腾讯云合作打造"演艺出海推介舞台",推动国际文化交流。AI助手贯穿展会全场景,提供智能问答、交易风险评估等服务,并打通微信生态实现服务闭环。腾讯云宣布将大模型知识引擎升级为"智能体开发平台",助力企业构建专属智能体。"文小博"作为"大模型+知识库"创新标杆,标志着文博会正式迈入智能会展新时代。

  • 慧科讯业AI赋能数据标签化,破局多模态数据治理难题

    文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础,能帮助企业实现精准营销和智能决策。然而,多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值,并分析了当前面临的挑战:包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式,结合行业领先的数据源、NLP技术和垂直知识图谱,为企业提供高效的数据标注解决方案,显著提升数据处理效率。未来,随着AI技术发展,知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

  • OpenAI发布云端AI编程智能体Codex:代码准确率高达90%

    OpenAI于5月19日正式推出基于Codex-1模型的云端AI编程智能体Codex。该工具具备强大的代码生成与理解能力,支持Python、JavaScript、C等主流语言,覆盖前后端开发、算法实现等多个领域。测试显示其处理常规编程任务的速度远超人工,代码准确率达90%以上,能显著提升开发效率。Codex深度集成GitHub,支持智能代码补全和结构化代码自动生成,使开发者平均编码时间缩短30%。目前该服务已面向ChatGPT+Pro等高级用户开放,未来有望成为软件开发领域的标配工具,推动AI辅助编程进入新阶段。