首页 > 业界 > 关键词  > Octopusv2最新资讯  > 正文

AI日报:可以在手机上跑的大模型Octopusv2一夜爆火;90后小伙AI“复活”逝者订单超1000;OpenAI允许构建自定义模型;个具有情商的对话型AI来了

2024-04-07 15:41 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

QQ截图20240407155231.png

📰🤖📢AI新鲜事

斯坦福推可以在手机端跑的大模型 Octopusv2超越GPT-4一夜爆火

image.png

【AiBase提要:】

⭐️ 斯坦福大学推出Octopusv2,20亿参数模型,可在手机等设备上运行,准确性和延迟超越GPT-4,上下文长度减少95%。

⭐️ 设备端AI智能体时代来临,Octopusv2开发过程创新函数token策略,训练方法提高推理速度,表现优异。

⭐️ Octopus-V2-2B在性能评估中表现卓越,速度提高168%,为设备端AI发展注入新活力。

论文地址:https://arxiv.org/abs/2404.01744

模型主页:https://huggingface.co/NexaAIDev/Octopus-v2

90后小伙用AI“复活”逝者,一年成交1000单

【AiBase提要:】

⭐️90后小伙张泽伟使用AI技术,为逝者塑造数字形象,已接超过1000笔订单。

⭐️ 他的团队通过还原逝者的相貌、声音,让客户能与其数字形象互动。

⭐️ 这种业务独特之处在于AI技术生成逝者数字形象的反应,无需人类扮演。

详细内容:https://www.chinaz.com/2024/0407/1608319.shtml

OpenAI为开发者添加新功能 允许构建自定义模型

1.png

【AiBase提要:】

⭐️ 开发者可以使用OpenAI的新功能构建特定于组织、业务领域、任务需求的自定义模型。

⭐️ 自定义模型包括专门知识库、特定数据理解、执行任务或特定输入响应。

⭐️ OpenAI提供微调API、自定义训练模型程序和辅助微调服务等功能帮助开发者构建自定义模型。

详细内容:https://openai.com/blog/introducing-improvements-to-the-fine-tuning-api-and-expanding-our-custom-models-program

OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4

【AiBase提要:】

🤖 OpenAI使用YouTube视频转录训练GPT-4

📚 AI公司遇到高质量训练数据挑战

⚖️ 公司处理数据问题涉及版权法模糊区域

AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝

图片

【AiBase提要:】

⭐ MiniGPT4-Video框架能理解复杂视频,还能创作诗歌配文。

⭐ 支持处理时态视觉数据和文本数据,善于理解视频的复杂性。

⭐ 在多个基准测试中,MiniGPT4-Video有显着提高,可为视频配文、广告等提供强大解读能力。

论文:https://arxiv.org/pdf/2404.03413.pdf

DeepMind发布Gecko: 专注于文档检索 性能媲美大7倍模型

image.png

【AiBase提要:】

🦎 Gecko是通用文本嵌入模型,专注于文档检索、语义相似度和分类任务。

🦎 Gecko通过从LLM中提炼知识,融入检索器,实现强大检索性能。

🦎 在大规模文本嵌入基准上,256维Gecko优于768维现有模型。

论文地址:https://arxiv.org/pdf/2403.20327.pdf

微软投资1000亿美元推动生成式AI,这支股票有望大涨

【AiBase提要】

🧠 微软部署基于 Arm 设计的定制芯片,有望为 Arm Holdings 带来增长。

📈 Arm Holdings 已受益于人工智能芯片增长,微软项目或进一步推动其业绩。

🔋 微软可能通过定制芯片减少对其他公司依赖,提高性能降低成本,有望带动 Arm 收入增长。

马斯克的朋友将帮助 xAI 筹集30亿美元

【AiBase提要:】

🤑 投资者与马斯克有着密切关系,计划帮助 xAI 筹集30亿美元。

🤖 xAI 与 OpenAI 和 Anthropic 等竞争对手展开竞争,加紧发展在竞争激烈的人工智能领域。

💼 人工智能人才争夺战激烈,xAI 和其他竞争对手竞相吸引和留住。

AI下一个重大飞跃是理解情感,第一个具有情商的对话型AI来了

图片

【AiBase提要:】

⭐️ HumeAI发布具有情感识别能力的对话AI,能检测53种情绪。

⭐️ HumeAI致力于理解和回应用户情感,通过声音特征实现互动。

⭐️ 提供API让用户训练自己的AI模型,应用广泛覆盖健康、客服等领域。

官网地址:https://dev.hume.ai/docs/expression-measurement-api/overview

金山办公 WPS365将发布一站式AI办公产品

【AiBase提要:】

⭐ WPS365将强调提升用户办公效率与体验

⭐ 套件包含内容创作工具和协作软件

⭐ 核心理念是统一工具、协作和管理

🤖📱💼AI应用

Infinity AI:输入剧本即可一键生成电影 还提供数字人克隆功能

image.png

【AiBase提要:】

⭐ 目标:只需要输入剧本内容,即可一键生成电影,官方已经发布Demo

⭐ 技术团队成功克隆CEO形象展示产品功能,提出未来小团队借助AI有望赢得奥斯卡奖预言。

⭐ 提供克隆自己服务,用户可以通过录制视频训练定制AI模型,生成包含自己声音和面部表情的视频内容。

官网:https://top.aibase.com/tool/infinity-ai

在线体验地址:https://studio.infinity.ai/

详细教程及视频:https://qqi2gjmnk4.feishu.cn/wiki/HTmRwpZ1hiRONpkZ3SIce89ynuc?fromScene=spaceOverview

谷歌推Scenic:可识别视频内容 并生成详细描述

image.png

【AiBase提要:】

🔍 提供 SOTA 模型和基线模型,支持快速原型设计大规模视觉模型。

🔍 使用 JAX 和 Flax 进行开发,支持图像、视频、音频和多模态组合模型。

🔍 能识别视频内容并生成详细描述,提供功能丰富的基线模型和数据集。

产品入口:https://top.aibase.com/tool/scenic

CameraCtrl:让文本生成视频实现镜头控制 支持AnimateDiff控制镜头

image.png

【AiBase提要:】

⭐镜头控制在视频生成中至关重要

⭐通过训练镜头编码器实现插拔式镜头模块

⭐不同数据集视频增强镜头控制的可控性和泛化性

产品入口:https://hehao13.github.io/projects-CameraCtrl/

Lixel CyberColor:自动生成无限大的电影级效果的3D场景

image.png

【AiBase提要:】

⭐️ LCC采用Multi-SLAM和高斯溅射技术生成电影级效果的3D场景。

⭐️ XGRIDS的Multi-SLAM算法和3DGS技术创造逼真大型3D模型。

⭐️ XGRIDS提供LCC插件和SDK支持在多平台上无限复制3D内容。

官网地址:https://xgrids.com/lcc

AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快

【AiBase提要:】

⭐️ Universal-1提供准确鲁棒的多语言语音转文字功能

⭐️ Universal-1通过时间戳估计提高了准确性和说话者辨识

⭐️ AssemblyAI利用Conformer RNN-T架构和Google Cloud TPUs构建了高效的Universal-1模型

产品入口:https://top.aibase.com/tool/universal-1

InstantStyle: 文本生成图像风格参考,用于SD保持风格一致

image.png

【AiBase提要:】

⭐️ 内容和风格有效分离,通过简单但强大的技术实现。

⭐️ CLIP全局特征的应用,明确风格和内容的解耦。

⭐️ 不同层级网络捕捉不同语义信息,实现更好的风格保留效果。

产品入口:https://top.aibase.com/tool/instantstyle

————

每日midjourney prompt:性感电商模特

3_1712475023245_ai2023_A_beautiful_Chinese_GirlDetailed_facial_detailslong_hair_da38faab-b655-43c3-abc4-fde1a97fd67e.png

图源备注:图片由AI生成,图片授权服务商Midjourney

A beautiful Chinese Girl,Detailed facial details,long hair ,dark hair, wearing a short pink satin dress. She is sitting on concrete stairs in front of a tiled building facade. The lighting is soft and natural, with sunlight casting shadows --ar3:4--v6.0--style raw

一个美丽的中国女孩,详细的面部细节,长发,深色头发,穿着一件粉红色的缎面短裙。她坐在瓷砖建筑正面前的混凝土楼梯上。灯光柔和自然,阳光投射出阴影

举报

  • 相关推荐
  • 苹果新配件iPhone Pocket 1299元起售

    苹果公司与三宅一生合作推出iPhone收纳包配件“iPhone Pocket”,11月14日正式发售。产品以“一块布”为设计灵感,采用3D针织一体结构,适配所有iPhone型号,可收纳钥匙、卡片等小物,支持手提、系包或贴身佩戴。短带款售价1299元(八色可选),长带款1899元(三色可选)。高定价引发争议:部分用户赞赏其设计独特性,认为联名值得购买;更多网友质疑性价比,称其为“智商税”。产品命名因与华为折叠屏手机“华为Pocket”相近,一度引发消费者误解,相关话题冲上热搜。

  • 品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

    某互联网大厂品牌总监分享:投入200万SEO使"企业级CRM"关键词在Google排名第一,但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时,AI回答中根本没有该品牌。更值得警惕的是,竞品不仅被提及,还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区:企业不知道AI如何"看待"自身品牌。 数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道,而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念,通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力,并给出五步实施流程:建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明,系统化GEO优化能在3个月内提升品牌提及率33个百分点,证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 1299元起售!iPhone Pocket发布:采用3D 针织一体结构

    今日下午,苹果发文称,三宅一生携手苹果正式推出新配件iPhone Pocket。 其中短带款提供八种色彩外观:柠檬色、柑橘色、紫色、粉色、孔雀绿色、宝石蓝色、肉桂色和黑色。 长带款提供三种色彩外观:宝石蓝色、肉桂色和黑色。 短带款iPhone Pocket售价为1299元,长带款售价为1899元。

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • iPhone Pocket被吐槽像保温水瓶套 网友:韭菜太好割

    苹果联合日本设计师品牌三宅一生推出iPhone Pocket配件,售价1299元。产品采用3D针织工艺,支持七种佩戴方式,但被质疑与普通手机套功能无异。社交媒体上“1299元买块会变形的布”引发热议,消费者对比9.9元帆布手机套直指苹果收割粉丝。支持者认为定价符合奢侈品逻辑,反对者则拒绝为设计概念支付溢价。该产品在设计价值与实用功能间引发两极争议。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 新品预售 | Switch 2专属卡皇!佰维 ME300 Express高速存储卡首发

    随着Switch2性能提升,玩家对存储卡速度和容量需求升级。佰维推出专为Switch2设计的ME300 microSD+Express高速存储卡,采用SD7.1新标准,读取速度高达900MB/s,写入速度800MB/s,提供1TB超大容量。该卡能大幅缩短游戏安装、加载时间,确保流畅体验,支持4K输出和掌机模式高帧率渲染。ME300兼顾现有设备兼容性与未来扩展性,现已开启预售,提供三种容量选择。

  • 2025全画幅微TOP10横评:从入门到专业,10款机型帮你选对不踩坑

    本文系统解析2025年全画幅微单选购策略,提出应聚焦“需求适配”与“实用体验”六大维度:1.明确预算定位,入门用户关注基础性能,专业用户侧重场景专精;2.画质需匹配拍摄场景,日常记录2000-3000万像素足够,风光商业需4000万以上;3.对焦连拍保障动态捕捉成功率,推荐全屏对焦覆盖、0.03秒对焦速度及20张/秒以上连拍机型;4.视频能力分层选择,创作者需无裁切4K/高帧率/10bit色彩,普通用户8bit直出即可;5.便携性与操控直接影响使用频率,400-500克机身更适合日常携带;6.镜头群与扩展性决定长期价值。文章同步发布年度TOP10机型评测,佳能R8以万元内全能表现荣获首推,其专业对焦、无裁切4K60P及414克轻量化设计实现性能与便携最佳平衡。

  • vivo WATCH GT 2已支持开通移动/联通eSIM服务

    vivo WATCH GT2智能手表正式支持中国移动与联通的eSIM服务,提供一号双终端和独立终端两种模式,售价699元。配备2.07英寸大屏、2400nits峰值亮度,续航达33天。支持全天心率、血氧、睡眠监测及多种运动模式,搭载自研蓝河操作系统3.0与智能助手,可跨设备连接vivo和iPhone,实现双机通知同步。

今日大家都在搜的词: