首页 > 业界 > 关键词  > Octopusv2最新资讯  > 正文

AI日报:可以在手机上跑的大模型Octopusv2一夜爆火;90后小伙AI“复活”逝者订单超1000;OpenAI允许构建自定义模型;个具有情商的对话型AI来了

2024-04-07 15:41 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

QQ截图20240407155231.png

📰🤖📢AI新鲜事

斯坦福推可以在手机端跑的大模型 Octopusv2超越GPT-4一夜爆火

image.png

【AiBase提要:】

⭐️ 斯坦福大学推出Octopusv2,20亿参数模型,可在手机等设备上运行,准确性和延迟超越GPT-4,上下文长度减少95%。

⭐️ 设备端AI智能体时代来临,Octopusv2开发过程创新函数token策略,训练方法提高推理速度,表现优异。

⭐️ Octopus-V2-2B在性能评估中表现卓越,速度提高168%,为设备端AI发展注入新活力。

论文地址:https://arxiv.org/abs/2404.01744

模型主页:https://huggingface.co/NexaAIDev/Octopus-v2

90后小伙用AI“复活”逝者,一年成交1000单

【AiBase提要:】

⭐️90后小伙张泽伟使用AI技术,为逝者塑造数字形象,已接超过1000笔订单。

⭐️ 他的团队通过还原逝者的相貌、声音,让客户能与其数字形象互动。

⭐️ 这种业务独特之处在于AI技术生成逝者数字形象的反应,无需人类扮演。

详细内容:https://www.chinaz.com/2024/0407/1608319.shtml

OpenAI为开发者添加新功能 允许构建自定义模型

1.png

【AiBase提要:】

⭐️ 开发者可以使用OpenAI的新功能构建特定于组织、业务领域、任务需求的自定义模型。

⭐️ 自定义模型包括专门知识库、特定数据理解、执行任务或特定输入响应。

⭐️ OpenAI提供微调API、自定义训练模型程序和辅助微调服务等功能帮助开发者构建自定义模型。

详细内容:https://openai.com/blog/introducing-improvements-to-the-fine-tuning-api-and-expanding-our-custom-models-program

OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4

【AiBase提要:】

🤖 OpenAI使用YouTube视频转录训练GPT-4

📚 AI公司遇到高质量训练数据挑战

⚖️ 公司处理数据问题涉及版权法模糊区域

AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝

图片

【AiBase提要:】

⭐ MiniGPT4-Video框架能理解复杂视频,还能创作诗歌配文。

⭐ 支持处理时态视觉数据和文本数据,善于理解视频的复杂性。

⭐ 在多个基准测试中,MiniGPT4-Video有显着提高,可为视频配文、广告等提供强大解读能力。

论文:https://arxiv.org/pdf/2404.03413.pdf

DeepMind发布Gecko: 专注于文档检索 性能媲美大7倍模型

image.png

【AiBase提要:】

🦎 Gecko是通用文本嵌入模型,专注于文档检索、语义相似度和分类任务。

🦎 Gecko通过从LLM中提炼知识,融入检索器,实现强大检索性能。

🦎 在大规模文本嵌入基准上,256维Gecko优于768维现有模型。

论文地址:https://arxiv.org/pdf/2403.20327.pdf

微软投资1000亿美元推动生成式AI,这支股票有望大涨

【AiBase提要】

🧠 微软部署基于 Arm 设计的定制芯片,有望为 Arm Holdings 带来增长。

📈 Arm Holdings 已受益于人工智能芯片增长,微软项目或进一步推动其业绩。

🔋 微软可能通过定制芯片减少对其他公司依赖,提高性能降低成本,有望带动 Arm 收入增长。

马斯克的朋友将帮助 xAI 筹集30亿美元

【AiBase提要:】

🤑 投资者与马斯克有着密切关系,计划帮助 xAI 筹集30亿美元。

🤖 xAI 与 OpenAI 和 Anthropic 等竞争对手展开竞争,加紧发展在竞争激烈的人工智能领域。

💼 人工智能人才争夺战激烈,xAI 和其他竞争对手竞相吸引和留住。

AI下一个重大飞跃是理解情感,第一个具有情商的对话型AI来了

图片

【AiBase提要:】

⭐️ HumeAI发布具有情感识别能力的对话AI,能检测53种情绪。

⭐️ HumeAI致力于理解和回应用户情感,通过声音特征实现互动。

⭐️ 提供API让用户训练自己的AI模型,应用广泛覆盖健康、客服等领域。

官网地址:https://dev.hume.ai/docs/expression-measurement-api/overview

金山办公 WPS365将发布一站式AI办公产品

【AiBase提要:】

⭐ WPS365将强调提升用户办公效率与体验

⭐ 套件包含内容创作工具和协作软件

⭐ 核心理念是统一工具、协作和管理

🤖📱💼AI应用

Infinity AI:输入剧本即可一键生成电影 还提供数字人克隆功能

image.png

【AiBase提要:】

⭐ 目标:只需要输入剧本内容,即可一键生成电影,官方已经发布Demo

⭐ 技术团队成功克隆CEO形象展示产品功能,提出未来小团队借助AI有望赢得奥斯卡奖预言。

⭐ 提供克隆自己服务,用户可以通过录制视频训练定制AI模型,生成包含自己声音和面部表情的视频内容。

官网:https://top.aibase.com/tool/infinity-ai

在线体验地址:https://studio.infinity.ai/

详细教程及视频:https://qqi2gjmnk4.feishu.cn/wiki/HTmRwpZ1hiRONpkZ3SIce89ynuc?fromScene=spaceOverview

谷歌推Scenic:可识别视频内容 并生成详细描述

image.png

【AiBase提要:】

🔍 提供 SOTA 模型和基线模型,支持快速原型设计大规模视觉模型。

🔍 使用 JAX 和 Flax 进行开发,支持图像、视频、音频和多模态组合模型。

🔍 能识别视频内容并生成详细描述,提供功能丰富的基线模型和数据集。

产品入口:https://top.aibase.com/tool/scenic

CameraCtrl:让文本生成视频实现镜头控制 支持AnimateDiff控制镜头

image.png

【AiBase提要:】

⭐镜头控制在视频生成中至关重要

⭐通过训练镜头编码器实现插拔式镜头模块

⭐不同数据集视频增强镜头控制的可控性和泛化性

产品入口:https://hehao13.github.io/projects-CameraCtrl/

Lixel CyberColor:自动生成无限大的电影级效果的3D场景

image.png

【AiBase提要:】

⭐️ LCC采用Multi-SLAM和高斯溅射技术生成电影级效果的3D场景。

⭐️ XGRIDS的Multi-SLAM算法和3DGS技术创造逼真大型3D模型。

⭐️ XGRIDS提供LCC插件和SDK支持在多平台上无限复制3D内容。

官网地址:https://xgrids.com/lcc

AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快

【AiBase提要:】

⭐️ Universal-1提供准确鲁棒的多语言语音转文字功能

⭐️ Universal-1通过时间戳估计提高了准确性和说话者辨识

⭐️ AssemblyAI利用Conformer RNN-T架构和Google Cloud TPUs构建了高效的Universal-1模型

产品入口:https://top.aibase.com/tool/universal-1

InstantStyle: 文本生成图像风格参考,用于SD保持风格一致

image.png

【AiBase提要:】

⭐️ 内容和风格有效分离,通过简单但强大的技术实现。

⭐️ CLIP全局特征的应用,明确风格和内容的解耦。

⭐️ 不同层级网络捕捉不同语义信息,实现更好的风格保留效果。

产品入口:https://top.aibase.com/tool/instantstyle

————

每日midjourney prompt:性感电商模特

3_1712475023245_ai2023_A_beautiful_Chinese_GirlDetailed_facial_detailslong_hair_da38faab-b655-43c3-abc4-fde1a97fd67e.png

图源备注:图片由AI生成,图片授权服务商Midjourney

A beautiful Chinese Girl,Detailed facial details,long hair ,dark hair, wearing a short pink satin dress. She is sitting on concrete stairs in front of a tiled building facade. The lighting is soft and natural, with sunlight casting shadows --ar3:4--v6.0--style raw

一个美丽的中国女孩,详细的面部细节,长发,深色头发,穿着一件粉红色的缎面短裙。她坐在瓷砖建筑正面前的混凝土楼梯上。灯光柔和自然,阳光投射出阴影

举报

  • 相关推荐
  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 信锐助力TCL获 “2025中国IDC未来企业大奖联接领军者”优秀奖!

    10月17日,TCL空调办公网络智能连接与体验升级项目在IDC中国CIO峰会获“2025未来企业连接领军者”优秀奖。该项目依托信锐“AI+网络自动驾驶”理念,通过全网智能2.0与小信GPT方案重构企业网络管理模式,实现从感知、分析到决策的智能闭环,助力TCL实现20+维度数据采集、7*24小时AI调优及自然语言交互运维,推动企业数字化转型升级。

  • 铭凡MS-S1 MAX正式发布:126TOPS总算力的AI工作站,提供 USB4 v2、PCle 4插槽

    印凡MS-S1MAX迷你AI工作站体积仅3.3升,集成126TOPS算力,搭载AMD锐龙AI Max处理器与Radeon 8060核显,支持本地运行1280亿参数大模型。配备128GB LPDDR5X内存、双M.2插槽及高速USB4接口,采用先进散热设计实现130W稳定输出。紧凑机身支持灵活部署,为企业本地AI与边缘计算提供高效解决方案。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 华为WATCH Ultimate 2非凡探索版明日开启预售

    华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能,具备海豚声呐通信技术,可在水下30米实现手表间信息传输,60米内一键SOS求救。同时搭载北斗卫星语音消息功能,无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕,峰值亮度达3500nit,支持20ATM防水与IP68/9防尘。省电模式下续航达11天,常规使用达4.5天。该手表海外售价799英镑(约7443元人民币),国内价格尚未公布。

  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • vivo WATCH GT 2已支持开通移动/联通eSIM服务

    vivo WATCH GT2智能手表正式支持中国移动与联通的eSIM服务,提供一号双终端和独立终端两种模式,售价699元。配备2.07英寸大屏、2400nits峰值亮度,续航达33天。支持全天心率、血氧、睡眠监测及多种运动模式,搭载自研蓝河操作系统3.0与智能助手,可跨设备连接vivo和iPhone,实现双机通知同步。

  • 全球开源技术峰会GOTC 2025 圆满落幕

    11月2日,为期两天的全球开源技术峰会GOT C2025在北京圆满落幕。本届峰会聚焦开源与人工智能深度融合,汇聚全球顶尖专家、行业领袖与数千开发者,共同探讨开源驱动的AI未来蓝图。现场吸引超3000人次参与,线上直播观看量突破500万,全网曝光超6亿次。大会设立十二大专题论坛,覆盖大模型应用、AI编程、云原生AI等前沿领域,并发布Open AgentKit等关键项目。通过“论坛+市集�

  • 燃爆蓉城!快手王者之战暨街霸6CPT亚洲白金赛圆满收官

    10月31日至11月2日,“快手王者之战VI暨CAPCOM PRO TOUR 2025亚洲白金赛”在成都成功举办。日本选手HINAO从566名选手中脱颖而出,决赛中以3:2逆转夺冠,成为CPT史上最年轻白金赛冠军。赛事汇聚全球顶尖选手,覆盖亚太多赛区,冠军直通CAPCOM CUP总决赛。快手通过独家内容策划与线上线下联动,打造“电竞+文旅”融合模式,结合成都本地文化,推动电竞赛事破圈传播,彰显游戏生态布局优势。

今日大家都在搜的词: