AI视野：通义千问上线通义舞王；斯坦福炒虾机器人爆火；Midjourney艺术家数据库泄露；Meta发布AI调试工具HawkEye；小冰大模型获备案

2024-01-04 15:53 · 稿源：站长之家

新鲜AI产品点击了解：https://top.aibase.com/

🤖📱💼AI应用

通义千问上线通义舞王

阿里云通义千问APP近日上线了一项名为“通义舞王”的免费功能，用户只需在APP内输入相应口令并上传照片，系统即可生成个性化的舞蹈视频。

【AiBase提要】
💃 用户可以在通义千问APP内输入“通义舞王”或“全民舞王”等口令，上传照片后即可生成个性化的舞蹈视频。
💃 目前提供了12种热门舞蹈模板，用户可以让各种形象在网络上跳起热门舞蹈。
💃 这一功能是由阿里通义实验室自研的视频生成模型Animate Anyone实现的，其在Github上备受关注。

Meta发布生成式AI调试工具HawkEye

Meta发布了一款名为HawkEye的生成式AI调试工具，旨在解决机器学习模型在生产中面临的挑战。HawkEye引入了分支决策系统，通过实施决策树来加速识别和解决模型异常问题，并计划将其开源，推动整个行业在AI运维方面取得重要进展。

【AiBase提要:】
🚀Meta发布生成式AI调试工具HawkEye，解决机器学习模型在生产中的挑战。
⚙️HawkEye引入分支决策系统，加速识别和解决模型异常问题。
🌐Meta计划开源HawkEye，推动整个行业在AI运维方面取得进展。

Pile:一款内置OpenAI API的AI日记软件

Pile是一款内置OpenAI API的AI日记软件，可以帮助用户撰写和保存日记条目，记录思考和经历。

项目地址:https://top.aibase.com/tool/pile

【AiBase提要】
Pile是一款整洁美观的AI日记软件，内置OpenAI API，帮助撰写和保存日记，扩展思维广度。
AI搜索功能快速查找日记内容，对话式交互帮助理解思考过程。
Pile也注重用户的隐私和数据安全，保证用户的日记内容不会被泄露。

🤖📈💻💡大模型动态

小冰大模型获备案

小冰公司宣布已获得“小冰大模型”国内备案，结束静默期，正式发布一系列产品。

【AiBase提要:】
1️⃣小冰克隆人允许创作者通过小冰框架技术克隆自己并向粉丝发布;
2️⃣歌手克隆人分支X Studio已推出4.0版本，洛天依宣布加入;
3️⃣小冰数字员工升级为小冰大模型数字员工，为企业客户提供完整的数字化解决方案。

网易有道推出子曰大模型2.0

教育科技公司网易有道推出了国内首个教育大模型“子曰”2.0版本，并发布AI家庭教师“小P老师”。

【AiBase提要:】
👉 网易有道推出国内首个教育大模型“子曰”2.0版本。
👉 发布AI家庭教师“小P老师”，提供全学段、全学科的答疑支持。
👉 推出虚拟人口语私教Hi Echo2.0和有道速读，提升英语口语能力和快速理解文档内容。

维基百科+大模型打败幻觉!斯坦福WikiChat性能领先GPT-4

斯坦福研究人员利用维基百科数据训练大模型WikiChat，成功减轻了幻觉问题，并在事实准确性和对话性方面超过了其他模型。通过优化和改进，WikiChat在各个方面的性能都显著领先，尤其在事实准确性方面达到了97.3%。

论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf

项目代码:https://top.aibase.com/tool/wikichat

【AiBase提要:】
1. 斯坦福研究人员利用维基百科数据训练了大模型WikiChat，成功减轻了幻觉问题，并在事实准确性和对话性方面超过了其他模型。
2. 通过优化和改进，WikiChat在各个方面的性能都显著领先，尤其在事实准确性方面达到了97.3%。
3. 通过检索增强生成的方法，研究人员成功解决了大模型的幻觉问题，提高了模型的事实准确性和对话性能。

清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发

近期，清华、浙大等学府推动下出现了一系列性能优异的开源视觉模型，其中LLaVA、CogAgent和BakLLaVA备受关注。

论文地址:https://arxiv.org/pdf/2312.08914.pdf

【AiBase提要】
1️⃣ LLaVA、CogAgent和BakLLaVA是具有极大潜力的开源视觉语言模型。
2️⃣ LLaVA在视觉聊天和推理问答方面表现接近GPT-4水平。
3️⃣ CogAgent拥有更多功能和性能优势，支持高分辨率图像输入和OCR任务。

📰🤖📢AI新鲜事

斯坦福炒虾机器人爆火全网!成本仅22万元

斯坦福华人团队开发的炒虾机器人MobileALOHA成为了全网的热议话题。这个机器人能够炒菜、洗碗等各种复杂任务，仅用50个演示就能够让机器人始终如一地完成一项任务。

论文地址:https://mobile-aloha.github.io/resources/mobile-aloha.pdf

【AiBase提要】
斯坦福华人团队开发的炒虾机器人Mobile ALOHA刷屏全网，能完成各种复杂任务。
该机器人通过模仿学习，能够执行各种复杂的任务，并支持全身远程操控。
机器人成本低廉，仅为22万元，软件和硬件全部开源。

Midjourney训练AI使用的艺术家数据库名单泄露引发争议

Midjourney训练AI用的艺术家数据库泄露，包括知名艺术家如Banksy、David Hockney等。

【AiBase提要】
🔍Midjourney训练AI使用的艺术家数据库名单泄露，引发社交媒体批评和版权诉讼。
💬Midjourney首席执行官确认使用4000多位艺术家的名字进行生成式AI训练。
🤔该事件引发对未受监管的生成式AI发展的担忧，可能导致更多诉讼和国会听证会。

ChatGPT在儿科疾病诊断中错误率高达83%

发表在《美国医学会儿科杂志》上的一项研究表明，ChatGPT-4在儿科医学病例的诊断方面的准确率仅为17%，较去年一般医学病例的39%更低。

【AiBase提要:】
1. ChatGPT-4在儿科医学病例诊断方面准确率仅17%，比一般医学病例低39%。
2. ChatGPT难以识别疾病关系，需在准确可信的医学文献上进行专门培训。
3. 通过特定医学数据的培训和调整，有望提高聊天机器人的诊断准确性。

商汤科技推AI台灯元萝卜SenseRobot

商汤科技发布了一款名为“元萝卜SenseRobot”的台灯产品，该台灯具备AI离座感应和自动延时关灯功能，方便节能和使用。

【AiBase提要:】
元萝卜SenseRobot”外观设计灵感来源于宇航和科幻元素。
台灯产品中的AI坐姿提醒和AI专注度检测功能十分关键，能够准确识别不良坐姿，并通过语音提醒孩子矫正坐姿。
该台灯具备AI离座感应和自动延时关灯功能，方便节能和使用。

网友发掘最新旅游方式靠Midjourney V6“游”遍中国

知名博主“快刀青衣”利用Midjourney V6生成了9个国内著名景点的效果图，包括少林寺、天坛、长城、桂林山水、九寨沟、兵马俑等，通过AI“游”遍中国。

【AiBase提要】
1️⃣ 利用Midjourney V6生成的景点效果图让网友可以“游”遍中国的著名景点。
2️⃣ Midjourney V6版本更真实、更详细，但保留了对景点最美好的想象，不再有明显的AI痕迹。
3️⃣ Midjourney V6更倾向于使用光影效果增加图片的真实感，吸引了大量网友参与讨论、分享和二次创作。

👨‍💻💡🎯聚焦开发者

面部图像修复突破性AI方法Dual-Pivot Tuning

加利福尼亚大学洛杉矶分校和Snap Inc.的研究团队开发了一种名为“Dual-Pivot Tuning”的个性化图像恢复方法。其主要目标是确保恢复的图像对个体的身份和降质输入图像具有高保真度，同时保持自然外观。

项目体验网址:https://top.aibase.com/tool/personalized-restoration-via-dual-pivot-tuning

【AiBase提要:】
1. 🌐 图像修复是一个复杂的挑战，研究人员提出了名为“Dual-Pivot Tuning”的突破性AI方法，可以实现人脸模糊变高清。
2. 🤳 该方法使用有限的高质量个体图像集，以保持图像对个体身份的高保真性。
3. 📊 实验证明，“Dual-Pivot Tuning”技术在盲目和少数样本的个性化面部图像修复方面优于其他方法。

香港大学和微软推高效声音转换方法CoMoSVC

CoMoSVC是一种创新技术，可以将一个人的歌声转换成另一个人的歌声。这个项目由香港大学和微软亚洲研究员共同开发，通过一步采样实现快速高质量的声音转换，为音频转换领域带来重大进步。

项目地址:https://top.aibase.com/tool/comosvc

论文地址:https://arxiv.org/pdf/2401.01792.pdf

【AiBase提要:】
🔬 CoMoSVC设计了基于扩散的教师-学生模型，能理解和模仿不同歌手的声音特征，并快速有效地进行声音转换。
⚡️ CoMoSVC实现了一步采样，加快了处理速度，同时保持音频质量。
⚡️这项技术的出现将为音频转换带来更加高效和方便的解决方案。

HandRefiner:解决AI生图手部畸形难题

HandRefiner是一种可以修正形状不正常的手部图像的方法。在生成图像方面，目前的图像生成模型已经非常出色，但是在生成人类手部的图像时常常会出现问题，例如手指数量不对或者手形怪异。

模型下载地址:https://top.aibase.com/tool/handrefiner

项目地址:https://github.com/wenquanlu/HandRefiner/

【AiBase提要:】
能够精确地识别和修正生成图像中的畸形手部，保持图像其他部分的一致性
利用合成数据进行训练，学习不同手的样子来修正手部。
也可以用来修正脚或耳朵

视觉编码器VCoder:提高模型在识别图像方面的能力

VCoder是一个视觉编码器，旨在提高多模态语言模型（MLLM）在识别图像中的对象和理解图像场景方面的能力。它能够帮助模型更好地理解和分析图像内容。

项目地址:https://top.aibase.com/tool/vcoder

【AiBase提要】
💡VCoder提供额外的视觉编码器，使多模态语言模型（MLLM）能够更好地理解和分析图像内容。
💡VCoder能够处理特殊类型的图像，如分割图和深度图，提升模型识别和理解图像中不同物体的能力。
💡VCoder在对象识别任务中优于基线模型，在复杂场景中表现出更高的准确性和对象计数能力。

（举报）

相关推荐

关键词：

通义千问

荐AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；Sora已登陆Google Play

本期AI日报聚焦多项重要进展：LiblibAI 2.0上线，内置多模型并提供限时免费算力；通义千问和豆包开启记忆功能内测；OpenAI视频生成应用Sora登陆Google Play并开放北美预注册；Qoder推出提示词增强功能提升开发效率；Cherry Studio集成主流AI模型并推出优惠活动；港中文团队推出首个结构化图像生成系统；DeepSeek入选2025全球十大工程成就。这些突破展示了AI技术快速迭代与多领域应用�

AI日报 LiblibAI 2.0
荐AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

本文汇总了近期AI领域多项重要进展：生数科技推出Vidu Q2模型，显著提升视频生成中细微表情的真实感；火山引擎发布炉米Lumi平台，支持视觉模型LoRA微调以定制独特风格；阿里云通义千问开源超300个模型，下载量突破6亿次；百度开源多模态视觉理解模型Qianfan-VL，适配不同场景需求；微软在Copilot中引入Anthropic模型，拓展AI助手功能；OpenAI计划在美国新建五个数据中心以加速Stargate项目；英伟达开源Audio2Face模型，提升实时面部动画生成效果；Meta发布具备沙箱推演能力的32B代码世界模型CWM，优化代码调试效率。这些动态展示了AI技术在视觉、多模态、开源生态及硬件支持等方面的快速迭代与创新突破。

AI 视频生成细微表情
因跛脚被辞退得力集团发文致歉：将依规依纪问责涉事人员

9月30日，得力集团因员工走路跛脚被辞退一事登上热搜。该员工通过三轮面试后，入职当天因腿部问题被通知"不适应岗位"离职。其本人称虽有腿疾但无需辅助工具，且有7年职业经验。事件曝光后，得力CEO致歉并成立专项小组调查，确认情况属实。集团发布声明承认管理不足，将追责相关人员、清除歧视性标准、强化反歧视培训，并派高管当面致歉。公司承诺以此为契机完善人力资源机制，坚持"以人为本"理念。

得力集团辞退员工跛脚歧视
荐年订单破10万、加价千元仍爆满！年轻人带“毛孩子”出游成风口

深夜12点的莫干山，一家民宿依然灯火通明。在层高6米的Loft房间里，所有管家正举着手电筒，踮着脚尖在沙发、窗帘和吊顶等地方，细细搜寻一位“特殊住客”——一只巴掌大的蜜袋鼯。这只被游客带出来玩的蜜袋鼯，在下午突然不见了踪影。由于蜜袋鼯身形较小，而且有滑翔、攀爬能力，一旦走失，较难找回。 “客人下午发动朋友一起找了半天，没找到，已经按

蜜袋鼯民宿宠物搜寻
通义千问官方App在哪下载通义千问2.0有哪些升级

通义千问已经发布了2.0版本，2.0版本在性能上取得巨大飞跃，相比4月发布的1.0版本，通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升，以下我们来看下通义千问2.0版本升级的功能。通义千问2.0在各方面的能力都有了巨大的进步，相比于今年4月推出的1.0版本，通义千问2.0在复杂命令处理、文艺创作、通用数学、知识储存、幻觉防御等方面都有了显著的提高。截至10月，阿里云已与60多个行业头部伙伴进行深度合作，推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。

通义千问
荐通义千问先“问”钉钉

2023年钉钉生态大会，能替代真人参会的“数字分身”亮相，一同出现的还有帮助教师批改作业的“AI小助教”及企业的AI招聘专员。这些“数智人”同事以钉钉为入口，进入现实工作场景。钉钉用AI脱胎换骨的做法也表明，有应用的生态更容易AI化。

钉钉
免费生成10秒高清视频！通义App接入通义万相2.5

在2025云栖大会上，阿里发布通义万相Wan2.5 Preview系列模型，覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步，可生成匹配画面的人声、音效和BGM，时长从5秒提升至10秒，支持24帧/秒的1080P高清输出，降低影视级创作门槛。模型指令遵循能力增强，支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频，每日免费使用15次，支持导出无水印视频。同时，图像生成能力全面升级，可生成中英文字符和图表，支持图像编辑功能，一句话即可完成P图。

通义万相文生视频图生视频
通义千问2.0在哪里下载通义千问iOS安卓版下载地址

阿里巴巴通义千问2.0已经正式发布，根据阿里云CTO周靖人介绍，在10个权威测评中，通义千问2.0综合性能超过GPT-3.5，那么千问2.0在哪里可以使用呢，我们来看下具体的入口。通义千问APP已经可以在AppStore或者主要安卓市场下载。英语任务方面，通义千问2.0在MMLU基准的得分是82.5，仅次于GPT-4，通过大幅增加参数量，通义千问2.0能更好地理解和处理复杂的语言结构和概念;中文任务�

通义千问通义下载
通义千问有没有app？通义千问api接口文档在哪里找

在10月31日的2023云栖大会上，阿里云CTO周靖人宣布阿里云将全面升级云计算体系，打造一个面向AI时代最开放的云，涵盖从底层算力到AI平台再到模型服务的全栈技术创新。中国有一半的大模型企业运行在阿里云上，280万AI开发者活跃在阿里云的魔搭社区上。更多详情可以关注Aibase产品库了解获取最新的产品发布信息。

通义千问通义千问app 通义千问api
通义千问APP下载官网入口通义千问手机版下载地址

在2023年的云栖大会上，阿里云CTO周靖人宣布，阿里云将升级其云计算体系，以适应智能时代的需要，从底层的算力到AI平台再到模型服务，阿里云将提供全栈技术创新。周靖人还宣布了阿里云通义千问2.0的发布，这是一款千亿级参数规模的大模型，以及阿里云百炼，一站式模型应用开发平台。以上就是通义千问app的介绍，更多详细介绍可以前往Aibase产品库了解，各位小伙伴们快去试试吧！

通义千问APP 通义千问通义千问app下载

今日大家都在搜的词：

热文

3 天
7天

AI视野：通义千问上线通义舞王；斯坦福炒虾机器人爆火；Midjourney艺术家数据库泄露；Meta发布AI调试工具HawkEye；小冰大模型获备案

荐AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；Sora已登陆Google Play

荐AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

因跛脚被辞退得力集团发文致歉：将依规依纪问责涉事人员

荐年订单破10万、加价千元仍爆满！年轻人带“毛孩子”出游成风口

通义千问官方App在哪下载通义千问2.0有哪些升级

荐通义千问先“问”钉钉

免费生成10秒高清视频！通义App接入通义万相2.5

通义千问2.0在哪里下载通义千问iOS安卓版下载地址

通义千问有没有app？通义千问api接口文档在哪里找

通义千问APP下载官网入口通义千问手机版下载地址

今日大家都在搜的词：

热文

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

董明珠称格力向特斯拉提供服务已有近14万项专利技术

Windows 10即将“停服”上热搜微软建议用户升级Win 11

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

小红书崩了上热搜客服回应：已在尽快处理

小米第三款车路测谍照曝光雷军测试小米汽车现身盘龙古道

谢霆锋成为荣耀未来科技体验官将亮相荣耀Magic8系列发布会

REDMI Turbo 5入网：预计第四季度发布全球首发天玑8500

微信员工回应好友互删后互动清除：并非新版本特性

网易云音乐回应登入李玟账号：已与网友新手机号解绑

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

董明珠称格力向特斯拉提供服务已有近14万项专利技术

京东双11今晚开启：现货开卖官方直降低至一折

AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Ga

影视飓风Tim送罗永浩顶配iPhone17ProMax 后者锐评：越做越难看

AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机

三星W26折叠屏手机官宣10月11日发布

站长商机