AI视野：通义千问上线通义舞王；斯坦福炒虾机器人爆火；Midjourney艺术家数据库泄露；Meta发布AI调试工具HawkEye；小冰大模型获备案

2024-01-04 15:53 · 稿源：站长之家

新鲜AI产品点击了解：https://top.aibase.com/

🤖📱💼AI应用

通义千问上线通义舞王

阿里云通义千问APP近日上线了一项名为“通义舞王”的免费功能，用户只需在APP内输入相应口令并上传照片，系统即可生成个性化的舞蹈视频。

【AiBase提要】
💃 用户可以在通义千问APP内输入“通义舞王”或“全民舞王”等口令，上传照片后即可生成个性化的舞蹈视频。
💃 目前提供了12种热门舞蹈模板，用户可以让各种形象在网络上跳起热门舞蹈。
💃 这一功能是由阿里通义实验室自研的视频生成模型Animate Anyone实现的，其在Github上备受关注。

Meta发布生成式AI调试工具HawkEye

Meta发布了一款名为HawkEye的生成式AI调试工具，旨在解决机器学习模型在生产中面临的挑战。HawkEye引入了分支决策系统，通过实施决策树来加速识别和解决模型异常问题，并计划将其开源，推动整个行业在AI运维方面取得重要进展。

【AiBase提要:】
🚀Meta发布生成式AI调试工具HawkEye，解决机器学习模型在生产中的挑战。
⚙️HawkEye引入分支决策系统，加速识别和解决模型异常问题。
🌐Meta计划开源HawkEye，推动整个行业在AI运维方面取得进展。

Pile:一款内置OpenAI API的AI日记软件

Pile是一款内置OpenAI API的AI日记软件，可以帮助用户撰写和保存日记条目，记录思考和经历。

项目地址:https://top.aibase.com/tool/pile

【AiBase提要】
Pile是一款整洁美观的AI日记软件，内置OpenAI API，帮助撰写和保存日记，扩展思维广度。
AI搜索功能快速查找日记内容，对话式交互帮助理解思考过程。
Pile也注重用户的隐私和数据安全，保证用户的日记内容不会被泄露。

🤖📈💻💡大模型动态

小冰大模型获备案

小冰公司宣布已获得“小冰大模型”国内备案，结束静默期，正式发布一系列产品。

【AiBase提要:】
1️⃣小冰克隆人允许创作者通过小冰框架技术克隆自己并向粉丝发布;
2️⃣歌手克隆人分支X Studio已推出4.0版本，洛天依宣布加入;
3️⃣小冰数字员工升级为小冰大模型数字员工，为企业客户提供完整的数字化解决方案。

网易有道推出子曰大模型2.0

教育科技公司网易有道推出了国内首个教育大模型“子曰”2.0版本，并发布AI家庭教师“小P老师”。

【AiBase提要:】
👉 网易有道推出国内首个教育大模型“子曰”2.0版本。
👉 发布AI家庭教师“小P老师”，提供全学段、全学科的答疑支持。
👉 推出虚拟人口语私教Hi Echo2.0和有道速读，提升英语口语能力和快速理解文档内容。

维基百科+大模型打败幻觉!斯坦福WikiChat性能领先GPT-4

斯坦福研究人员利用维基百科数据训练大模型WikiChat，成功减轻了幻觉问题，并在事实准确性和对话性方面超过了其他模型。通过优化和改进，WikiChat在各个方面的性能都显著领先，尤其在事实准确性方面达到了97.3%。

论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf

项目代码:https://top.aibase.com/tool/wikichat

【AiBase提要:】
1. 斯坦福研究人员利用维基百科数据训练了大模型WikiChat，成功减轻了幻觉问题，并在事实准确性和对话性方面超过了其他模型。
2. 通过优化和改进，WikiChat在各个方面的性能都显著领先，尤其在事实准确性方面达到了97.3%。
3. 通过检索增强生成的方法，研究人员成功解决了大模型的幻觉问题，提高了模型的事实准确性和对话性能。

清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发

近期，清华、浙大等学府推动下出现了一系列性能优异的开源视觉模型，其中LLaVA、CogAgent和BakLLaVA备受关注。

论文地址:https://arxiv.org/pdf/2312.08914.pdf

【AiBase提要】
1️⃣ LLaVA、CogAgent和BakLLaVA是具有极大潜力的开源视觉语言模型。
2️⃣ LLaVA在视觉聊天和推理问答方面表现接近GPT-4水平。
3️⃣ CogAgent拥有更多功能和性能优势，支持高分辨率图像输入和OCR任务。

📰🤖📢AI新鲜事

斯坦福炒虾机器人爆火全网!成本仅22万元

斯坦福华人团队开发的炒虾机器人MobileALOHA成为了全网的热议话题。这个机器人能够炒菜、洗碗等各种复杂任务，仅用50个演示就能够让机器人始终如一地完成一项任务。

论文地址:https://mobile-aloha.github.io/resources/mobile-aloha.pdf

【AiBase提要】
斯坦福华人团队开发的炒虾机器人Mobile ALOHA刷屏全网，能完成各种复杂任务。
该机器人通过模仿学习，能够执行各种复杂的任务，并支持全身远程操控。
机器人成本低廉，仅为22万元，软件和硬件全部开源。

Midjourney训练AI使用的艺术家数据库名单泄露引发争议

Midjourney训练AI用的艺术家数据库泄露，包括知名艺术家如Banksy、David Hockney等。

【AiBase提要】
🔍Midjourney训练AI使用的艺术家数据库名单泄露，引发社交媒体批评和版权诉讼。
💬Midjourney首席执行官确认使用4000多位艺术家的名字进行生成式AI训练。
🤔该事件引发对未受监管的生成式AI发展的担忧，可能导致更多诉讼和国会听证会。

ChatGPT在儿科疾病诊断中错误率高达83%

发表在《美国医学会儿科杂志》上的一项研究表明，ChatGPT-4在儿科医学病例的诊断方面的准确率仅为17%，较去年一般医学病例的39%更低。

【AiBase提要:】
1. ChatGPT-4在儿科医学病例诊断方面准确率仅17%，比一般医学病例低39%。
2. ChatGPT难以识别疾病关系，需在准确可信的医学文献上进行专门培训。
3. 通过特定医学数据的培训和调整，有望提高聊天机器人的诊断准确性。

商汤科技推AI台灯元萝卜SenseRobot

商汤科技发布了一款名为“元萝卜SenseRobot”的台灯产品，该台灯具备AI离座感应和自动延时关灯功能，方便节能和使用。

【AiBase提要:】
元萝卜SenseRobot”外观设计灵感来源于宇航和科幻元素。
台灯产品中的AI坐姿提醒和AI专注度检测功能十分关键，能够准确识别不良坐姿，并通过语音提醒孩子矫正坐姿。
该台灯具备AI离座感应和自动延时关灯功能，方便节能和使用。

网友发掘最新旅游方式靠Midjourney V6“游”遍中国

知名博主“快刀青衣”利用Midjourney V6生成了9个国内著名景点的效果图，包括少林寺、天坛、长城、桂林山水、九寨沟、兵马俑等，通过AI“游”遍中国。

【AiBase提要】
1️⃣ 利用Midjourney V6生成的景点效果图让网友可以“游”遍中国的著名景点。
2️⃣ Midjourney V6版本更真实、更详细，但保留了对景点最美好的想象，不再有明显的AI痕迹。
3️⃣ Midjourney V6更倾向于使用光影效果增加图片的真实感，吸引了大量网友参与讨论、分享和二次创作。

👨‍💻💡🎯聚焦开发者

面部图像修复突破性AI方法Dual-Pivot Tuning

加利福尼亚大学洛杉矶分校和Snap Inc.的研究团队开发了一种名为“Dual-Pivot Tuning”的个性化图像恢复方法。其主要目标是确保恢复的图像对个体的身份和降质输入图像具有高保真度，同时保持自然外观。

项目体验网址:https://top.aibase.com/tool/personalized-restoration-via-dual-pivot-tuning

【AiBase提要:】
1. 🌐 图像修复是一个复杂的挑战，研究人员提出了名为“Dual-Pivot Tuning”的突破性AI方法，可以实现人脸模糊变高清。
2. 🤳 该方法使用有限的高质量个体图像集，以保持图像对个体身份的高保真性。
3. 📊 实验证明，“Dual-Pivot Tuning”技术在盲目和少数样本的个性化面部图像修复方面优于其他方法。

香港大学和微软推高效声音转换方法CoMoSVC

CoMoSVC是一种创新技术，可以将一个人的歌声转换成另一个人的歌声。这个项目由香港大学和微软亚洲研究员共同开发，通过一步采样实现快速高质量的声音转换，为音频转换领域带来重大进步。

项目地址:https://top.aibase.com/tool/comosvc

论文地址:https://arxiv.org/pdf/2401.01792.pdf

【AiBase提要:】
🔬 CoMoSVC设计了基于扩散的教师-学生模型，能理解和模仿不同歌手的声音特征，并快速有效地进行声音转换。
⚡️ CoMoSVC实现了一步采样，加快了处理速度，同时保持音频质量。
⚡️这项技术的出现将为音频转换带来更加高效和方便的解决方案。

HandRefiner:解决AI生图手部畸形难题

HandRefiner是一种可以修正形状不正常的手部图像的方法。在生成图像方面，目前的图像生成模型已经非常出色，但是在生成人类手部的图像时常常会出现问题，例如手指数量不对或者手形怪异。

模型下载地址:https://top.aibase.com/tool/handrefiner

项目地址:https://github.com/wenquanlu/HandRefiner/

【AiBase提要:】
能够精确地识别和修正生成图像中的畸形手部，保持图像其他部分的一致性
利用合成数据进行训练，学习不同手的样子来修正手部。
也可以用来修正脚或耳朵

视觉编码器VCoder:提高模型在识别图像方面的能力

VCoder是一个视觉编码器，旨在提高多模态语言模型（MLLM）在识别图像中的对象和理解图像场景方面的能力。它能够帮助模型更好地理解和分析图像内容。

项目地址:https://top.aibase.com/tool/vcoder

【AiBase提要】
💡VCoder提供额外的视觉编码器，使多模态语言模型（MLLM）能够更好地理解和分析图像内容。
💡VCoder能够处理特殊类型的图像，如分割图和深度图，提升模型识别和理解图像中不同物体的能力。
💡VCoder在对象识别任务中优于基线模型，在复杂场景中表现出更高的准确性和对象计数能力。

（举报）

相关推荐
大家在看

关键词：

通义千问

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
通义千问开源Qwen1.5-32B 模型系列

通义千问团队最新发布了Qwen1.5-32B模型系列，其中包括Qwen1.5-32B和Qwen1.5-32B-Chat。这些模型在模型架构上与之前的Qwen1.5系列基本相同，但参数量减少至32B，旨在提供更高效、更经济实惠的解决方案。此次发布旨在解决14B模型在智能体场景下能力弱和72B模型推理成本高的问题。

人工智能模型系列对话能力
阿里通义千问开源Qwen1.5-MoE-A2.7B模型

通义千问团队推出了Qwen系列的首个MoE模型，命名为Qwen1.5-MoE-A2.7B。这个模型只有27亿个激活参数，但性能却与当前最先进的70亿参数模型相媲美。Qwen1.5-MoE模型在性能、效率和推理速度方面取得了显著的优势，是推理训练的最佳实践之一。

Qwen1.5-MoE-A2.7B MoE架构 27亿参数模型
阿里云联发科合作：天玑9300成功集成通义千问大模型

全球领先的智能手机芯片供应商MediaTek联发科，在最新旗舰产品天玑9300等系列芯片上，成功集成了通义千问大模型，此举标志着大模型技术首次在手机芯片端实现深度适配。值得关注的是，通义千问在无需网络连接的情况下，仍能顺畅支持多轮AI对话，这一突破为用户带来了更为便捷和智能的离线体验。此次合作不仅将提升手机在人工智能领域的性能表现，也为整个行业带来了新的发展机遇和前景。

手机芯片智能手机通义千问
通义千问开源基于Qwen1.5的代码模型CodeQwen1.5

通义千问昨晚开源了基于Qwen1.5的代码模型CodeQwen1.5，这是一个基于Qwen语言模型的代码专家模型。CodeQwen1.5拥有7B参数，采用GQA架构，经过约3Ttokens代码数据的预训练，支持92种编程语言，并且能够处理最长64K的上下文输入。开源社区对CodeQwen1.5的发布充满期待，希望它在代码助手、CodeAgent等方面为社区做出贡献，并在未来的代码智能建设中发挥重要作用，实现真正的AI程序员。

通义千问 CodeQwen1.5 AI头条
Midjourney指控Stability AI员工入侵其数据库并窃取图像

据AI爱好者NickSt.Pierre最近在X上分享的消息，周六发生了一起被指称为侵犯知识产权的事件。StabilityAI的员工入侵了Midjourney的数据库，窃取了所有的提示和图像对，这一行为还导致了长达24小时的服务中断。在这场AI公司之间的冲突中，让我们拭目以待进展，看看这一事件是否会对这两家公司之间的关系产生持久影响。

Midjourney StabilityAI AI头条
通义千问开源新Qwen1.5-32B模型推理速度更快，成本更低

通义千问近期开源了新的Qwen1.5-32B模型，该模型在语言理解、支持多语言、编程和数学能力方面表现出色。Qwen1.5-32B模型不仅支持多语言融合了GQA技术，使得模型在推理方面的效率更高，同时降低了部署成本。Qwen1.5-32B模型的开源将为语言理解和推理技术的发展带来重大影响，为解决复杂问题提供了更加强大的工具和资源。

Qwen1.5-32B模型通义千问 AI头条
荐AI日报：天工SkyMusic开启公测；UP主用AI技术“复活”巨人族；通义千问开源代码模型CodeQwen1.5；免费AI音乐生成工具Sonauto

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/昆仑万维「天工3.0」与「天工SkyMusic」音乐大模型开启公测昆仑万维推出的「天工3.0」和「天工SkyMusic」音乐大模型开启公测，彰显了其在AI领域的技术实力和创新能力。亮点提要:⭐3

天工SkyMusic
Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

MetaAI研究人员今天发布了OpenEQA，这是一个新的开源基准数据集，旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界，从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准，其中包含超过1，600个关于180多个真实环境的问题。为了衡量人工智能代理的性能，研究人员使用大型语言模型自动评分，衡量人工智能生成的答案与人类答案的相似程度。

Meta OpenEQA AI头条
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

MetaAI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果，证明了其在多模态视频理解应用中的有效性和多功能性。

MA-LMM AI头条
荐AI日报：最强大模型Llama 3发布；Midjourney推社交新功能Room；超强AI视频自动剪辑工具Captions；手机上可以玩大模型了

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、最强大模型Llama3正式发布Llama3是Meta公司最新发布的开源模型，拥有80亿和700亿参数规模，预计7月正式发布。教师免费使用该AI平台设计个性化课堂体验，提供实时洞察力支持学�

Llama3

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

AI视野：通义千问上线通义舞王；斯坦福炒虾机器人爆火；Midjourney艺术家数据库泄露；Meta发布AI调试工具HawkEye；小冰大模型获备案

今日大家都在搜的词：

热文

站长商机