首页 > 热点 > 关键词  > 人工智能科技公司最新资讯  > 正文

西湖心辰获百度、汤姆猫投资 大模型RIO能力已达GPT-3.5水平

2023-04-23 10:42 · 稿源:站长之家

站长之家(ChinaZ.com)4月23日 消息:据心辰科技官方消息,人工智能科技公司西湖心辰(杭州)科技有限公司宣布获汤姆猫战略投资,至此,汤姆猫将成为西湖心辰团队外的最大外部股东,本轮融资将主要用于多模态大模型的研发迭代以及业务拓展,持续推动公司大模型的通用人工智能能力提升,进一步深化布局AGI时代。

据了解,3月底,心辰科技已完成数百万美元的Pre-A轮融资,本轮融资由百度风投领投。

人机大脑 人工智能 AI

据悉,依托西湖大学深度学习实验室,西湖心辰成立于2021年7月。

在模型层,西湖心辰打造了千亿级参数的语言大模型RIO和双模态图文模型。从实测角度比较目前西湖心辰的RIO模型的能力相当于GPT-3.5水平,计划今年完成两次迭代,目标是达到甚至部分任务上超过GPT-4的表现。

应用层面,2022年8月西湖心辰推出了文本生成产品“Hey Friday”,此外,海外ChatGPT 刚出来不久,西湖心辰推出了「心辰Chat」。

举报

  • 相关推荐
  • 大家在看
  • Grounding with Google Search:利用Google搜索提升AI模型的准确性和信息新鲜度

    Gemini API和Google AI Studio现在提供与Google Search结合的Grounding功能,使开发者能够获得更准确、更新的响应,这些响应由Google搜索辅助的Gemini模型提供。此功能不仅可以提供更准确的响应,还能返回支持链接和搜索建议,引导用户找到与响应相对应的搜索结果。这一技术的应用,可以减少AI应用的虚构信息,提供最新的信息,增强AI应用的可信度,并且通过提供支持链接,增加发布者网站的流量。

  • Fish Agent V0.1 3B:高精度环境音频信息捕捉与生成的语音转语音模型

    Fish Agent V0.1 3B是一个开创性的语音转语音模型,能够以前所未有的精确度捕捉和生成环境音频信息。该模型采用了无语义标记架构,消除了传统语义编码器/解码器的需求。此外,它还是一个尖端的文本到语音(TTS)模型,训练数据涵盖了700,000小时的多语言音频内容。作为Qwen-2.5-3B-Instruct的继续预训练版本,它在200B语音和文本标记上进行了训练。该模型支持包括英语、中文在内的8种语言,每种语言的训练数据量不同,其中英语和中文各约300,000小时,其他语言各约20,000小时。

  • Wonder Animation:Autodesk推出的AI解决方案,将视频转换为3D场景的动画制作工具。

    Wonder Animation是Autodesk旗下的一款创新产品,它利用尖端的视频到3D场景技术,将任何视频序列转换成3D动画场景,加速动画电影制作流程。这项技术能够处理包含多个剪辑和不同镜头(广角、中景、特写)的影片和编辑序列,然后使用AI在3D空间中重建场景,并匹配每个摄像机与角色和环境的位置和动作关系。Wonder Animation的主要优点在于它能够为艺术家提供完全的创意控制权,与市场上其他依赖自动化输出的生成性AI工具不同,它赋予艺术家塑造自己愿景的能力。

  • cofounder:AI生成的应用,全栈+生成式UI

    cofounder是一个全栈AI生成的应用,它结合了后台、数据库和有状态的web应用。它基于应用架构的生成式UI,拥有AI引导的草图设计和模块化设计系统。这个项目还处于早期alpha阶段,但已经展现出强大的潜力,尤其是在快速原型设计和开发方面。它的目标是提供一个完整的本地、基于浏览器的开发环境,支持多种框架,并且通过集成的AI插件提供生成式设计系统。

  • LaunchGun:AI驱动的分析平台,优化产品在Product Hunt上的发布。

    LaunchGun是一个AI驱动的分析平台,旨在帮助独立制作者通过数据驱动的洞察和聚类分析来优化他们在Product Hunt上的发布。该平台通过聚合和分析Product Hunt上的公共数据,为用户在产品发布领域提供宏观视角。LaunchGun的主要优点包括聚类基础的产品分析、数据可视化、成功率跟踪、性能指标跟踪和时间序列分析,帮助用户识别趋势和最佳发布时机。产品背景信息显示,LaunchGun由一群对数据和产品发布充满热情的开发者创建,旨在通过最新的实时数据提供深入的分析和见解。

  • MeetingMind:AI会议记录分析应用

    MeetingMind是一个AI驱动的会议助理,帮助用户轻松捕捉、分析和执行会议洞察。该项目使用Langflow、Next.js和基于Groq的快速转录服务来分析会议并生成洞察。产品背景信息显示,MeetingMind旨在提高会议效率,通过自动化提取会议中的关键信息,如任务、决策、问题等,减少人工记录和后续整理的时间。产品的主要优点包括AI转录、关键信息自动提取和易于使用的界面。目前,该产品在GitHub上开源,用户可以免费使用。

  • Kiwi Fitness:AI驱动的个性化健身训练APP

    Kiwi Fitness是一款结合AI技术和健身训练的应用程序,它通过个性化的健身计划和游戏化元素,帮助用户提高体能和健康。产品背景信息显示,Kiwi Fitness利用研究支持的训练方法和引人入胜的内容,创建能够有效提升力量、耐力、灵活性和整体健康的健身程序。此外,它还提供了一个社交网络,让用户可以分享健身成果,跟随朋友的进步,并在支持性的社区中庆祝成就。Kiwi Fitness的价格定位是免费试用,用户可以通过应用商店下载体验。

  • MobileLLM:优化的小型语言模型,适用于移动设备

    MobileLLM是一种针对移动设备优化的小型语言模型,专注于设计少于十亿参数的高质量LLMs,以适应移动部署的实用性。与传统观念不同,该研究强调了模型架构在小型LLMs中的重要性。通过深度和薄型架构,结合嵌入共享和分组查询注意力机制,MobileLLM在准确性上取得了显著提升,并提出了一种不增加模型大小且延迟开销小的块级权重共享方法。此外,MobileLLM模型家族在聊天基准测试中显示出与之前小型模型相比的显著改进,并在API调用任务中接近LLaMA-v2 7B的正确性,突出了小型模型在普通设备用例中的能力。

  • Note This Down:AI智能转录手写笔记应用

    Note This Down是一款利用人工智能技术将手写笔记数字化的应用,它通过连接用户的Notion账户,上传手写笔记的照片,自动将手写文字转换成电子文本,并保存到Notion的新页面中。这款应用的主要优点包括高准确率的转录、直接与Notion集成、无限上传和转录、以及7天免费试用。Note This Down的背景信息显示,它旨在帮助那些喜欢手写笔记但又需要数字组织便利的用户。产品价格分为月付和年付两种,月付16美元,年付79美元,均提供7天免费试用。

  • KlipLab:AI名人语音生成器,创建逼真的配音和视频。

    KlipLab是一个利用人工智能技术的平台,允许用户使用名人、公众人物和虚构角色的声音来创建配音和唇形同步视频。用户只需选择一个声音,输入文本,KlipLab就能生成一个唇形同步的视频。这个技术的重要性在于它能够为视频内容创作者提供一种快速、高效的方式来制作高质量的视频内容,同时增加视频的吸引力和互动性。KlipLab提供了多种声音选择,并且支持高清视频输出,适合社交媒体和内容创作者使用。

  • Data Formulator:AI驱动的数据可视化工具

    Data Formulator 是微软研究团队开发的一款AI驱动的数据可视化工具,它通过结合用户界面交互和自然语言输入,帮助用户快速创建丰富的数据可视化图表。该工具可以自动处理数据转换,使用户能够专注于图表设计。Data Formulator 支持通过Python安装并本地运行,也可以在GitHub Codespaces中快速启动。它代表了数据分析和可视化领域的技术进步,通过AI技术提高了数据可视化的效率和易用性。

  • Syrnyk:一个拥有食谱生成器的美食博客。

    Syrnyk是一个美食博客网站,它不仅提供各种美食食谱,还拥有自己的食谱生成器应用。用户可以通过这个平台找到各种风格的食谱,包括早餐、午餐、晚餐和甜点等,满足不同用户的烹饪需求。Syrnyk的食谱生成器可以帮助用户根据口味和烹饪时间快速生成个性化食谱,创造自己的烹饪书。这个平台以其丰富的食谱内容和便捷的食谱生成功能,为用户提供了一个有趣的烹饪体验。

  • Zefi AI:将用户反馈转化为价值

    Zefi AI是一个商业产品,专注于将用户反馈集中化、分析并提取洞察,以指导更好的产品决策。它通过集成多种工具,提供一个统一的反馈概览,帮助企业理解用户反馈背后的原因和趋势,从而推动业务增长。Zefi AI以其企业级安全性、自动化反馈收集和标记、以及基于数据的产品决策支持而受到客户信赖。

  • D-FINE:重新定义DETRs中的回归任务为细粒度分布细化。

    D-FINE是一个强大的实时目标检测模型,它通过将DETRs中的边界框回归任务重新定义为细粒度分布细化(FDR),并引入全局最优定位自蒸馏(GO-LSD),在不增加额外推理和训练成本的情况下,实现了出色的性能。该模型由中国科学院的研究人员开发,旨在提高目标检测的精度和效率。

  • Font Guesser:字体识别游戏,挑战你的字体知识

    Font Guesser是一个在线互动游戏,旨在通过趣味的方式测试和提升用户对不同字体的识别能力。用户需要根据展示的字体样本猜测其类型,包括Display、Serif、Sans-Serif、Monospace、Handwriting和Decorative等。这个游戏不仅增加了用户对字体的认识,还能提升设计感和审美能力。产品背景信息显示,该游戏由Nitin设计并制作,旨在以趣味的方式教育用户识别和了解不同的字体。目前该游戏是免费的,适合所有对字体设计感兴趣的用户。

  • Personas:个性化音乐创作平台

    Suno是一个音乐创作平台,通过其最新功能Personas,用户可以捕捉并保存任何曲目的独特氛围,赋予其生命。Personas允许用户保存歌曲的本质——其人声、风格和氛围,并在新的创作中重新想象它。这就像是给曲目一个独特的身份,随时准备激发你的创造力。Personas让用户以音乐的本质为基础,创造新的音乐声音,这些声音承载着他们最喜欢的曲目的灵魂。通过公开Personas,不仅是关于你的音乐——它是一个邀请他人加入和协作的邀请。

  • MLX-Auto-Subtitled-Video-Generator:基于 Apple MLX 框架的视频字幕生成工具

    一款基于 Apple MLX 框架构建的开源字幕生成工具,针对苹果硅芯片 Mac 优化,高效且成本效益高。

  • Blendbox:AI艺术创作平台,让创意不受限制。

    Blendbox是一个基于AI的艺术创作平台,它通过提供非破坏性编辑、层级编辑和重组等功能,增强用户的创造力。用户可以轻松地对作品的各个层进行编辑和调整,实现前所未有的创作自由度。Blendbox的背景信息显示,它是由Blockade Labs开发的,旨在推动AI技术在艺术创作领域的应用。产品定位于专业设计师和艺术创作者,价格方面提供试用,具体定价未在页面中明确。

  • MimicTalk:快速生成个性化和富有表现力的3D会说话面部模型

    MimicTalk是一种基于神经辐射场(NeRF)的个性化三维说话面部生成技术,它能够在几分钟内模仿特定身份的静态外观和动态说话风格。这项技术的主要优点包括高效率、高质量的视频生成以及对目标人物说话风格的精确模仿。MimicTalk通过一个通用的3D面部生成模型作为基础,并通过静态-动态混合适应流程来学习个性化的静态外观和面部动态,同时提出了一种上下文风格化的音频到运动(ICS-A2M)模型,以生成与目标人物说话风格相匹配的面部运动。MimicTalk的技术背景是基于深度学习和计算机视觉领域的最新进展,特别是在人脸合成和动画生成方面。目前,该技术是免费提供给研究和开发社区的。

  • Agent S::一个开放的代理框架,让计算机像人类一样使用计算机。

    Agent S是一个开放的代理框架,旨在通过图形用户界面(GUI)实现与计算机的自主交互,通过自动化复杂多步骤任务来转变人机交互。它引入了经验增强的分层规划方法,利用在线网络知识和叙事记忆,从过去的交互中提取高级经验,将复杂任务分解为可管理的子任务,并使用情景记忆进行逐步指导,Agent S不断优化其行动并从经验中学习,实现适应性强且有效的任务规划。Agent S在OSWorld基准测试中的表现超过了基线9.37%的成功率(相对提高了83.6%),并在WindowsAgentArena基准测试中展示了广泛的通用性。

今日大家都在搜的词:

热文

  • 3 天
  • 7天