每日AI资讯-05月27日

2025-05-27 15:24

视觉语言模型迎来大升级,Visual-ARFT让AI更聪明地“看图说话”

随着AI技术的飞速发展,尤其是大型推理模型,比如OpenAI的o3,研究者们正努力让这些模型不仅能处理文字,还能看懂和操作图像。最近,上海交大、上海人工智能实验室等团队联手推出了Visual-ARFT(视觉智能体强化微调)技术,让视觉语言模型更上一层楼。

Visual-ARFT的核心是让模型拥有“工具智能体”的能力。简单来说,就是模型不仅能看懂图像,还能主动调用外部工具,比如搜索引擎或代码编辑器,来完成更复杂的任务。比如,看到一张图片后,它能自己上网查资料,或者写代码来处理图片,完成视觉问答。

为了测试这个技术的效果,研究团队还搞了个新评测基准,叫MAT-Bench。测试结果显示,用了Visual-ARFT的模型在多个任务上都超过了GPT-4o等先进模型,潜力巨大。

值得一提的是,Visual-ARFT用的是强化微调的训练方法,通过简单的奖励机制,让模型自己学会怎么用工具,形成完整的推理过程。而且,训练时用的数据还不多,但效果却很好。

未来,Visual-ARFT不仅能让智能体更聪明,还可能在图像处理、智能搜索等领域大放异彩。我们期待看到更多智能体在复杂场景中的表现,推动AI技术不断进步。

Visual-ARFT

快手财报揭秘:可灵AI单季营收超1.5亿,商业化加速跑

5月27日,快手发布了2025年第一季度的财报,其中自研AI产品可灵AI表现抢眼,单季营收突破了1.5亿人民币,商业化能力杠杠的。

自2023年6月推出以来,可灵AI一直在不断迭代技术,保持全球领先,并在多个领域加速落地。现在,它已经广泛应用于广告营销、短剧创作、智能终端等行业,成了快手AI布局的重要一环。

在广告营销方面,可灵AI能智能生成创意并优化投放,大大提高了内容效率和转化率。在短剧和内容生产上,它的大模型能力能用于剧本创作、角色生成和配音,帮快手生态降本增效。在智能终端方面,可灵AI也拓展了语音助手、人机交互等功能,让终端更智能。

快手表示,可灵AI不仅是技术创新的成果,更是推动AI战略落地、实现长期增长的关键。未来,它还将在视频生成、虚拟人、直播助手等场景持续扩展应用边界。

这次财报显示了快手在AI商业化上的先发优势和实践成果,也预示着它正加速向技术驱动型公司转型。

可灵AI

Direct3D-S2横空出世,3D生成速度飙升近10倍!

最近,一款名为Direct3D-S2的3D生成框架引起了业界的热议。它通过创新的空间稀疏注意力(SSA)机制,显著提升了高分辨率3D图像生成的质量和效率,为千兆级3D生成提供了更可扩展的解决方案。

Direct3D-S2的核心是SSA机制,它专为处理稀疏体视数据设计,优化了扩散变换器的计算方式,降低了训练和推理的资源需求。据说,SSA机制让前向传播速度提升了3.9倍,反向传播速度提升了9.6倍,大大缩短了生成高分辨率3D模型的时间。相比传统方法,它在保持高质量输出的同时,还降低了训练成本。

此外,Direct3D-S2还采用了统一的稀疏体视变分自编码器,提高了训练的稳定性和效率。它能在1024³分辨率下训练,只需8块GPU,而传统方法通常需要32块GPU才能完成256³分辨率的训练。

在公开数据集上的测试中,Direct3D-S2的生成质量超越了现有最先进的方法,细节捕捉和几何精度都很出色。它生成的3D形状分辨率高,表面细节精细,适用于虚拟现实、游戏开发、工业设计等多个领域。

据最新消息,Direct3D-S2的代码和模型权重将在近期开源,这将进一步推动3D生成技术在全球开发者社区中的普及和应用。

Direct3D-S2,3d建模

秘塔AI搜索“极速”模型来袭,2秒响应不是梦!

秘塔AI搜索最近推出了全新的“极速”模型,这可是人工智能搜索技术的一大突破。它的响应速度达到了惊人的400tokens/秒,大部分问题2秒内就能得到答案。这不仅提升了用户体验,还大大提高了信息获取的效率。

这个“极速”模型之所以这么牛,得益于多项先进技术的应用。秘塔AI团队在GPU上进行了kernel fusion优化,同时在CPU上实施了动态编译优化。这些技术的结合让单张H800GPU的性能得到了最大化发挥。用户在使用过程中能明显感觉到,模型不仅响应更快,答案的准确率也提高了,逻辑结构更清晰。

为了让用户直观体验这个技术革新,秘塔AI搜索还提供了一个测速站点。用户可以随便输入问题,感受极速回答的魅力。这个测速站点只开放一周,已经吸引了很多用户来尝试。

在测试中,秘塔AI搜索随机选了两个问题来回答。一个是关于“撕拉片”突然火爆的原因,用了“极速”模式迅速作答,展示了模型的快速反应能力。另一个问题是关于CRISPR-Cas9在治疗遗传性疾病中的研究进展,用了“极速・思考”模式进行详细回答,展示了模型在处理复杂问题时的逻辑清晰度。

秘塔AI搜索团队表示,未来会继续致力于技术创新,不断提升AI的智能水平和用户体验。用户可以期待更多功能的推出和更高效的搜索体验。

秘塔AI搜索

夸克“高考深度搜索”上线,志愿填报不再愁!

高考临近,考生和家长们都在为志愿填报发愁。传统搜索引擎和新兴AI聊天工具给出的结果往往不准确,还混杂着广告和低质内容。为了解决这个问题,5月27日,夸克上线了行业首个面向高考志愿填报场景的“深度搜索”能力。

用户只需要在夸克搜索框里用最自然的方式询问高考志愿问题,勾选“深度搜索”后就能体验。夸克的高考深度搜索能力就像一位专业的“志愿规划师”。它会先理解用户意图,然后拆解为四个步骤执行:将二模分数换算为有效高考成绩、查询可填报志愿方案、分析目标院校的录取概率、综合评估后提供多梯度的个性化志愿填报方案。

整个过程中会涉及动态的智能检索和多轮校验,检索数据来自于夸克自建的高考知识库,确保数据专业可信。知识库不仅有历年志愿数据,还有考研、就业数据。其中就业数据覆盖全国上千所本科院校的就业去向,以及100多个主要城市的就业数据。

除了数据权威准确、推理过程经验丰富外,夸克还通过检索增强生成技术和强化学习,显著提升了在回答复杂问题时的内容正确性,减少了回答内容与事实或问题不一致的现象。

今年是夸克持续免费提供高考志愿填报服务的第七年。已上线的模拟选志愿功能让考生和家长可以基于模拟考成绩进行志愿预填报,提前掌握不同梯度的志愿方案。对于预填报中遇到的高校和专业问题,可以搭配“高考深度搜索”功能解决。

夸克

Claude要逆天!百万字符上下文+记忆功能即将上线

最近,Anthropic旗下的AI模型Claude的功能改进建议引起了广泛关注。这些建议涵盖了上下文窗口扩展、记忆功能增强、文件格式支持扩展等多个方面,预示着Claude可能迎来重大升级。

建议提出将Claude的上下文窗口扩展至100万字符(约1M Token),这将大幅提升模型处理超长文本的能力。相比当前约20万Token的上下文窗口,这一升级将使Claude能更高效地处理复杂文档、长篇代码库或跨领域知识整合任务,为学术研究、法律分析和大型项目管理等场景带来革命性提升。

新增记忆功能也是另一项备受期待的改进。记忆功能将使Claude能保留用户交互的历史信息,从而在多轮对话中提供更连贯、个性化的响应。这不仅能提升用户体验,还将为长期项目协作、持续性任务跟踪等场景提供强大支持。

建议还提到扩大Claude的输出Token数量限制,放宽这一限制将使模型能生成更详细的报告、代码或创意内容,满足用户对复杂任务输出的需求。

为进一步提升实用性,建议Claude支持更多文件格式,如xlsx(Excel表格)和zip(压缩文件)。这将使Claude能直接处理多样化的数据格式,适用于财务分析、数据处理和批量文件管理等场景。

在工具调用方面,建议Claude增加每次请求的工具调用次数,以媲美OpenAI o3模型的优秀表现。这将使Claude在自动化任务处理、外部API集成和复杂工作流执行方面更加高效。

尽管Claude在文本处理上表现卓越,但其视觉功能仍稍显滞后。建议通过改进视觉处理能力,使Claude能更高效地分析图像、图表或其他视觉数据,从而在多模态任务中与竞品抗衡。

Claude

百度心响iOS版来袭,智能体应用触手可及!

最近,百度心响iOS版正式上线了,这款多智能体协作应用的发布标志着智能体应用的普及进入了一个全新阶段。用户只需在苹果的APP Store里搜索“心响”就能免费下载,安卓用户也能自由使用。

心响APP的使用门槛非常低,不用邀请码,每天使用次数还不限。用户只需下载并注册就能开始使用各种智能体服务了,涵盖了旅游攻略、深度研究、法律咨询等多个场景。用户可以通过简单的文字描述向智能体提出需求,心响会自动拆解任务并执行。

比如用户想定制一份北京旅游攻略,只需选择几个人、旅行天数及预算,心响就能从全网收集相关攻略并给出详细的行程安排和路线图。这样用户不仅节省了大量时间还能获得更全面和专业的旅行建议。

此外心响在深度研究方面也展现出强大的能力。用户要求其解读小米最新发布的3nm芯片时,心响会主动收集相关资料分析市场影响并将结果以网页形式展示出来呈现出美观且条理清晰的报告。这种自主化的研究能力让用户可以轻松获取专业的信息。

在健康咨询领域心响也能提供与线下看诊类似的服务。通过与AI医生智能体的互动用户可以详细描述症状AI会基于用户提供的信息进行分析并最终生成综合多位医生意见的健康报告。未来心响还将推出“AI医学报告解读”功能帮助用户更好地理解体检结果。

心响的功能不断扩展旨在满足普通人日常生活中多样化的需求。其核心是一个主智能体与多个领域智能体的协同工作能够主动识别用户需求并自动执行任务。随着新功能的上线心响将继续提升其智能化水平成为用户身边的全能助手。

百度心响

相关新闻
热点新闻
精彩视频
投票
查看结果
Tags
AI达人赛事系统
欢迎来到AI达人平台!我们提供最新资讯、热门课程和活动,致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。
粤ICP备2025397953号
Copyright © 2025 广州君知纵横智能科技有限公司 版权所有