AI·模型 | MY NEWS

AI·模型

Hacker News 2026-06-03 ★ ☆ ☆ ☆ ☆

Agentic Mfw

本文档为占位符页面，仅包含标题"Agentic Mfw"和"Comments"（评论）标记，无实质性技术内容。"Agentic Mfw"可能指代与智能体（Agent）相关的工作流（Workflow）或框架，但当前信息不足以确定具体含义。

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV：通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架，通过世界检索和压缩技术，在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构，可以通过简单的线性回归方法进行有效外推，在减少计算需求的同时表现出卓越的性能。

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench：评估主动个人助理代理在长视界工作流中的表现

个人助理代理（如OpenClaw）的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而，现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此，本文引入了π-Bench，一个包含100个多轮任务和5个特定领域用户角色的基准测试，用于评估主动式个人助理代理。

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text：超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法，用分层循环模型（HRM）替代标准 Transformer，将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环，并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算，在 M…

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

Video2GUI：合成大规模交互轨迹用于通用GUI智能体预训练

针对GUI智能体训练数据稀缺且依赖昂贵人工标注的问题，本文提出**Video2GUI**全自动框架，从无标注互联网视频中提取结构化交互轨迹。通过粗到细的过滤策略，从**5亿**视频元数据中构建出**WildGUI**数据集，包含**1200万**条交互轨迹，覆盖**1500+**应用和网站。基于Wi…

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

WorldKV：通过世界检索与压缩实现高效世界记忆

WorldKV 是一种无需训练的视频扩散模型框架，通过世界检索（World Retrieval）和世界压缩（World Compression）两个组件，在保持实时生成速度的同时，实现持久且一致的世界生成。世界检索将丢弃的 KV 缓存块存储在 GPU/CPU 内存中，并通过相机/动作对应关系选择性检…

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

π-Bench：评估长周期工作流中的主动式个人助理代理

π-Bench是一个评估主动式个人助理代理的基准，包含100个多轮任务，覆盖5个领域用户画像。它通过隐藏用户意图、任务间依赖和跨会话连续性，衡量代理在长时程交互中预测和满足用户需求的能力。实验表明主动式辅助仍具挑战，任务完成与主动性存在明显区别，且先前交互对后续意图解决有价值。

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

Toto 2.0：时间序列预测进入规模化时代

Toto 2.0 证明时间序列基础模型具有可扩展性：单一训练方案即可在 **4M 到 2.5B** 参数范围内稳定提升预测质量。该模型家族在 **BOOM**、**GIFT-Eval** 和 **TIME** 三大基准上达到最新最优水平，并开源了五个检查点（Apache 2.0 许可）。

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

Uni-Edit：智能编辑作为统一模型调优的通用任务

Uni-Edit提出了一种智能图像编辑任务，通过单一训练阶段和数据集，同时提升统一多模态模型的理解、生成和编辑能力。该方法利用自动化数据合成流水线，将多样化的VQA数据转化为复杂推理型编辑指令，生成Uni-Edit-148k数据集。实验表明，仅使用Uni-Edit进行调优，即可在BAGEL和Janu…

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

交互式评估需要一门设计科学

本文提出交互式评估应被视为一种原则性的评估范式，而非仅仅是智能体基准测试的新类别。随着大语言模型（LLMs）越来越多地作为随时间演进的系统部署，传统基于静态响应的评估方法已不适用。交互式评估的证据变为交互生成的轨迹，评估过程需关注过程、可恢复性、协调性、鲁棒性和系统级性能。文章提出了双轴分类法、设计…

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

Mega-ASR：通过扩展真实世界声学模拟实现野外语音识别

Mega-ASR 框架通过复合数据构建和渐进式声学到语义优化技术，提升了真实世界语音识别的鲁棒性。该框架引入 Voices-in-the-Wild-2M 数据集，覆盖 7 种经典声学现象和 54 种物理上合理的复合场景，并采用声学到语义渐进式监督微调和双粒度 WER 门控策略优化进行训练。实验表明，…

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

SEGA：用于扩散变换器中分辨率外推的谱能量引导注意力

SEGA通过在去噪步骤中根据潜在空间的空间频率结构动态缩放RoPE组件上的注意力，提高了高分辨率文本到图像生成的结构一致性和细节保真度。

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

IndusAgent：利用智能工具增强开放词汇工业异常检测

IndusAgent是一个工具增强的智能体框架，用于开放词汇工业异常检测。它通过构建结构化数据集Indus-CoT进行微调，并动态编排动态区域裁剪、高频特征增强和先验检索等外部工具，以解决多模态大语言模型在工业异常检测中的领域错位推理和幻觉问题。引入门控强化学习目标联合优化异常分类、定位、类型推理和…

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

大型音频语言模型综述：泛化、可信度与展望

大型音频语言模型（LALMs）在性能上取得显著进步，但其能力提升远超可信度框架的发展。本文系统调查了LALMs的内在机制，分析了从统一端到端框架到连续声学信号集成如何扩大攻击面，并建立了涵盖跨模态越狱、潜在声学后门和生物特征隐私泄露等关键漏洞的可信度分类体系。通过幻觉、鲁棒性、安全性、隐私、公平性和…

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

Spreadsheet-RL：通过强化学习推进大型语言模型在现实表格任务中的表现

Spreadsheet-RL 是一个强化学习框架，通过在真实的 **Microsoft Excel** 环境中训练专门的电子表格代理，提升 AI 代理在通用和特定领域电子表格任务中的性能。

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

两者兼顾：面向大语言模型上下文完整性的互补自蒸馏

**SELFCI** 是一种无需外部监督的自蒸馏框架，通过将信息抑制与任务解决解耦，实现大语言模型中隐私与效用的更好平衡。它联合优化两个独立的**反向KL散度**，分别从不同教师分布中学习：一个鼓励保留任务相关信息以提升效用，另一个强制最小且恰当的披露。这种互补设计形成**专家乘积（PoE）**目标…

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

你只需要最少的RLVR训练：通过秩一轨迹外推大语言模型

本文发现，基于可验证奖励的强化学习（RLVR）训练产生的参数轨迹具有极低秩结构，其性能提升主要由秩一近似捕获，且投影幅度随训练步数近线性增长。基于此，作者提出RELEX方法：仅需短观察窗口估计秩一子空间，通过线性回归外推未来检查点，无需额外学习模型。在Qwen2.5-Math-1.5B、Qwen3-…

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

生成式递归推理

GRAM将递归潜在推理转化为概率多轨迹计算，通过随机潜在轨迹支持多假设、并行推理和推理时扩展。该模型在结构化推理和多解约束满足任务上优于确定性基线，并具备无条件生成能力。

阅读全文 →

↗

AI·模型

Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

增强免训练无限帧生成以实现一致的长视频

MIGA是一种新型无限帧长视频生成方法，通过两阶段对齐机制减少训练-推理差距，并引入双一致性增强机制（自反思与长程帧引导）提升时间一致性，在VBench和NarrLV上达到最先进性能。

阅读全文 →

↗