tmux command
为什么要用tmux 最近使用ms-swift, trl等库在服务器跑强化学习模型的训练和实验推理,通常涉及时间比较长。但如果直接在终端运行,关闭IDE后运行就终止,很占用时间。 tmux是一种“后端”的终端工具,在这中输入的指令不会由于关闭终端就终止,但其余操作与普通终端相同。所以在这里记录一下常用的tmux指令。 常用指令 操作 命令 ...
为什么要用tmux 最近使用ms-swift, trl等库在服务器跑强化学习模型的训练和实验推理,通常涉及时间比较长。但如果直接在终端运行,关闭IDE后运行就终止,很占用时间。 tmux是一种“后端”的终端工具,在这中输入的指令不会由于关闭终端就终止,但其余操作与普通终端相同。所以在这里记录一下常用的tmux指令。 常用指令 操作 命令 ...
CLIP(Contrastive Language-Image Pre-train) 2021.01 text encoder + image encoder -> 类似 transformer 中的 Q* K Virtex ? Llava
在每周保持进度的过程中,总结、汇报是比较重要的事情。尤其是当要自己主导项目的推进、论文框架规划与展示,有成熟的技术栈对于进一步深造硕士/博士有重要的影响。 在这里记录目前我作为新手的技术栈,并在之后观察学长、老师等更资深研究者的习惯来优化我的技术栈。 展示PPT:LaTex Beamer(简约,而且不用花过多精力在排版上) PowerPoint 的功底其实也需...
2024年11月25日,Antrophic 提出 MCP(Model Context Protocol,模型上下文协议),提供Agent Tool call(工具调用)的统一格式。直至2025年4月9日,Google 官宣另一个Agent领域的协议A2A(可参考笔者另一篇介绍 A2A——Agent2Agent 的文章),并正式官宣支持 MCP,至此,MCP已成为业界公认的范式,一定程度上实现...
2025年4月9日,Google提出Agent领域又一个重磅的协议A2A(Agent2Agent)。 面向场景:多智能体交互的对话框架。值得注意的是,Google突出强调这一协议的ToB前景——Enterprise Readiness。 A2A具体是什么,它与当前炙手可热的MCP(Model Context Protocol)又有怎么样的关联呢? A2A 与 MCP A2A的官方文档...
汇报内容:各种强化学习方法对比 科研中常见的强化学习算法主要可以分为以下几类: 基于值函数的方法 例如传统的 Q-learning 和 SARSA,以及它们的深度版本——深度 Q 网络(DQN)。在 DQN 基础上,还有 Double DQN、Dueling DQN 和 Prioritized Experience Replay 等变体,这类方法主要适用于离散动作空间,通过迭代更新...
(持续更新中…) 目前两个主流的多智能体开发框架,其中langgraph是langchain的原生团队扩展开发而来,基础版本诞生于2024年6月,在7月进行的暑假实训,我们使用还未发布正式文档的langgraph开发了一个面向软件开发场景的多智能体应用,主要功能为引导用户描述需求并使用多个智能体:项目经理、技术架构师、多个工程师协同给出一个初步的完善开发文档。项目仓库:LangGraph-...
Agent 的核心概念 PPA(Perception,Planning,Action) 区别 Agent 与常规 LLM 直观表现在: Agent 面向任务,循环执行 LLM 面向问题,单词执行 Agent prompt format: ReAct 循环的 Prompt:CoT,目前主流使用的 Prompt 格式:ReAct Input: Question Step ...
RAG 的全称是 Retrival-Augumented Generation. Retrieval 检索外部知识库(文档、网页、数据库等)。 加载网页时,主要关注两点: PageRank,基于链接分析,网页的重要性 BM25/TF-IDF,基于内容,查询与网页内容的匹配度 检索的主要方式 向量检索:文本转换为向量(Embedding),通过向量相似度(余弦相似度)匹...