tmux command

为什么要用tmux 最近使用ms-swift, trl等库在服务器跑强化学习模型的训练和实验推理，通常涉及时间比较长。但如果直接在终端运行，关闭IDE后运行就终止，很占用时间。 tmux是一种“后端”的终端工具，在这中输入的指令不会由于关闭终端就终止，但其余操作与普通终端相同。所以在这里记录一下常用的tmux指令。常用指令操作命令 ...

May 10, 2025 Tutorial, tmux

Language-Image model

CLIP(Contrastive Language-Image Pre-train) 2021.01 text encoder + image encoder -> 类似 transformer 中的 Q* K Virtex ? Llava

Apr 19, 2025 Survey, Vision model

我的科研需补足的能力

在每周保持进度的过程中，总结、汇报是比较重要的事情。尤其是当要自己主导项目的推进、论文框架规划与展示，有成熟的技术栈对于进一步深造硕士/博士有重要的影响。在这里记录目前我作为新手的技术栈，并在之后观察学长、老师等更资深研究者的习惯来优化我的技术栈。展示PPT：LaTex Beamer(简约，而且不用花过多精力在排版上) PowerPoint 的功底其实也需...

Apr 15, 2025 Personal insights

MCP Server by Python, config in Cursor

2024年11月25日，Antrophic 提出 MCP（Model Context Protocol，模型上下文协议），提供Agent Tool call（工具调用）的统一格式。直至2025年4月9日，Google 官宣另一个Agent领域的协议A2A（可参考笔者另一篇介绍 A2A——Agent2Agent 的文章），并正式官宣支持 MCP，至此，MCP已成为业界公认的范式，一定程度上实现...

Apr 14, 2025 Tutorial, MCP

Agent Protocal:A2A(Agent2Agent) from Google

2025年4月9日，Google提出Agent领域又一个重磅的协议A2A(Agent2Agent)。面向场景：多智能体交互的对话框架。值得注意的是，Google突出强调这一协议的ToB前景——Enterprise Readiness。 A2A具体是什么，它与当前炙手可热的MCP(Model Context Protocol)又有怎么样的关联呢？ A2A 与 MCP A2A的官方文档...

Apr 13, 2025 Survey, Agent

Brief survey on Reinforcement Learning

汇报内容：各种强化学习方法对比科研中常见的强化学习算法主要可以分为以下几类：基于值函数的方法例如传统的 Q-learning 和 SARSA，以及它们的深度版本——深度 Q 网络（DQN）。在 DQN 基础上，还有 Double DQN、Dueling DQN 和 Prioritized Experience Replay 等变体，这类方法主要适用于离散动作空间，通过迭代更新...

Mar 29, 2025 Survey, RL

Brief survey on Multi-Agents System(MAS)

（持续更新中…) 目前两个主流的多智能体开发框架，其中langgraph是langchain的原生团队扩展开发而来，基础版本诞生于2024年6月，在7月进行的暑假实训，我们使用还未发布正式文档的langgraph开发了一个面向软件开发场景的多智能体应用，主要功能为引导用户描述需求并使用多个智能体：项目经理、技术架构师、多个工程师协同给出一个初步的完善开发文档。项目仓库：LangGraph-...

Mar 15, 2025 Survey, Agent

yolo v1

Mar 10, 2025 Paper, CV

Agent in LangChain

Agent 的核心概念 PPA（Perception，Planning，Action）区别 Agent 与常规 LLM 直观表现在： Agent 面向任务，循环执行 LLM 面向问题，单词执行 Agent prompt format: ReAct 循环的 Prompt：CoT，目前主流使用的 Prompt 格式：ReAct Input: Question Step ...

Oct 18, 2024 Tutorial, LangChain

What is RAG?

RAG 的全称是 Retrival-Augumented Generation. Retrieval 检索外部知识库（文档、网页、数据库等）。加载网页时，主要关注两点： PageRank，基于链接分析，网页的重要性 BM25/TF-IDF，基于内容，查询与网页内容的匹配度检索的主要方式向量检索：文本转换为向量（Embedding），通过向量相似度（余弦相似度）匹...

Sep 10, 2024 Survey, RAG