Brief survey on Reinforcement Learning
汇报内容:各种强化学习方法对比 科研中常见的强化学习算法主要可以分为以下几类: 基于值函数的方法 例如传统的 Q-learning 和 SARSA,以及它们的深度版本——深度 Q 网络(DQN)。在 DQN 基础上,还有 Double DQN、Dueling DQN 和 Prioritized Experience Replay 等变体,这类方法主要适用于离散动作空间,通过迭代更新...
汇报内容:各种强化学习方法对比 科研中常见的强化学习算法主要可以分为以下几类: 基于值函数的方法 例如传统的 Q-learning 和 SARSA,以及它们的深度版本——深度 Q 网络(DQN)。在 DQN 基础上,还有 Double DQN、Dueling DQN 和 Prioritized Experience Replay 等变体,这类方法主要适用于离散动作空间,通过迭代更新...
(持续更新中…) 目前两个主流的多智能体开发框架,其中langgraph是langchain的原生团队扩展开发而来,基础版本诞生于2024年6月,在7月进行的暑假实训,我们使用还未发布正式文档的langgraph开发了一个面向软件开发场景的多智能体应用,主要功能为引导用户描述需求并使用多个智能体:项目经理、技术架构师、多个工程师协同给出一个初步的完善开发文档。项目仓库:LangGraph-...
Image Caption_yolo pretarin
初始化仓库 准备条件 本地创建文件夹,git bash 进入文件夹目录 Github 仓库创建完成,获取 <URL> // 初始化 git init git remote add origin <URL> git branch -m master main git pull origin main //更新链接 git remote set-u...
本文以实验室服务器(Linux Ubantu)为例,实现实验室服务器的代理服务配置 环境要求:vscode 连接服务器,在图形化界面进行操作 背景 实验室服务器分发的账号,通常没有 sudo 权限( 非root ) 且可能不允许直接科学上网( 直接访问 HugginFace、Llama) 但日常开发需求涉及: 安装配置软件环境 (conda、python、unzip)与可能涉及的科...