2024-09-18

要读懂一篇学术论文，需要关注以下几个关键部分，以确保对论文的核心内容和贡献有清晰的理解：

标题和摘要：了解论文的主题和研究问题。摘要通常概括了研究的背景、方法、主要发现和结论，是快速了解论文整体内容的起点。
引言：引言部分阐述了研究背景、问题的重要性以及当前领域存在的研究空白。通过阅读引言，明确论文的研究目的以及提出的假设或问题。
研究问题和假设：清晰了解论文要解决的具体问题，以及作者提出的假设（如果有）。这有助于把握论文的核心目标。
方法部分：重点了解作者采用了什么研究方法来解决问题，包括实验设计、数据收集、分析手段等。评估这些方法是否合理且适用于该问题。
结果部分：了解研究的主要发现是什么，以及这些结果是如何通过实验或数据分析得出的。这部分应关注数据的呈现形式和分析的结果。
讨论和结论：作者如何解释研究结果？这些结果对领域有什么重要性？论文提出的结论是否解决了引言中的问题？作者对未来的研究有何建议？
参考文献：看论文引用了哪些重要的文献，了解研究的理论基础和作者与其他研究的联系。通过参考文献，你可以追溯与该领域相关的经典研究。
贡献和创新点：论文在哪些方面做出了独特的贡献？与其他类似研究相比，创新点是什么？

阅读全文

Windows系统上测试IP地址的端口是否开放

2024-09-18

Linux运维

要在Windows系统上测试IP地址 101.150.35.155 的端口 7860 是否开放，可以使用以下几种方法：

方法一：使用PowerShell的 `Test-NetConnection` 命令

打开PowerShell：
- 按 Win + X，选择 Windows PowerShell 或 Windows Terminal。

运行测试命令：

powershell
展开代码
Test-NetConnection -ComputerName 101.150.35.155 -Port 7860

查看结果：

如果端口开放，TcpTestSucceeded 会显示为 True。

例如：


展开代码
ComputerName     : 101.150.35.155
RemoteAddress    : 101.150.35.155
RemotePort       : 7860
InterfaceAlias   : Ethernet
SourceAddress    : 你的本地IP
TcpTestSucceeded : True

阅读全文

Python使用 Gradio 实现多张图片上传WebUI

2024-09-18

深度学习

使用 Gradio 实现多张图片上传并显示图片名称和尺寸

在现代应用中，用户经常需要上传多张图片进行处理或分析。Gradio 是一个非常方便的 Python 库，可以快速构建交互式的 Web 界面，方便用户上传图片、输入文本等。本篇博客将介绍如何使用 Gradio 实现多张图片的上传，并在服务器端处理这些图片，输出每张图片的名称和尺寸，以验证服务器已经成功接收了这些图片。

阅读全文

【深度学习】GOT-OCR2.0：一款端到端的 OCR 模型，镜像

2024-09-18

深度学习

随着光学字符识别 (OCR) 技术的不断发展，传统的 OCR 系统已无法满足日益增长的智能处理需求。在《General OCR Theory》这篇论文中，作者提出了一种新的通用 OCR 理论，称之为 OCR 2.0，并开发了 GOT（General OCR Theory）模型。GOT 模型能够处理各种类型的字符，包括常规文本、数学公式、分子结构、图表、乐谱等，并支持多种 OCR 任务，如场景文本、文档级 OCR 和格式化输出。

阅读全文

使用Kubernetes（K8s）进行多机多卡分布式训练

2024-09-14

深度学习

1. 引言

在深度学习模型训练过程中，随着模型的复杂度增加和数据量的增多，单机单卡的计算能力逐渐无法满足需求。多机多卡分布式训练可以显著缩短训练时间，并提高训练效率。本文将介绍如何构建一个适合的多机多卡训练环境，利用Kubernetes（K8s）来进行分布式训练资源的管理与调度。

阅读全文

【深度学习】torch.distributed.launch、torchrun、accelerate 和 deepspeed 对比解析

2024-09-13

深度学习

多机多卡深度学习训练：Python `torch.distributed.launch`、`torchrun`、`accelerate` 和 `deepspeed` 对比解析

随着深度学习模型规模的迅速增长，单机单卡的计算能力往往不足以满足训练需求。在多机多卡的环境中，分布式训练技术成为了加速训练的关键。本文将从工具角度出发，探讨几种常用的分布式训练工具：python -m torch.distributed.launch、torchrun、accelerate 和 deepspeed，分析它们的特点、优势、底层架构、如何使用以及是否可以交互使用。类似的还有Horovod、Ray Train，这里不介绍。

阅读全文

多机多卡训练中的极速数据互联：NVLink、RDMA与NCCL配置详解

2024-09-13

深度学习

在深度学习、大规模并行计算等高性能计算场景中，多机多卡训练（multi-node, multi-GPU training）是关键技术之一，它能够大幅提升训练速度并处理超大规模数据集。然而，在多机多卡的分布式训练中，如何实现各个计算单元之间的高效通信和数据传输是一个非常重要的问题。本文将基于以下几个技术点来详细探讨如何构建多机多卡的训练环境：NVLink、RDMA、NCCL_IB_DISABLE，并分析这些技术如何在分布式训练中确保高效的数据通信。

阅读全文

FakeLocation如何阻止强制更新弹窗

2024-09-13

工具使用

FakeLocation 可以辅助Android的一些便捷开发，但有时候打开后就有强制更新弹窗，很烦人。

看b站教程，可以用magisk+lsposed 里阻止弹窗，我以小米6测试一下如何使用。

LSPosed 安装教程的总纲是这样： https://github.com/LSPosed/LSPosed/wiki/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8

阅读全文

【深度学习】如何评估大语言模型（LLM）性能

2024-09-12

深度学习

如何评估大语言模型（LLM）性能

训练了一个大型语言模型（LLM）后，接下来的关键问题就是如何评估模型的好坏。评估LLM的性能不仅涉及到对模型的语言生成能力的测量，还包括对其通用性、鲁棒性和适应性等多个维度的考察。

本文将从以下几个方面探讨评估LLM的常用方法，并介绍各种评估指标与实践技巧。

阅读全文

【深度学习】探索大模型训练中的关键标签：system、user、role、content、assistant、observation、function

2024-09-11

深度学习

探索大模型训练中的关键标签：system、user、role、content、assistant、observation、function

在大语言模型（如 GPT-4、GPT-5）的训练和使用过程中，标签（tags）起到了至关重要的作用。通过这些标签，模型能够理解并处理不同类型的信息，准确识别对话的角色、内容、功能调用以及外部工具交互。这些标签帮助模型保持对话的上下文连贯性，执行复杂任务并生成高质量的响应。在这篇博客中，我们将深入探讨七个重要的标签：system、user、role、content、assistant、observation 和 function，并探讨它们在大模型训练中的作用和重要性。

阅读全文

【深度学习】什么是PPO训练?

2024-09-11

深度学习

PPO（Proximal Policy Optimization，近端策略优化）是一种强化学习算法，由OpenAI于2017年提出，主要用于解决强化学习中策略更新时的不稳定性问题。PPO是深度强化学习领域中非常流行的一种策略优化方法，因其高效性和稳定性，广泛应用于许多复杂任务中，如机器人控制、视频游戏AI和自然语言处理等。