Skip to content

一、什么是人工智能计算?

人工智能计算(AI Computing)是通过 算法模型 与 大规模数据 训练,使机器具备感知、推理、决策能力的计算范式,核心包含:

  • 训练阶段:使用GPU/TPU集群加速模型参数优化
  • 推理阶段:部署轻量化模型提供实时预测服务
  • 灵犀易算云平台定位:提供从数据管理、分布式训练到模型部署的全栈AI开发环境,支持TensorFlow/PyTorch等主流框架。

二、为什么需要云端AI计算?

典型应用场景

领域应用案例
计算机视觉图像分类、目标检测、医学影像分析、工业质检
自然语言处理机器翻译、智能对话、舆情分析、文档摘要
推荐系统电商商品推荐、短视频内容匹配、广告CTR预估
科学AI分子性质预测、蛋白质结构生成、气候模式建模

何时使用云端AI?

  • 本地GPU显存不足(如训练参数量>1亿的模型)
  • 需快速进行超参数搜索或大规模数据增强
  • 要求弹性扩缩容(如从单卡调试扩展到百卡训练)

三、灵犀易算云平台的AI开发优势

痛点传统本地开发灵犀易算云平台
环境配置依赖手动安装CUDA/cuDNN预置框架容器镜像(PyTorch 2.0+等)
资源利用固定硬件,空闲时浪费按需申请A100/V100 GPU,按秒计费
数据管理本地存储受限提供PB级共享数据集与高速缓存服务

资源选择策略

任务类型推荐配置
模型调试1×T4 GPU(低成本)
大模型训练8×A100节点(NVLink拓扑)
高并发推理T4+TensorRT量化

四、 新手快速上手

步骤1:准备开发环境

Bash
# 选择预置环境镜像(含PyTorch+CUDA)
yisuan env create --name=ai-lab \
  --image=registry.yisuan/pytorch:2.1-cuda12.1

# 挂载数据集(示例:ImageNet)
yisuan data mount /datasets/imagenet

步骤2:提交训练任务

Bash
# 单卡调试任务
yisuan submit \
  --type=ai_train \
  --gpu-type=a100 \        # 指定GPU型号
  --gpu-count=1 \          # 使用1块GPU
  --framework=pytorch \    # 自动加载环境
  --script="train.py \ 
    --batch-size=64 \ 
    --epochs=50"

# 多机分布式训练(16节点 x 8卡)
yisuan submit \
  --type=deepspeed \       # 分布式训练类型
  --nodes=16 \
  --gpu-per-node=8 \
  --script="deepspeed train.py \
    --deepspeed configs/ds_config.json"

步骤3:模型部署

Bash
# 将训练结果打包为推理服务
yisuan model export \
  --checkpoint=./output/model_final.pth \
  --format=onnx \          # 支持ONNX/TensorRT格式
  --output=deploy/

# 启动API服务(自动负载均衡)
yisuan deploy create \
  --model=deploy/model.onnx \
  --gpu-type=t4 \          # 推理优化GPU
  --replicas=4 \           # 启动4个服务实例
  --api-key=YOUR_KEY

五、 常见AI任务模板

5.1 自动化超参数搜索

Bash
# 使用Optuna进行超参数优化
yisuan submit \
  --type=hyperparam \
  --algorithm=optuna \     # 支持Optuna/Ray Tune
  --trials=100 \           # 并行试验次数
  --script="hpo_search.py \
    --param-space='{lr: [1e-5,1e-3], batch_size: [32,128]}'"

5.2 强化学习训练

Bash
# 启动多环境并行PPO训练
yisuan submit \
  --type=rl \
  --envs=2048 \            # 并行环境数量
  --algorithm=ppo \
  --script="train_rl.py \
    --env-name=Ant-v4 \ 
    --rollout-steps=5000"