1. 機器學習協作管理平台簡介1. Introduction

本手冊針對系統管理者撰寫,介紹 Citrux AI 平台的後台管理功能。管理者可透過本平台進行 GPU 及儲存裝置 (Storage) 資源池的規劃、專案額度控管、帳號管理及系統參數設定。 This manual is for System Administrators to manage Citrux AI platform, including GPU/Storage resource pools, project quotas, user accounts, and system parameters.

2. 登入平台2. Login

請在管理者登入頁面輸入帳號與密碼。預設帳號通常為 adminLogin with admin credentials. Default username is admin.

🚀 Citrux AI

ADMIN CONSOLE

3. Dashboard3. Dashboard

【Dashboard】提供全域資源(GPU/CPU/RAM/Disk)的即時監控數據、節點健康狀態與任務概況。Provides real-time monitoring of global resources, node health, and job status.

Dashboard
Total GPUs
1,024
Allocated: 768
Node Status
256
Healthy: 254 | Maint: 2
Active Jobs
187
Pending: 34
Memory Usage
68%
Total: 128 TB
事件紀錄 (Event Logs)
Node-01 restored10:00
Node-05 High Temp09:45
Disk Full Warning09:30
資源使用趨勢 (Resource Trend)

4. 專案管理4. Project Management

4.1 專案列表Project List

呈現所有專案狀況,包含代號、名稱、期限、用途與 GPU 額度。管理者可在此「編輯」專案資源或成員。Overview of all projects. Admins can edit project resources or members here.

Project NameDeptStatusQuotaAction
AI-Research-LabR&D 使用中 128 Units
Demo-ProjectSales 緩衝期 8 Units

4.1.1 專案編輯4.1.1 Edit Project

點擊編輯後,可調整專案成員、可用資源(MLS/RCS 規格)、儲存空間與額度上限。Edit members, available resources (MLS/RCS specs), storage, and quotas.

編輯額度 (AI-Research-Lab)
GPU Quota (Units)
vCPU Quota (Cores)
RAM Quota (GB)

4.2 專案審核列表Project Audit List

處理使用者的專案申請、展延申請或額度變更申請。管理者可選擇「核准」或「駁回」。Process user requests for new projects, extensions, or quota changes. Approve or Reject requests.

5. 節點管理5. Node Management

5.1 節點列表Node List

監控叢集內所有實體節點的狀態。可切換檢視模式(格狀/清單)及篩選狀態(正常/維護/故障)。Monitor all physical nodes. Switch views (Grid/List) and filter by status.

3
總數
2
正常
0
維護
1
故障
node-01 (B200) 正常運行
GPU: 80% Used | RAM: 64/128 GB
node-03 (TPA) 故障
Error: GPU Not Detected

5.2 節點詳細資訊Node Details

點擊節點可查看詳細監控圖表(GPU/vCPU/RAM/Disk/Network)、電量消耗、運行中的容器與任務列表。Detailed monitoring graphs, power usage, running containers, and jobs for a specific node.

GPU Temperature (Last 1 Hour)

5.3 GPU 使用率GPU Usage

透過計算 GPU 使用率與容器建立時間長度,提供精準 GPU 使用時數統計。Accurate GPU usage hours based on utilization and container runtime.

6. 鏡像管理6. Image Management

6.1 鏡像管理列表Image List

瀏覽、查詢、刪除系統中的公用鏡像。可查看哪些 MLS 樣板正在使用該鏡像。Browse, search, and delete public images. Check which MLS templates are using them.

Image NameTagStatusActions
pytorch23.10-py3 使用中
custom-imagev1.0 未使用

6.2 鏡像匯入工具Image Import Tool

從 Docker Hub 或 NVIDIA NGC 匯入鏡像。輸入鏡像路徑(如 library/ubuntu:20.04)即可執行背景下載。Import images from Docker Hub or NVIDIA NGC. Enter image path to start background download.

7. 帳號管理7. Account Management

7.1 帳號列表Account List

管理一般使用者。可「新增帳號」、查看「最後登入時間」,或執行「封鎖/解鎖」。Manage users. Create accounts, check last login, block/unblock users.

UserEmailStatusLast Login
jessiejessie@citrux.aiActive2025/09/26
alexalex@citrux.aiBlocked2024/12/01

7.2 平台管理員列表Admin List

管理具有後台權限的帳號。分為「超級管理員」與「一般管理員」。超級管理員可設定一般管理員的功能權限。Manage admin accounts. Super Admins can configure permissions for General Admins.

7.3 操作紀錄Operation Logs

包含「使用者操作紀錄」與「管理員操作紀錄」。詳細記錄登入、資源建立、刪除、設定變更等行為,供資安稽核使用。Includes User Logs and Admin Logs. Records login, resource creation, deletion, and setting changes for auditing.

8. 設定8. Settings

8.1 規格與樣板Specs & Templates

定義使用者建立容器時可選用的硬體規格 (MLS Specs) 與軟體環境 (MLS Templates)。Define hardware specs (MLS Specs) and software environments (MLS Templates) for containers.

MLS 規格範例
  • p4-small: 1 GPU (P4), 4 vCPU, 16GB RAM
  • b200-large: 8 GPU (B200), 128 vCPU, 1TB RAM

8.2 專案設定Project Settings

8.2.1 用途設定

定義專案用途(如 Demo, 正式環境),並綁定預設額度。

8.2.2 使用條款

啟用後,使用者申請專案時需同意條款(支援 Markdown)。

8.2.3 時長設定

設定專案預設有效天數(如 30 天)。

8.2.4 自動審核

設定條件(如額度 < 4 GPU),符合則自動核准申請。

8.3 帳號設定Account Settings

非活躍掃描器
自動標記超過 30 天未登入的帳號。
開放註冊
允許使用者自行註冊帳號。

8.4 身份驗證來源設定 (LDAP)Auth Source (LDAP)

設定與企業 LDAP/AD 伺服器的連線,實現單一登入。支援 TLS 加密連線測試。Configure LDAP/AD connection for SSO. Supports TLS and connection testing.

8.5 儲存叢集Storage Clusters

管理者在此新增後端儲存設備 (NFS, MinIO, NetApp),供使用者掛載使用。Add backend storage (NFS, MinIO, NetApp) for users to mount.

新增儲存叢集
注意:若用於分佈式訓練,NFS Server 需設定 no_root_squash

8.6 進階設定Advanced Settings

設定容器生命週期(Instance Lifecycle)與系統參數(如閒置資源回收時間)。Configure container lifecycle and system parameters (e.g., idle reclamation).

9. 系統9. System

9.1 授權資訊License Info

License Status
有效期限: 2026/12/31
GPU 額度: 128 Units

9.2 報表Reports

匯出系統資源使用量、費用統計、單一專案報表等。Export usage, cost, and project reports.

9.3 平台公告Announcements

發布維護通知或公告,內容將顯示於使用者首頁。Publish maintenance notices, shown on user dashboard.

9.4 郵件伺服器Mail Server

設定 SMTP 資訊,用於發送系統通知信(如審核結果、告警)。Configure SMTP for system notifications.

9.5 管理員聯絡資訊Contact Info

設定顯示於使用者介面的管理員聯絡方式(Email/電話)。Set admin contact info shown to users.

9.6 錯誤處理Error Handling

查看並處理使用者操作失敗的系統異常紀錄(如資源開通失敗)。View and resolve system errors (e.g., provisioning failures).

9.8 系統幣別設定Currency Settings

設定計費報表顯示的幣別(TWD, USD, CNY 等)。Set currency for billing reports.