Validating skills for plugins

Tại sao việc xác thực lại quan trọng

Khi bạn xây dựng một kỹ năng hoặc tập hợp chúng thành một plugin, thực chất bạn đang tạo ra một sản phẩm nhỏ để người khác sử dụng. Tương tự như bất kỳ thứ gì bạn chuyển cho đồng nghiệp — như một biểu mẫu, một mô hình bảng tính hay một danh sách kiểm tra — việc chạy thử trước khi nó rời khỏi bàn làm việc của bạn là điều rất xứng đáng.

Khi bạn tự sử dụng một kỹ năng do chính mình tạo ra, bạn biết cách giải quyết mọi sự cố hoặc lỗi. Bạn biết chính xác nên hỏi gì, cung cấp tệp nào và kết quả sẽ như thế nào. Nhưng một người đồng nghiệp thì không có những thông tin đó. Họ có thể diễn đạt yêu cầu hơi khác một chút, đưa vào các đầu vào khác nhau hoặc gặp phải “trường hợp biên” (edge case) — một tình huống thực tế nhưng bất thường nằm ngoài thiết kế ban đầu của kỹ năng. Đó là lúc các kỹ năng dễ gặp lỗi và người dùng sẽ không hiểu tại sao.

Việc kiểm tra một kỹ năng bằng các bài đánh giá (evals) — viết tắt của evaluations — là cách bạn phát hiện những lỗi đó trước khi người khác gặp phải. Đừng để từ ngữ này làm bạn e ngại; một bài đánh giá thực chất chỉ là một lần dùng thử: một yêu cầu thực tế được đưa vào, bạn xem xét kết quả đầu ra và nói cho Claude biết cần phải sửa gì. Không cần mã code hay kịch bản kiểm tra — chỉ cần sự phán đoán của bạn về việc liệu kết quả đó có đủ tốt để bạn tự tin chia sẻ hay không.

Cách thức hệ thống đánh giá hoạt động

Khi bạn xây dựng một kỹ năng bằng skill-creator (trình hỗ trợ tích hợp của Claude để tạo kỹ năng), nó sẽ hướng dẫn bạn thực hiện các bài đánh giá như một phần của quy trình. Cụ thể quy trình diễn ra như sau:

  1. Tạo câu lệnh: Skill-creator sẽ đưa ra hai hoặc nhiều câu lệnh (prompts) thực tế mà ai đó có thể dùng với kỹ năng của bạn.
  2. Tạo cặp kết quả: Đối với mỗi câu lệnh, nó tạo ra một cặp kết quả đầu ra:
    • Một kết quả khi Claude sử dụng kỹ năng của bạn.
    • Một kết quả khi Claude trả lời cùng một câu lệnh đó mà không có kỹ năng của bạn.
  3. Điểm so sánh: Kết quả thứ hai đóng vai trò là điểm so sánh để bạn thấy rõ sự khác biệt mà kỹ năng của mình mang lại. Bạn không chỉ đánh giá “kết quả này có ổn không” mà là “kết quả này có tốt hơn những gì Claude tự thực hiện hay không”.

Đánh giá và Phản hồi

Bạn sẽ xem xét từng cặp kết quả và đưa ra phản hồi bằng ngôn ngữ tự nhiên ngay trên trang đánh giá. Khi đọc mỗi cặp, bạn thực chất đang trả lời hai câu hỏi:

  • Đây có phải là phiên bản tôi muốn sử dụng không? Nếu đúng, hãy ghi chú điều gì đã làm cho nó tốt hơn để kỹ năng tiếp tục phát huy.
  • Nếu không, điều gì còn thiếu hoặc chưa ổn? Hãy cụ thể. Ví dụ: “Giọng điệu quá trang trọng” hoặc “Nó đã bỏ qua phần tóm tắt điều hành” sẽ giúp Claude có cơ sở để hành động; trong khi câu “Cái này chưa đúng lắm” thì không giúp ích gì.

Cải thiện kỹ năng theo vòng lặp

Phản hồi của bạn chính là cách sửa lỗi. Sau khi bạn gửi phản hồi, Claude sẽ cập nhật kỹ năng — viết lại hướng dẫn, điều chỉnh các ví dụ, thắt chặt các yêu cầu — và bạn có thể chạy lại các câu lệnh đó để xem sự thay đổi có hiệu quả hay không.

  • Thay đổi từng thứ một: Nếu lần đầu cho thấy kỹ năng quá dài dòng và thiếu một phần nội dung, hãy chọn vấn đề quan trọng hơn để sửa, chạy lại, rồi mới quay lại đánh giá tiếp. Điều này giúp bạn biết yếu tố nào thực sự tạo ra sự thay đổi.
  • Lặp lại nếu cần: Nếu bạn vẫn chưa hài lòng sau khi sửa đổi, hãy chạy lại — đây là một vòng lặp chứ không phải chỉ thực hiện một lần. Hầu hết các kỹ năng sẽ sẵn sàng sau một hoặc hai vòng.

Tiêu chuẩn để hoàn thiện

Tiêu chuẩn để xuất bản một kỹ năng — cho chính bạn hoặc cho đồng nghiệp — không phải là những bài đánh giá hoàn hảo tuyệt đối. Tiêu chuẩn là các trường hợp bạn quan tâm phải đạt kết quả tốt hơn rõ rệt so với mức cơ bản, và bạn đã xác định được những trường hợp mà kỹ năng chưa xử lý được. Nếu kết quả đã trông tuyệt vời ngay từ lần đầu tiên, bạn đã hoàn thành. Các bài đánh giá tồn tại để mang lại sự tự tin chứ không phải là một thủ tục rườm rà.

Ví dụ thực tế về các trường hợp đánh giá

Dưới đây là ba ví dụ về cách so sánh giữa kết quả “Có kỹ năng” và “Không có kỹ năng”:

1. Trường hợp điển hình: Tóm tắt cuộc họp đồng bộ nhóm

  • Yêu cầu: Viết bản tóm tắt cho buổi họp sản phẩm hôm nay từ các ghi chú có sẵn.
  • Kết quả có kỹ năng: Cấu trúc rõ ràng, dẫn đầu bằng các Quyết định, liệt kê các Mục hành động có người phụ trách và ngày tháng cụ thể, đồng thời nêu rõ các Câu hỏi còn bỏ ngỏ. Nội dung ngắn gọn dưới 150 từ.
  • Kết quả không có kỹ năng: Viết dưới dạng các đoạn văn xuôi dài dòng, các mục hành động bị trộn lẫn trong văn bản và thiếu người phụ trách hoặc thời hạn rõ ràng.

2. Dữ liệu đầu vào lộn xộn: Tóm tắt họp từ ghi chú nháp

  • Yêu cầu: Tóm tắt buổi họp marketing từ các ghi chú thô, một nửa là tin nhắn Slack được dán vào.
  • Kết quả có kỹ năng: Vẫn lọc ra được các quyết định quan trọng (như dời lịch webinar). Trong phần mục hành động, nó biết gắn cờ những chỗ người phụ trách chưa rõ ràng (ví dụ: “chưa rõ người phụ trách — xác nhận lại với Priya?”) thay vì tự ý bịa đặt.
  • Kết quả không có kỹ năng: Có thể tự ý “phát minh” ra người phụ trách để điền vào chỗ trống hoặc để các câu hỏi quan trọng bị vùi lấp trong các đoạn văn.

3. Phong cách và Nội dung: Tóm tắt cho cấp quản lý

  • Yêu cầu: Tóm tắt cho lãnh đạo — cần cực kỳ ngắn gọn vì họ chỉ đọc 3 dòng đầu tiên.
  • Thử thách: Phiên bản có kỹ năng có thể trình bày tốt nội dung nhưng đôi khi đưa thông tin quan trọng nhất (như việc lùi ngày ra mắt) xuống dòng thứ 5. Trong khi đó, phiên bản không có kỹ năng có thể đưa ngay thông tin quan trọng lên dòng đầu tiên. Trong trường hợp này, bạn sẽ chọn phiên bản tốt hơn và yêu cầu Claude điều chỉnh lại kỹ năng để luôn đưa thông tin quan trọng nhất lên đầu.

Kết thúc một vòng đánh giá, Claude sẽ nhận các lựa chọn và phản hồi của bạn để chỉnh sửa kỹ năng cho phù hợp. Đó chính là toàn bộ quy trình vòng lặp để hoàn thiện một kỹ năng.

Resumed conversation: cec36271-68fb-47e4-8614-26ab2a271107

Tóm tắt

This source outlines the essential process of validating AI skills through a system of evaluations, or “evals,” which ensure that tools perform reliably for others. By using a side-by-side comparison, creators can measure the performance of a custom skill against a standard baseline to determine if the specialized instructions actually provide a meaningful improvement. The methodology relies on human judgment and iterative feedback rather than complex coding, allowing users to guide the AI with specific, plain-English critiques to refine its output. Ultimately, the goal of these evaluations is to build confidence and consistency, transforming personal workflows into high-quality, professional products that handle edge cases and varied inputs with ease.

Từ khóa: Validating plugin skills · Evaluation (eval) process · Claude skill-creator · Comparative output testing · Iterative feedback loops

Câu hỏi kiểm tra

1. Mục đích chính của Anthropic Academy là gì?

2. Trong quá trình đánh giá (eval) kỹ năng, tại sao việc so sánh kết quả 'có kỹ năng' và 'không có kỹ năng' lại quan trọng?

3. Bản tin 'AI Fluency' của Anthropic được gửi đến hộp thư của người đăng ký với tần suất như thế nào?

4. Khi lặp lại (iterate) để cải thiện một kỹ năng chưa đạt yêu cầu, bạn nên làm gì theo hướng dẫn?

5. Mô hình nào sau đây của Anthropic được liệt kê dưới dạng 'preview' (xem trước)?

6. Theo tiêu chuẩn 'House rules' (quy tắc trình bày) cho việc tóm tắt cuộc họp, nội dung nào nên xuất hiện đầu tiên?

7. Tại sao một người dùng thông thường có thể gặp khó khăn với một kỹ năng (skill) mà bạn vừa xây dựng nếu nó chưa được đánh giá kỹ?

8. Trong ví dụ 'Style vs. substance', lỗi nào khiến phiên bản 'có kỹ năng' bị đánh giá thấp hơn về quy tắc trình bày?

9. Nền tảng nào sau đây KHÔNG được liệt kê là đối tác cung cấp Claude trong phần 'Claude Platform'?

10. Khi đưa ra phản hồi để Claude chỉnh sửa kỹ năng, loại phản hồi nào được khuyến khích?

Thẻ học

1 / 25
Trong bối cảnh xây dựng kỹ năng cho AI, thuật ngữ "eval" là viết tắt của từ tiếng Anh nào?
Evaluations (đánh giá).

Nhấn thẻ để lật · Dùng nút để điều hướng

Nhớ: 0 / 25

Sơ đồ tư duy

Anthropic AI Ecosystem
  • Anthropic Academy
    • Featured Courses
      • AI Fluency
      • API Development
      • Model Context Protocol
      • Claude Code
      • Claude 101
      • Cowork 101
    • Learning Paths
      • Build with Claude
      • Claude for Work
      • Claude for Personal
  • Products & Models
    • Claude Family
      • Claude Code
      • Claude Cowork
      • Claude for Chrome/Slack/365
    • Model Versions
      • Opus
      • Sonnet
      • Haiku
      • Mythos Preview
  • Skill Development
    • Skill-Creator
      • API Guides
      • Deployment Best Practices
    • Evaluation Process
      • Evals (Try-outs)
      • Side-by-side Comparison
      • Feedback Loop
      • Iteration
  • Solutions & Verticals
    • AI Agents
    • Coding & Modernization
    • Customer Support
    • Healthcare & Life Sciences
    • Financial Services
    • Government & Nonprofits
  • Platform & Resources
    • Infrastructure
      • Amazon Bedrock
      • Google Cloud Vertex AI
      • Microsoft Foundry
    • Community
      • Partner Network
      • Startups Program
      • Developer Docs
  • Company Ethics
    • Claude's Constitution
    • Responsible Scaling Policy
    • Security & Compliance
    • Transparency

Tài liệu liên quan


Link Nguồn