Cài đặt và cấu hình
Cấu hình chung: #
Ở phần cấu chung, có các tuỳ chọn bao gồm:
- Chạy toàn bộ các video: Giá trị là Có, không. Nếu chọn (có) thì Tool sẽ chạy hàng loạt, lần lượt từng video trong danh sách bạn thêm vào.
- Tăng tốc xử lý ảnh: Tích chọn nếu muốn tăng tốc xử lý ảnh khi tách frames
- Tăng tốc trích xuất frame: Tích chọn nếu muốn tăng tăng trích xuất Frames
Lưu ý: Trường hợp tích chọn 2 tuỳ chọn trên mà khi trích xuất frame bị lỗi, các bạn có thể bỏ đi và thử lại.
- Phương pháp trích xuất: #
Đây là phương pháp sử dụng khi trích xuất Frame từ video. có 2 phương thức là NHQ-CUDA và NHQ-CPU. Nếu máy có Card hình hỗ trợ như Nvidia thì hãy chọn CUDA để đạt được hiệu suất tốt nhất. Thường thì khi chọn NHQ-CUDA, kể cả đối với các máy không có Card hình (GPU) thì tốc độ vẫn tốt hơn NHQ-CPU.
- Vị trí trích xuất: Vị trí dựa trên chuyển cảnh trong video; Có 3 vị trí là đầu đoạn chuyển cảnh, giữa đoạn chuyển cảnh và cuối đoạn chuyển cảnh. Tuỳ vào các video mà các bạn chọn vị trí cho phù hợp. "Lưu frame giữa của đoạn chuyển cảnh" sẽ phù hợp với đa số các video.
- Ngưỡng: Ngưỡng phát hiện chuyển cảnh. Giá trị này thường từ 5-40 tuỳ vào độ phức tạp các khung hình của video, đối với các video truyện hay phim hoạt hình thì ngưỡng thường là từ 10-30.
Lưu ý: Giá trị ngưỡng phù hợp #
- Khi chọn NHQ-CUDA thì chọn ngưỡng là 5-15 là phù hợp với đa số các video, giá trị ngầm định là 10.
- Khi chọn NHQ-CPU thì ngưỡng hợp lý là từ 25-30 là phù hợp với đa số các video, giá trị ngầm định là 30.
Lựa chọn cắt vào (trái phải) và Cắt vào (trên dưới): Khi tách frames, Tool sẽ tự động cắt các phần thừa không cần thiết (các phần bị làm mờ trên video gốc). Tuy nhiên, các bạn vẫn có thể cấu hình cắt thêm vào bên trong của frames với tuỳ chọn cắt vào.
- Cắt vào (trái phải): Có nghĩa là tool sẽ cắt thêm vào bên trái và bên phải của frame đã trích xuất thêm n (pixel), ví dụ chọn là 50 thì sau khi trích xuất, tool sẽ cắt thêm vào 50 pixel mỗi bên trái phải.
- Tương tự với Cắt vào (trên dưới).
Cấu hình API Key: #
Hiện tại, tool chỉ hỗ trợ cấu hình APIKey đối với Gemini và VoiceMaker.
- APIKey Gemini phục vụ cho việc tạo phụ đề và dịch tự động bằng Gemini.
- API VoiceMaker: Dùng cho tạo giọng đọc AI Sử dụng dịch vụ của VoiceMaker.in
Cấu hình Phụ đề và Dịch: #
Trong phần này, các bạn có thể điều chỉnh cấu hình cho Tool khi tạo phụ đề và dịch phụ đề.
-
Tự động dịch: Nếu chọn thì tool sẽ tự động dịch sau khi tạo phụ đề từ Video gốc thành công với các tuỳ chọn về ngôn ngữ nguồn và ngôn ngữ gốc.
-
Độ dài tối đa của mỗi phụ đề: Đây là giá trị mà Tool cho phép đối với số lượng ký tự tối đa của 1 dòng phụ đề. Nếu số lượng ký tự của 1 dòng phụ đề nào đó vượt quá giá trị này, Tool sẽ báo lỗi và không hiển thị lên web (tuy nhiên tool vẫn lưu file srt ở trên máy để các bạn có thể tiện kiểm tra dòng bị lỗi và sửa lại nếu cần).
-
Model Gemini: Chọn Model AI của Gemini nếu các bạn sử dụng Gemini làm nguồn dịch thuật và phương pháp Speech to text. Tool sẽ sử dụng model này cho việc tạo phụ đề cũng như dịch phụ đề. Giá trị ngầm định là Gemini Flash 2.0.
-
Ngôn ngữ nguồn: Chọn ngôn ngữ gốc của video, để tạo phụ đề chính xác, các bạn nên chọn ngôn ngữ nguồn, trường hợp để tự động, tool sẽ tự động detect ngôn ngữ.
-
Ngôn ngữ đích: Chọn ngôn ngữ cần dịch phụ đề sang. Các bạn có thể chọn một lúc nhiều ngôn ngữ, tool sẽ dịch lần lượt từng ngôn ngữ một.
-
Nguồn dịch thuật: Lựa chọn nguồn dịch thuật phù hợp. Một số đặc điểm các nguồn dịch thuật như sau:
- GTrans: Google Translate - Free. Hỗ trợ hầu hết các ngôn ngữ và tốc độ dịch rất nhanh.
- ChatGPT: Sử dụng ChatGPT làm nguồn dịch thuật. Hiện tai, tool đang sử dụng ChatGPT 4o làm model ngầm định khi dịch.
- Claude: Sử dụng Claude AI (claude.ai) làm nguồn dịch thuật, Claude được đánh giá là rất tốt khi dịch thuật.
- DeepSeek: Một mô hình AI tiên tiến từ Trung Quốc, các bạn có thể sử dụng nó để làm nguồn dịch thuật, phù hợp với các video Tiếng Trung
- Gemini: Sử dụng Gemini AI của Google để làm nguồn dịch thuật, Gemini tận dụng được dữ liệu khổng lồ từ Google Translate qua nhiều năm vận hành, theo mình đánh giá thì hiện tại nếu để dịch nó đang là tốt nhất và lại miễn phí đến 1 triệu token.
-
Phương pháp Speech To Text: Phương thức tạo phụ đề từ video: Một số đặc điểm:
-
Whisper: Chạy trên máy của các bạn. Lưu ý, whisper khi sử dụng với NHQ Video Tools đã được tối ưu cho các trường hợp phần cứng khác nhau, do đó hiệu suất tốt hơn rất nhiều whisper gốc của OpenAI hay Faster Whisper. Tool sẽ tự động sử dụng phiên bản whisper phù hợp với Phần cứng của các bạn. Các model cũng được tối ưu hơn các model gốc giúp giảm dung lượng các model mà chất lượng vẫn không đổi.
-
Whisper Cloud: Nếu như phần cứng yếu, các bạn có thể lựa chọn whisper cloud: Dịch vụ whisper của NHQTools, tốc độ rất tốt và kết quả giống như khi sử dụn với whisper trên máy.
-
NHQ Latin: Hiện tại, đây là phương pháp được NHQTools đánh giá là tốt nhất, tốc độ nhanh nhất và ổn định nhất. NHQ Latin nhận dạng rất tốt đối với các ngôn ngữ không phải là chữ tượng hình.
-
NHQ WP: Cũng tương tự như Whisper và Whisper Cloud: NHQ WP sử dụng whisper làm nhân để nhận dạng giọng nói và tạo phụ đề, tuy nhiên tốc độ chậm hơn, đây là một phương án dự phòng trong trường hợp các Phương pháp khác không khả thi.
-
NHQ-AI-STT: # Tính năng nổi bật của NHQ AI STT đó là nhận dạng nhân vật, khi sử dụng phương pháp này, tool sẽ tự động trả về phụ đề đã được phân cụ thể từng nhân vật trong video giúp anh em có thể chọn giọng đọc cho nhiều nhân vật mà không phải ngồi kỳ cạch nghe và chọn giọng cho từng nhân vật trong phụ đề. Phương pháp này rất phù hợp với các anh em làm Review Phim, khi mà trong phim có các nhân vật nam, nữ... Ngoài ra, NHQ-AI-STT cũng là một trong những phương pháp nhận dạng giọng nói ổn định.
-
Gemini: Sử dụng Gemini AI để nhận dạng giọng nói và tạo phụ đề cho video. Cũng như dịch, Gemini được đánh giá ổn định và chất lượng tốt.
-
NHQ-Local: # Đây là phương pháp nhận dạng giọng nói và tạo phụ đề mạnh đối với các ngôn ngữ địa phương như Tiếng Trung, Nhật, Hàn, Thái... NHQ-Local chạy trực tiếp trên máy của các bạn do đó tốc độ tuỳ thuộc vào phần cứng, cấu hình máy. Nó đã được tối ưu cho các ngôn ngữ địa phương, nên tốc độ nhanh hơn rất nhiều so với whisper, đặc biệt là đối với các Video dài. Anh em Review phim và Truyện Trung Quốc sử dụng model này là hợp lý nhất và không tốn phí khi tạo phụ đề. NHQ Local miễn phí đối với các gói trả phí.
Cấu hình Tạo giọng đọc #
Ở mục này, các bạn có thể tuỳ chọn cấu hình tạo file giọng đọc từ phụ đề.
-
Tạo giọng cho tất cả các ngôn ngữ: Nếu như bạn muốn chạy tạo giọng hàng loạt cho tất cả các ngôn ngữ đã dịch, các bạn có thể tận dụng tính năng này. Tool sẽ tạo giọng cho toàn bộ các ngôn ngữ có trong danh sách.
-
Tự động điều chỉnh tempo: Khi chọn mục này, tool sẽ tự động điều chỉnh tempo (tốc độ của audio) để khớp hoàn toàn với phụ đề gốc của Video.
-
Ghép giọng thành file hoàn chỉnh: Ngầm định, tool không tạo giọng đọc thành file audio hoàn chỉnh để tiện cho các bạn có thể sử dụng các file audio lẻ theo từng dòng của phụ đề. Tuy nhiên, nếu bạn chọn, tool sẽ tự động ghép audio theo đúng timing trong phụ đề gốc.
Lưu ý: Vì tạo giọng đọc từ các file audio theo timing trong phụ đề gốc, nhưng nếu thời lượng của từng file audio dài hơn thời lượng trong phụ đề gốc thì âm thanh sau khi ghép lại sẽ bị chồng nhau nếu không chọn tự động điều chỉnh tempo. Do đó khi chọn ghép giọng thành file hoàn chỉnh, các bạn lưu ý nên chọn thêm điều chỉnh tempo tự động nhé.
-
Điều chỉnh tempo và pitch thủ công: Các bạn có thể điều chỉnh tốc độ, cao độ và âm lượng của audio ở mục này.
- Tốc độ: 1 là không thay đổi tốc độ, nhanh thì tăng lên ví dụ 1.05
- Cao độ: Thay đổi cao độ giọng đọc, giá trị từ 0-1
- Âm lượng: Thay đổi âm lượng video giá trị là từ 1-10
-
Số lượng thread: Tuỳ chọn này là điều chỉnh số luồng khi tạo giọng đọc, đối đa là 20. Giá trị càng cao thì càng nhanh, nhưng khả năng có lỗi phát sinh lớn hơn. Giá trị đề xuất là 10.
Cấu hình khác: #
-
Tự động lưu trạng thái: Nếu tích chọn, tool sẽ tự động lưu trạng thái của dự án, tránh trường hợp có vấn đề ví dụ mất điện, các bạn có thể tận dụng tính năng này để tải lại dự án đang làm dở.
-
Proxy: Nếu sử dụng ChatGPT làm công cụ để tạo voice, các bạn có thể nhập Proxy vào đây. ChatGPT tạo voice theo mình đánh giá là rất tốt và quan trọng nếu sử dụng tool, các bạn sẽ được sử dụng miễn phí tính năng này.
-
ChatGPT access token và Conversation ID: Là Access token được lấy tự địa chỉ https://chatgpt.com/api/auth/session khi các bạn đã đăng nhập xong. Đây là token theo session.
Conversation ID là gì? Khi các bạn sử dụng ChatGPT các bạn sẽ thấy địa chỉ Link có dạng: https://chatgpt.com/c/67e79632-9a78-800f-9134-cf03c08378a4 conversationID ở đây chính là 67e79632-9a78-800f-9134-cf03c08378a4
Tại sao lại cần conversation ID?
Conversation ID không bắt buộc nhưng nên có để tránh sai lệch nội dung khi chuyển văn bản thành giọng nói. Mình ví dụ như sau: Khi cuộc trò chuyện với ChatGPT với ID như trên, mình có prompt cho ChatGPT như sau:
"Bạn hãy in ra những gì tôi nhập vào, đừng thêm điều gì khác". Và từ đó, ChatGPT chỉ in ra những gì mình nhập vào, nó chính là đoạn text mà mình cần chuyển thành giọng đọc. Còn nếu không có prompt thì nó sẽ dựa trên đoạn text các bạn nhập vào để trả lời.
Ví dụ:
Khi không có conversation ID:
Khi có conversation ID:
Các bạn thấy đấy. Và bây giờ các bạn nhìn thấy ở câu trả lời của ChatGPT có biểu tượng cái loa nhỏ, đây chính là biểu tượng tạo âm thanh từ văn bản trả lời của ChatGPT.
Như trong ví dụ thì nó sẽ tạo âm thanh cho văn bản là "hello"
NHQ Video Tools dựa trên nguyên tắc đó để tạo giọng đọc.