Trợ lý giọng nói trên FPGA – Đồ án học kỳ 3 tích hợp AI tại FPT Jetking

Khám phá dự án trợ lý giọng nói trên FPGA của sinh viên FPT Jetking, tích hợp từ thiết kế phần cứng đến AI. Hệ thống xử lý real-time với độ trễ thấp, mở ra hướng đi mới cho kỹ sư vi mạch.

Mục lục

Tổng quan dự án trợ lý giọng nói trên FPGA

Trong bối cảnh các thiết bị thông minh ngày càng phổ biến, trợ lý giọng nói đã trở thành một phần không thể thiếu trong hệ sinh thái Smart Home, IoT và các nền tảng tự động hóa. Tuy nhiên, phần lớn các hệ thống hiện nay phụ thuộc vào CPU hoặc GPU, dẫn đến độ trễ cao và tiêu tốn nhiều tài nguyên.

Xuất phát từ bài toán đó, nhóm sinh viên lớp C1.2405.E0 tại FPT Jetking đã phát triển dự án “trợ lý giọng nói trên FPGA” – một hệ thống tích hợp giữa thiết kế vi mạch, hệ thống nhúng và trí tuệ nhân tạo. Dự án không chỉ dừng lại ở mức mô phỏng mà được triển khai thành một hệ thống hoàn chỉnh, có khả năng xử lý thời gian thực với độ trễ dưới 2 giây.

Định hướng và mục tiêu phát triển của dự án

Dự án được xây dựng với mục tiêu tạo ra một hệ thống voice assistant hoạt động hiệu quả trên nền tảng FPGA, tận dụng khả năng xử lý song song để tối ưu hiệu năng. Nhóm tập trung thiết kế toàn bộ pipeline từ phần cứng đến phần mềm, bao gồm thu nhận âm thanh, xử lý tín hiệu, nhận diện giọng nói và phản hồi thông minh.

Hệ thống hướng đến việc triển khai giao tiếp I2S hoàn chỉnh với chuẩn âm thanh 48kHz – 16bit PCM, đồng thời tích hợp Voice Activity Detection (VAD) trực tiếp trên phần cứng nhằm giảm tải cho CPU. Bên cạnh đó, việc sử dụng kiến trúc hybrid giữa Programmable Logic và hệ điều hành PetaLinux giúp hệ thống vừa đảm bảo xử lý real-time, vừa có khả năng kết nối với các mô hình AI hiện đại như Speech-to-Text, Large Language Model và Text-to-Speech.

Kiến trúc hệ thống và công nghệ cốt lõi

Điểm nổi bật của dự án nằm ở kiến trúc đa tầng, nơi mỗi thành phần đảm nhận một vai trò riêng biệt nhưng liên kết chặt chẽ với nhau. Phần cứng FPGA đảm nhiệm xử lý tín hiệu âm thanh thời gian thực, bao gồm các module như I2S RX/TX, bộ tạo xung clock và hệ thống VAD dựa trên FSM. Trong khi đó, hệ thống phần mềm chạy trên PetaLinux chịu trách nhiệm xử lý AI và giao tiếp mạng.

Một trong những điểm quan trọng là việc triển khai Dual DMA giúp truyền dữ liệu âm thanh hai chiều một cách độc lập, đảm bảo luồng dữ liệu ổn định và liên tục. Ngoài ra, kỹ thuật Clock Domain Crossing sử dụng FIFO mã Gray giúp đồng bộ dữ liệu giữa các miền xung khác nhau, hạn chế tối đa lỗi metastability.

Ở tầng AI, hệ thống tích hợp các công nghệ hiện đại như faster-whisper cho nhận diện giọng nói, các mô hình LLM thông qua nền tảng trung gian và piper-tts để tổng hợp giọng nói. Nhờ đó, hệ thống có thể thực hiện đầy đủ vòng lặp tương tác: nghe – hiểu – phản hồi.

Quy trình triển khai từ phần cứng đến AI

Quá trình phát triển dự án được chia thành nhiều giai đoạn rõ ràng, bắt đầu từ thiết kế phần cứng trên Vivado với các module xử lý tín hiệu. Sau đó, nhóm xây dựng các driver ở mức bare-metal bằng Vitis để kiểm tra khả năng thu phát âm thanh và đảm bảo hệ thống hoạt động ổn định.

Tiếp theo, hệ điều hành PetaLinux được tích hợp nhằm cung cấp môi trường chạy cho các ứng dụng AI và xử lý âm thanh thông qua ALSA driver. Cuối cùng, các mô hình AI được kết nối vào hệ thống, hoàn thiện một pipeline xử lý giọng nói end-to-end với độ trễ tối ưu.

Thách thức kỹ thuật và cách giải quyết

Trong quá trình thực hiện, nhóm đã đối mặt với nhiều thách thức phức tạp liên quan đến đồng bộ đa miền xung, độ trễ trong giao tiếp âm thanh và việc tích hợp nhiều tầng công nghệ khác nhau. Đặc biệt, việc xử lý Clock Domain Crossing giữa các tần số khác nhau đòi hỏi độ chính xác cao để tránh lỗi hệ thống.

Để khắc phục, nhóm áp dụng các kỹ thuật như sử dụng FIFO bất đồng bộ, đồng bộ reset nhiều tầng và kiểm soát cache khi làm việc với DMA. Ngoài ra, cơ chế VAD được cải tiến với ngưỡng thích ứng và khoảng trễ hợp lý giúp hạn chế kích hoạt sai do nhiễu môi trường.

Sinh viên trình bày đồ án trước hội đồng phản biển

Giá trị thực tiễn và điểm nổi bật của sản phẩm

Dự án trợ lý giọng nói trên FPGA mang lại nhiều giá trị thực tiễn khi chứng minh rằng một hệ thống AI hoàn chỉnh có thể được triển khai trực tiếp trên nền tảng phần cứng chuyên dụng mà không cần phụ thuộc hoàn toàn vào tài nguyên tính toán lớn.

Hệ thống đạt được độ trễ tương tác dưới 2 giây, hỗ trợ xử lý âm thanh hai chiều và có khả năng mở rộng thành các sản phẩm như smart speaker, thiết bị IoT thông minh hoặc robot tương tác. Việc triển khai VAD hoàn toàn trên phần cứng cũng giúp giảm đáng kể tải xử lý cho CPU, nâng cao hiệu suất tổng thể.

Kỹ năng và kiến thức sinh viên đạt được

Thông qua dự án, sinh viên đã tích lũy được kiến thức chuyên sâu về thiết kế vi mạch số, giao tiếp I2S, AXI Stream, DMA cũng như kỹ thuật đồng bộ hệ thống. Đồng thời, việc làm việc với PetaLinux và tích hợp AI giúp mở rộng năng lực sang lĩnh vực hệ thống nhúng và trí tuệ nhân tạo.

Quan trọng hơn, dự án rèn luyện tư duy thiết kế hệ thống toàn diện, từ mức RTL đến ứng dụng thực tế, cùng với kỹ năng debug và làm việc nhóm trong môi trường có độ phức tạp cao.

Đánh giá từ giảng viên và tiềm năng phát triển

Dự án được đánh giá cao nhờ tính ứng dụng thực tế, kiến trúc rõ ràng và chiều sâu kỹ thuật. Việc triển khai VAD trên phần cứng và tích hợp AI đa tầng là những điểm nổi bật thể hiện năng lực của sinh viên trong lĩnh vực thiết kế vi mạch hiện đại.

Trong tương lai, hệ thống có thể được nâng cấp bằng cách cải thiện giao diện người dùng, tối ưu tiêu thụ năng lượng và tích hợp các mô hình AI nâng cao hơn để tăng độ chính xác và khả năng tương tác.

Dự án trợ lý giọng nói trên FPGA không chỉ là một bài tập học kỳ mà còn là minh chứng rõ ràng cho khả năng ứng dụng kiến thức thiết kế vi mạch vào các hệ thống AI thực tế. Trong bối cảnh công nghệ ngày càng hội tụ giữa phần cứng và trí tuệ nhân tạo, những dự án như vậy chính là nền tảng để sinh viên FPT Jetking sẵn sàng bước vào các lĩnh vực công nghệ cao trong tương lai.

Xem demo đồ án nhóm qua video bên dưới nhé!

Giảng viên Trương Huy Hoàng