Hệ thống khai thác dữ liệu sáng chế để phân tích xu hướng công nghệ

Không chỉ là công cụ hữu hiệu phục vụ hoạt động tra cứu thông tin về sở hữu trí tuệ, hệ thống khai thác dữ liệu sáng chế và phi sáng chế do TS. Nguyễn Việt Anh và cộng sự ở Viện Công nghệ thông tin (Viện Hàn lâm Khoa học và công nghệ Việt Nam) phát triển còn có thể cung cấp những phân tích về xu hướng công nghệ, hỗ trợ các doanh nghiệp hoặc các nhà quản lý lựa chọn hướng phát triển KH&CN phù hợp.

Mô hình tổng thể hệ thống khai thác dữ liệu sáng chế và phi sáng chế do TS. Nguyễn Việt Anh và cộng sự phát triển. Ảnh: IOIT

Công cụ đem lại cái nhìn toàn cảnh về công nghệ

Trong số các cơ sở dữ liệu KH&CN trên thế giới, cơ sở dữ liệu thông tin sáng chế chiếm một vị trí đặc biệt: đây là nơi chứa rất nhiều thông tin công nghệ, có thể giúp các doanh nghiệp nắm bắt được sản phẩm mới hoặc các công nghệ mà đối thủ cạnh tranh đang áp dụng. Thậm chí, nhiều quốc gia còn coi đây là một trong những căn cứ quan trọng để xây dựng bản đồ công nghệ và chiến lược phát triển KH&CN. Khi chiểu theo giá trị thị trường như những hàng hóa khác, bản thân dữ liệu và phân tích dữ liệu sáng chế cũng có thể sinh lời bởi việc truy xuất dữ liệu của các hệ thống nước ngoài sẽ mất với mức phí hàng chục ngàn, thậm chí hàng trăm ngàn USD mỗi năm. Theo dự báo mới đây của tổ chức Fortune Business Insight, giá trị của thị trường phân tích thông tin sáng chế toàn cầu sẽ tăng lên gần 1,7 tỷ USD vào năm 2027.

Trong khuôn khổ Chương trình Phát triển tài sản trí tuệ giai đoạn 2016-2020 (Chương trình 68) do Cục Sở hữu trí tuệ (Bộ KH&CN) quản lý, TS. Nguyễn Việt Anh, Trưởng phòng Khoa học dữ liệu và ứng dụng và các chuyên gia trong lĩnh vực khoa học dữ liệu ở Viện Công nghệ thông tin, (Viện Hàn lâm KH&CN Việt Nam) đã được Chương trình 68 đặt hàng xây dựng “Hệ thống phân tích thực trạng, dự báo xu hướng phát triển công nghệ từ nguồn dữ liệu sáng chế và phi sáng chế” với mục tiêu có được một công cụ phân tích thông tin sáng chế như thế ở Việt Nam.

Khi bắt tay vào nghiên cứu, anh đã rà soát lại thông tin về cơ sở dữ liệu sáng chế quốc tế và tìm hiểu thực trạng của Việt Nam. Anh nhận thấy, việc xây dựng các hệ thống phân tích dữ liệu sáng chế phổ biến ở nhiều quốc gia phát triển như Hoa Kỳ, Nhật Bản, Hàn Quốc, Đức, Pháp,... “Cách đây nhiều năm, Hàn Quốc đã đầu tư hơn 4 triệu USD để xây dựng hệ thống phân tích dữ liệu sáng chế COMPAS, đồng thời có một viện nghiên cứu riêng nhằm vận hành hệ thống và một công ty hỗ trợ triển khai, thương mại hóa sáng chế”, TS. Nguyễn Việt Anh cho biết. Trước nhiều lợi ích mà một cơ sở dữ liệu hữu ích như thế mang lại, ngay cả doanh nghiệp tư nhân cũng tự phát triển các hệ thống riêng như công ty PatenPia (Hàn Quốc) với hệ thống PatentPia Golden Compass.

Việc tham khảo các cơ sở dữ liệu đó đã giúp anh định hình được công việc là “cần xây dựng một hệ thống có tính thực tiễn cao, có thể áp dụng với nhiều đối tượng, nhà sáng chế có thể dùng để tìm kiếm, kiểm tra sơ bộ tính mới của sáng chế, nhà quản lý cũng có thể nắm được xu hướng phát triển công nghệ để phục vụ việc xây dựng chính sách KH&CN, doanh nghiệp cũng có thể dùng để tìm kiếm các công nghệ để phục vụ nhu cầu của mình hoặc đánh giá thị trường, đối thủ cạnh tranh”.

Phiên bản đầu tiên hệ thống khai thác dữ liệu

Để đạt được mục tiêu này, bài toán đặt ra cho TS. Nguyễn Việt Anh và các cộng sự ở Viện Công nghệ thông tin là làm thế nào để thu thập dữ liệu sáng chế và xây dựng nền tảng khai thác các dữ liệu này. Cả hai yêu cầu này không hề đơn giản, nhất là việc phân tích dữ liệu sáng chế từ các cơ sở dữ liệu trên toàn thế giới. “Chúng tôi tìm đến một số cơ sở dữ liệu về sáng chế đáng tin cậy của thế giới để học hỏi cách làm của họ, tìm hiểu cách thức xử lý thông tin của họ trên cơ sở những thông tin miễn phí mà họ cho phép lấy mỗi tuần”, TS. Nguyễn Việt Anh cho biết một trong những vấn đề đầu tiên mà mình và nhóm nghiên cứu của mình cần giải quyết khi xây dựng dữ liệu. Để có thể giải quyết trọn vẹn vấn đề, nhóm nghiên cứu đã có ‘sáng kiến’ xây dựng hẳn một công cụ phần mềm riêng chỉ để phân tích dữ liệu và nghiên cứu thêm về xử lý dữ liệu. “Công cụ này giúp chúng tôi tìm hiểu dữ liệu nhanh hơn, và có được dữ liệu được xử lý một cách tốt nhất, qua đó cho phép chúng tôi xử lý thông tin nhanh hơn”, anh giải thích.

Cũng giống như phần lớn các cơ sở dữ liệu khác, công đoạn cốt lõi là chuẩn hóa dữ liệu, tạo ra một nền tảng đủ khả năng xử lý một lượng thông tin khổng lồ, giúp người dùng có thể tìm kiếm một cách dễ dàng và nhanh chóng. Tưởng chừng đây là điều thách thức song với TS. Nguyễn Việt Anh và các cộng sự, “vấn đề này cũng không quá phức tạp bởi chúng tôi cũng đã quen làm rồi. Mặt khác, đặc điểm của dữ liệu bằng sáng chế ở dạng bán cấu trúc với từng phần riêng như yêu cầu bảo hộ và chỉ phần mô tả là phi cấu trúc. Về tổng thể, thông tin sáng chế chia thành nhiều trường thông tin, phần nhiều ở dạng có cấu trúc nên việc chuẩn hóa cũng thuận lợi”.

Dựa trên những kinh nghiệm sẵn có và tham khảo các hệ thống quốc tế, nhóm nghiên cứu đã sử dụng hệ quản trị cơ sở dữ liệu mã nguồn mở MongoDB và kỹ thuật tìm kiếm Elastic Search. “Ưu điểm của cấu trúc này là rất linh hoạt, không hạn chế việc mở rộng dữ liệu, các dữ liệu được lưu trữ dưới dạng mở nên việc truy vấn thông tin sẽ diễn ra rất nhanh”, TS. Nguyễn Việt Anh cho biết. “Một điều thuận lợi là chúng tôi đi sau nên học hỏi được rất nhiều từ việc xây dựng các hệ thống khác trên thế giới như COMPAS của Hàn Quốc, IIP Patent DB của Nhật Bản,...”.

Do đó, sau hai năm xây dựng, TS. Nguyễn Việt Anh và cộng sự đã phát triển thành công một phiên bản đầu tiên hệ thống khai thác dữ liệu sáng chế và phi sáng chế, lưu trữ gần 5 triệu tư liệu sáng chế và gần 100 triệu dữ liệu thư mục về bài báo khoa học (tài liệu phi sáng chế) từ nhiều nguồn trên thế giới. Người dùng có thể dễ dàng và nhanh chóng tra cứu theo hai cách: tìm kiếm cơ bản bằng cách gõ từ khóa hoặc tìm kiếm nâng cao theo các trường thông tin cụ thể như tên, tác giả, phân loại, ngày nộp bằng, ngày ưu tiên,...

Điểm đáng chú ý nhất là hệ thống này chứa hơn 30 biểu mẫu phân tích dữ liệu sáng chế, cho phép người truy cập có thể ‘lấy’ được rất nhiều thông tin hữu ích như đánh giá sơ bộ điểm mới của sáng chế, xác định những chủ đơn sáng chế có số đơn nộp hàng đầu theo từng lĩnh vực, xác định những sáng chế quan trọng nhất trong một lĩnh vực,... “Rất nhiều đối tượng khác nhau đều có thể tận dụng khai thác được các tính năng này, chẳng hạn một người muốn nộp đơn bảo hộ sáng chế, muốn biết khả năng đơn này có được chấp nhận hay không, chỉ cần copy nội dung yêu cầu bảo hộ và tìm kiếm, hệ thống sẽ liệt kê những sáng chế gần giống nhất với tính liên quan giảm dần”.

Dù cần thêm thời gian để tiếp tục nghiên cứu, hoàn thiện sản phẩm thành phiên bản thương mại nhưng TS. Nguyễn Việt Anh đã mường tượng được “thói quen mới” của những người dùng tương lai. “Chẳng hạn, khi muốn tìm hiểu về một lĩnh vực công nghệ cụ thể, ai đó cũng có thể gõ từ khóa trong lĩnh vực đó. Ngay lập tức, hệ thống sẽ tự động tạo lập danh sách những công ty sở hữu nhiều sáng chế nhất, bao gồm cả những thông tin như công ty đấy ở đâu, bao nhiêu người, hoạt động trong những lĩnh vực gì, liên quan đến lĩnh vực chúng ta quan tâm thì công ty có bao nhiêu đơn hoặc bằng sáng chế được công bố trong khoảng thời gian nào”, TS. Nguyễn Việt Anh cho biết.

Nhưng lợi ích của một cơ sở dữ liệu sáng chế thì không chỉ dừng lại ở việc truy xuất đơn giản như vậy. Nó có thể giúp từ cá nhân đến doanh nghiệp có thể tiết kiệm công sức và tiền bạc đầu tư vào công nghệ “vì không phải lúc nào doanh nghiệp Việt Nam cũng cần những công nghệ hiện đại nhất…” đến việc hỗ trợ hoạt động nghiên cứu và quản lý công nghệ. “Không phải sáng chế nào cũng có giá trị như nhau, có những cái mang tính dẫn dắt cả một xu hướng công nghệ, có sáng chế chỉ là cải tiến thôi, hệ thống có thể xây dựng cây trích dẫn sáng chế trong từng lĩnh vực công nghệ để chúng ta có thể lần về lịch sử phát triển của ngành đó, xuất phát từ sáng chế gì, dẫn đến các sáng chế khác như thế nào, hiện tại ra sao,...”, TS Nguyễn Việt Anh nói về những khía cạnh có thể khai thác ở hệ thống anh xây dựng. Anh giải thích, “Với nhà khoa học, khi viết bài báo phải nêu ra được tính mới của vấn đề bằng cách điểm qua những nghiên cứu khác, với những người có kinh nghiệm lâu năm rất dễ dàng, nhưng đối với người mới vào nghề thì sẽ mất nhiều thời gian. Hệ thống của chúng tôi có thể hỗ trợ tra cứu công bố quốc tế trong các lĩnh vực công nghệ, tương tự như tìm kiếm sáng chế”.

Muốn tối ưu sản phẩm

Với những tính năng nổi bật và thử nghiệm cho kết quả khả quan, nhưng những người tạo ra hệ thống khai thác dữ liệu sáng chế và phi sáng chế này còn cảm thấy chưa thực sự hài lòng với kết quả. TS. Nguyễn Việt Anh cho biết “Hiện nay chúng tôi đang tìm cách phân loại sáng chế gần gũi với phân loại hiểu biết tự nhiên của con người. Thông thường, sáng chế được phân loại theo Bảng phân loại sáng chế quốc tế (IPC) rất phức tạp, người dùng phải am hiểu về lĩnh vực mình muốn phân tích thì mới đưa ra từ khóa tìm kiếm chính xác được. Bây giờ chúng tôi muốn áp dụng công nghệ học sâu trong xử lý ngôn ngữ tự nhiên để phát triển hệ thống phân loại riêng, làm sao khi người dùng đưa ra yêu cầu chung chung như ‘bức tranh phát triển ngành AI’ là hệ thống có thể hiểu được”.

Đây là một bài toán phức tạp mà các quốc gia phát triển trên thế giới vẫn đang đi tìm lời giải. “Điều khó nhất là dữ liệu rất nhập nhằng, dễ bị lẫn sang lĩnh vực khác, chẳng hạn trong lĩnh vực AI có từ khóa hệ thống thông minh, nhưng nếu tìm kiếm mở rộng mỗi từ ‘hệ thống’, kết quả trả về có thể bị lẫn sang các sáng chế khác, chẳng hạn hệ thống thủy lợi,... Dù khó nhưng đây là hướng nghiên cứu rất hay, nếu làm được thì chúng ta có thể nhìn toàn cảnh về các lĩnh vực công nghệ”, TS. Nguyễn Việt Anh giải thích.

Admin