Công cụ đem lại cái nhìn toàn cảnh về công nghệ
Trong số các cơ sở dữ
liệu KH&CN trên thế giới, cơ sở dữ liệu thông tin sáng chế chiếm một vị trí
đặc biệt: đây là nơi chứa rất nhiều thông tin công nghệ, có thể giúp các doanh
nghiệp nắm bắt được sản phẩm mới hoặc các công nghệ mà đối thủ cạnh tranh đang
áp dụng. Thậm chí, nhiều quốc gia còn coi đây là một trong những căn cứ quan
trọng để xây dựng bản đồ công nghệ và chiến lược phát triển KH&CN. Khi
chiểu theo giá trị thị trường như những hàng hóa khác, bản thân dữ liệu và phân
tích dữ liệu sáng chế cũng có thể sinh lời bởi việc truy xuất dữ liệu của các
hệ thống nước ngoài sẽ mất với mức phí hàng chục ngàn, thậm chí hàng trăm ngàn
USD mỗi năm. Theo dự báo mới đây của tổ chức Fortune Business Insight, giá trị
của thị trường phân tích thông tin sáng chế toàn cầu sẽ tăng lên gần 1,7 tỷ USD
vào năm 2027.
Trong khuôn khổ Chương
trình Phát triển tài sản trí tuệ giai đoạn 2016-2020 (Chương trình 68) do Cục
Sở hữu trí tuệ (Bộ KH&CN) quản lý, TS. Nguyễn Việt Anh, Trưởng phòng Khoa
học dữ liệu và ứng dụng và các chuyên gia trong lĩnh vực khoa học dữ liệu ở
Viện Công nghệ thông tin, (Viện Hàn lâm KH&CN Việt Nam) đã được Chương
trình 68 đặt hàng xây dựng “Hệ thống phân tích thực trạng, dự báo xu hướng phát
triển công nghệ từ nguồn dữ liệu sáng chế và phi sáng chế” với mục tiêu có được
một công cụ phân tích thông tin sáng chế như thế ở Việt Nam.
Khi bắt tay vào nghiên cứu,
anh đã rà soát lại thông tin về cơ sở dữ liệu sáng chế quốc tế và tìm hiểu thực
trạng của Việt Nam. Anh nhận thấy, việc xây dựng các hệ thống phân tích dữ liệu
sáng chế phổ biến ở nhiều quốc gia phát triển như Hoa Kỳ, Nhật Bản, Hàn Quốc,
Đức, Pháp,... “Cách đây nhiều năm, Hàn Quốc đã đầu tư hơn 4 triệu USD để xây
dựng hệ thống phân tích dữ liệu sáng chế COMPAS, đồng thời có một viện nghiên
cứu riêng nhằm vận hành hệ thống và một công ty hỗ trợ triển khai, thương mại
hóa sáng chế”, TS. Nguyễn Việt Anh cho biết. Trước nhiều lợi ích mà một cơ sở
dữ liệu hữu ích như thế mang lại, ngay cả doanh nghiệp tư nhân cũng tự phát
triển các hệ thống riêng như công ty PatenPia (Hàn Quốc) với hệ thống PatentPia
Golden Compass.
Việc tham khảo các cơ sở dữ
liệu đó đã giúp anh định hình được công việc là “cần xây dựng một hệ thống có
tính thực tiễn cao, có thể áp dụng với nhiều đối tượng, nhà sáng chế có thể
dùng để tìm kiếm, kiểm tra sơ bộ tính mới của sáng chế, nhà quản lý cũng có thể
nắm được xu hướng phát triển công nghệ để phục vụ việc xây dựng chính sách
KH&CN, doanh nghiệp cũng có thể dùng để tìm kiếm các công nghệ để phục vụ
nhu cầu của mình hoặc đánh giá thị trường, đối thủ cạnh tranh”.
Phiên bản đầu tiên hệ thống khai thác dữ liệu
Để đạt được mục tiêu này,
bài toán đặt ra cho TS. Nguyễn Việt Anh và các cộng sự ở Viện Công nghệ thông
tin là làm thế nào để thu thập dữ liệu sáng chế và xây dựng nền tảng khai thác
các dữ liệu này. Cả hai yêu cầu này không hề đơn giản, nhất là việc phân tích
dữ liệu sáng chế từ các cơ sở dữ liệu trên toàn thế giới. “Chúng tôi tìm đến
một số cơ sở dữ liệu về sáng chế đáng tin cậy của thế giới để học hỏi cách làm
của họ, tìm hiểu cách thức xử lý thông tin của họ trên cơ sở những thông tin
miễn phí mà họ cho phép lấy mỗi tuần”, TS. Nguyễn Việt Anh cho biết một trong
những vấn đề đầu tiên mà mình và nhóm nghiên cứu của mình cần giải quyết khi
xây dựng dữ liệu. Để có thể giải quyết trọn vẹn vấn đề, nhóm nghiên cứu đã có
‘sáng kiến’ xây dựng hẳn một công cụ phần mềm riêng chỉ để phân tích dữ liệu và
nghiên cứu thêm về xử lý dữ liệu. “Công cụ này giúp chúng tôi tìm hiểu dữ liệu
nhanh hơn, và có được dữ liệu được xử lý một cách tốt nhất, qua đó cho phép
chúng tôi xử lý thông tin nhanh hơn”, anh giải thích.
Cũng
giống như phần lớn các cơ sở dữ liệu khác, công đoạn cốt lõi là chuẩn hóa dữ
liệu, tạo ra một nền tảng đủ khả năng xử lý một lượng thông tin khổng lồ, giúp
người dùng có thể tìm kiếm một cách dễ dàng và nhanh chóng. Tưởng chừng đây là
điều thách thức song với TS. Nguyễn Việt Anh và các cộng sự, “vấn đề này cũng
không quá phức tạp bởi chúng tôi cũng đã quen làm rồi. Mặt khác, đặc điểm của
dữ liệu bằng sáng chế ở dạng bán cấu trúc với từng phần riêng như yêu cầu bảo
hộ và chỉ phần mô tả là phi cấu trúc. Về tổng thể, thông tin sáng chế chia
thành nhiều trường thông tin, phần nhiều ở dạng có cấu trúc nên việc chuẩn hóa
cũng thuận lợi”.
Dựa
trên những kinh nghiệm sẵn có và tham khảo các hệ thống quốc tế, nhóm nghiên
cứu đã sử dụng hệ quản trị cơ sở dữ liệu mã nguồn mở MongoDB và kỹ thuật tìm
kiếm Elastic Search. “Ưu điểm của cấu trúc này là rất linh hoạt, không hạn chế
việc mở rộng dữ liệu, các dữ liệu được lưu trữ dưới dạng mở nên việc truy vấn
thông tin sẽ diễn ra rất nhanh”, TS. Nguyễn Việt Anh cho biết. “Một điều thuận
lợi là chúng tôi đi sau nên học hỏi được rất nhiều từ việc xây dựng các hệ
thống khác trên thế giới như COMPAS của Hàn Quốc, IIP Patent DB của Nhật Bản,...”.
Do đó,
sau hai năm xây dựng, TS. Nguyễn Việt Anh và cộng sự đã phát triển thành công
một phiên bản đầu tiên hệ thống khai thác dữ liệu sáng chế và phi sáng chế, lưu
trữ gần 5 triệu tư liệu sáng chế và gần 100 triệu dữ liệu thư mục về bài báo
khoa học (tài liệu phi sáng chế) từ nhiều nguồn trên thế giới. Người dùng có
thể dễ dàng và nhanh chóng tra cứu theo hai cách: tìm kiếm cơ bản bằng cách gõ
từ khóa hoặc tìm kiếm nâng cao theo các trường thông tin cụ thể như tên, tác
giả, phân loại, ngày nộp bằng, ngày ưu tiên,...
Điểm
đáng chú ý nhất là hệ thống này chứa hơn 30 biểu mẫu phân tích dữ liệu sáng
chế, cho phép người truy cập có thể ‘lấy’ được rất nhiều thông tin hữu ích như
đánh giá sơ bộ điểm mới của sáng chế, xác định những chủ đơn sáng chế có số đơn
nộp hàng đầu theo từng lĩnh vực, xác định những sáng chế quan trọng nhất trong
một lĩnh vực,... “Rất nhiều đối tượng khác nhau đều có thể tận dụng khai thác
được các tính năng này, chẳng hạn một người muốn nộp đơn bảo hộ sáng chế, muốn
biết khả năng đơn này có được chấp nhận hay không, chỉ cần copy nội dung yêu
cầu bảo hộ và tìm kiếm, hệ thống sẽ liệt kê những sáng chế gần giống nhất với
tính liên quan giảm dần”.
Dù cần
thêm thời gian để tiếp tục nghiên cứu, hoàn thiện sản phẩm thành phiên bản
thương mại nhưng TS. Nguyễn Việt Anh đã mường tượng được “thói quen mới”
của những người dùng tương lai. “Chẳng hạn, khi muốn tìm hiểu về một lĩnh vực
công nghệ cụ thể, ai đó cũng có thể gõ từ khóa trong lĩnh vực đó. Ngay lập tức,
hệ thống sẽ tự động tạo lập danh sách những công ty sở hữu nhiều sáng chế nhất,
bao gồm cả những thông tin như công ty đấy ở đâu, bao nhiêu người, hoạt động
trong những lĩnh vực gì, liên quan đến lĩnh vực chúng ta quan tâm thì công ty
có bao nhiêu đơn hoặc bằng sáng chế được công bố trong khoảng thời
gian nào”, TS. Nguyễn Việt Anh cho biết.
Nhưng
lợi ích của một cơ sở dữ liệu sáng chế thì không chỉ dừng lại ở việc truy xuất
đơn giản như vậy. Nó có thể giúp từ cá nhân đến doanh nghiệp có thể tiết
kiệm công sức và tiền bạc đầu tư vào công nghệ “vì không phải lúc nào doanh
nghiệp Việt Nam cũng cần những công nghệ hiện đại nhất…” đến việc hỗ trợ
hoạt động nghiên cứu và quản lý công nghệ. “Không phải sáng chế nào cũng có giá
trị như nhau, có những cái mang tính dẫn dắt cả một xu hướng công nghệ, có sáng
chế chỉ là cải tiến thôi, hệ thống có thể xây dựng cây trích dẫn sáng chế trong
từng lĩnh vực công nghệ để chúng ta có thể lần về lịch sử phát triển của ngành
đó, xuất phát từ sáng chế gì, dẫn đến các sáng chế khác như thế nào, hiện tại
ra sao,...”, TS Nguyễn Việt Anh nói về những khía cạnh có thể khai thác ở hệ
thống anh xây dựng. Anh giải thích, “Với nhà khoa học, khi viết bài báo phải
nêu ra được tính mới của vấn đề bằng cách điểm qua những nghiên cứu khác, với
những người có kinh nghiệm lâu năm rất dễ dàng, nhưng đối với người mới vào
nghề thì sẽ mất nhiều thời gian. Hệ thống của chúng tôi có thể hỗ trợ tra cứu
công bố quốc tế trong các lĩnh vực công nghệ, tương tự như tìm kiếm sáng chế”.
Muốn tối ưu sản phẩm
Với
những tính năng nổi bật và thử nghiệm cho kết quả khả quan, nhưng những người
tạo ra hệ thống khai thác dữ liệu sáng chế và phi sáng chế này còn cảm thấy
chưa thực sự hài lòng với kết quả. TS. Nguyễn Việt Anh cho biết “Hiện nay chúng
tôi đang tìm cách phân loại sáng chế gần gũi với phân loại hiểu biết tự nhiên
của con người. Thông thường, sáng chế được phân loại theo Bảng phân loại sáng
chế quốc tế (IPC) rất phức tạp, người dùng phải am hiểu về lĩnh vực mình muốn
phân tích thì mới đưa ra từ khóa tìm kiếm chính xác được. Bây giờ chúng tôi
muốn áp dụng công nghệ học sâu trong xử lý ngôn ngữ tự nhiên để phát triển hệ
thống phân loại riêng, làm sao khi người dùng đưa ra yêu cầu chung chung như
‘bức tranh phát triển ngành AI’ là hệ thống có thể hiểu được”.
Đây
là một bài toán phức tạp mà các quốc gia phát triển trên thế giới vẫn đang đi
tìm lời giải. “Điều khó nhất là dữ liệu rất nhập nhằng, dễ bị lẫn sang lĩnh vực
khác, chẳng hạn trong lĩnh vực AI có từ khóa hệ thống thông minh, nhưng nếu tìm
kiếm mở rộng mỗi từ ‘hệ thống’, kết quả trả về có thể bị lẫn sang các sáng chế
khác, chẳng hạn hệ thống thủy lợi,... Dù khó nhưng đây là hướng nghiên cứu rất
hay, nếu làm được thì chúng ta có thể nhìn toàn cảnh về các lĩnh vực công
nghệ”, TS. Nguyễn Việt Anh giải thích.