Nhóm chuyên gia nghiên cứu người Đức đã tìm ra một cách mới để đào tạo máy tính nhận dạng chữ tượng hình. Thậm chí làm cho nội dung của những chiếc bảng chữ hàng nghìn năm tuổi có thể tìm kiếm được giống như một trang web, giúp số hóa và tập hợp các thư viện lớn hơn về các văn bản cổ này.
Điều này có thể mở khóa những chi tiết chưa từng được biết đến trước đây về cuộc sống cổ xưa, vì những tấm bảng này chứa đựng những chi tiết về những kỳ công quan trọng như việc xây dựng đền thờ, cho đến những cuộc tranh cãi nhỏ nhặt như những lời phàn nàn về dịch vụ khách hàng .
Các học giả Đức đã đào tạo AI bằng hai ngôn ngữ chữ tượng hình là tiếng Sumer và tiếng Akkadian. Tiếng Sumer được nói bắt đầu từ khoảng 5.000 năm trước và cuối cùng nó được thay thế bằng tiếng Akkad, nhưng cả hai ngôn ngữ đều được sử dụng trong văn viết cho đến đầu kỷ nguyên Thiên chúa giáo ở Lưỡng Hà, nơi thuộc Iraq ngày nay và một phần của Iran, Kuwait, Syria và Thổ Nhĩ Kỳ.
Vì vậy, những tấm bảng chữ tượng hình để lại không chỉ được viết bằng nhiều ngôn ngữ mà còn có niên đại hàng nghìn năm. Các ký tự chữ tượng hình hình thành nên nền tảng của ngôn ngữ viết ở Lưỡng Hà cổ đại được khắc trên các tấm đất sét nên chúng có dạng ba chiều.
Cùng với đó, thực tế là chữ viết cổ đã bị phong hóa theo thời gian và cách xử lý, chất lượng của chúng có thể khiến chúng khó quét vào máy tính để các nhà sử học và khảo cổ học sử dụng chúng để nghiên cứu.
Giờ đây, bằng cách sử dụng mô hình 3D của khoảng 2.000 máy tính bảng, họ đã đào tạo một chương trình máy tính để quét văn bản và chép lại nó - giống như sử dụng máy ảnh trên điện thoại thông minh của bạn để biến một ghi chú viết tay thành tài liệu văn bản.
Nghiên cứu này không nhằm mục đích dịch nội dung của các tấm bảng mà nhằm giúp các nhà nghiên cứu khác thực hiện điều đó dễ dàng hơn. Và không chỉ sự tàn phá của thời gian đã bào mòn bề mặt đất sét không nung, khiến việc dịch thuật trở nên khó khăn hơn, mà một tấm bảng hoặc thậm chí một chuỗi văn bản nhỏ cũng có thể khó hiểu nếu không có ngữ cảnh - giống như cố gắng hiểu một cuốn sách bằng cách đọc một câu trên một trang ngay ở giữa. Chương trình AI mới có thể giúp lấp đầy những khoảng trống bằng cách cho phép người dịch làm việc hiệu quả hơn.
Tác giả nghiên cứu cao cấp Hubert Mara, trợ lý giáo sư tại Đại học Martin Luther Halle (Wittenburg, Đức), cho biết: “Cho đến nay, thật khó để truy cập nội dung của nhiều bảng chữ tượng hình cùng một lúc, bạn cần biết chính xác những gì bạn đang tìm kiếm và ở đâu”.
Những bảng chữ mà họ sử dụng để đào tạo chương trình máy tính của mình đến từ một bộ quét 3D truy cập mở, trong đó có các bảng chữ tượng hình của người Sumer từ nền văn minh sớm nhất được biết đến ở miền nam Lưỡng Hà, hiện là trung tâm nam Iraq.
Ngoài việc giúp các nhà nghiên cứu giải mã nội dung của bảng chữ tượng hình, hệ thống mới còn cho phép họ tạo ra một loại công cụ có thể hỗ trợ tìm kiếm được. Nội dung của những tấm bảng này sẽ giúp các nhà nghiên cứu hiểu rõ hơn về cuộc sống ở Lưỡng Hà cổ đại như thế nào.
"Mọi thứ đều có thể được tìm thấy trên đó, từ danh sách mua sắm đến phán quyết của tòa án. Những tấm bảng này cung cấp cái nhìn thoáng qua về quá khứ của nhân loại cách đây vài thiên niên kỷ. Tuy nhiên, chúng bị ảnh hưởng bởi thời tiết khắc nghiệt và do đó khó giải mã ngay cả đối với những con mắt được huấn luyện tốt", Mara nói.
Một phần của thách thức là đào tạo AI để nhận biết các chữ tượng hình và dấu hiệu tạo nên chữ tượng hình. Các nhà nghiên cứu đã cung cấp cho chương trình 21.000 dấu hiệu và 4.700 chữ tượng hình, tạo ra một bộ dữ liệu mới mà các nhà nghiên cứu khác muốn nghiên cứu chữ tượng hình có thể sử dụng.
Sau khi đào tạo AI, họ đã thử nghiệm nó trên các bảng chữ khác để xem độ tin cậy của nó như thế nào. Họ phát hiện ra rằng nó có thể phát hiện chính xác các dấu hiệu và chữ tượng hình với độ chính xác khoảng 76%. Và nó không chỉ hoạt động với các bản quét 3D chất lượng cao.
Ernst Stötzner, một sinh viên trong phòng thí nghiệm của Mara, cho biết: “Chúng tôi rất ngạc nhiên khi thấy rằng hệ thống của chúng tôi thậm chí còn hoạt động tốt với các bức ảnh, vốn thực sự là nguồn tư liệu kém hơn”.
Nhóm của Stötzner và Mara có kế hoạch sử dụng mẫu bảng chữ thậm chí còn lớn hơn để huấn luyện AI của họ và đạt được kết quả đọc chính xác hơn. Họ nghi ngờ rằng số lượng bảng chữ tương đối nhỏ có thể hạn chế độ chính xác của nó.
Để so sánh, một AI khác được đào tạo để nhận dạng một ngôn ngữ dựa trên chữ tượng hình khác đạt được độ chính xác 90%. Một khả năng khác là chia hình ảnh trên bảng chữ thành các phân đoạn nhỏ hơn làm AI có lượng thông tin ít hơn để xử lý tại một thời điểm. Nghiên cứu này xuất hiện trên tạp chí Eurographics Workshop về Đồ họa và Di sản Văn hóa số tháng 11.