5 thg 1, 2014

DocFetcher: Tìm nội dung tiếng Việt trong hàng loạt file văn bản

DocFetcher là ứng dụng mã nguồn mở cho Windows và Linux, giúp bạn tìm kiếm tập tin, thư mục hay nội dung bên trong file, email Outlook nhanh hơn bao giờ hết. Đặc biệt hỗ trợ tìm nội dung tiếng Việt.

Tải phiên bản mới nhất của chương trình tại đây, tương thích Windows XP/Vista/7/8 (32-bit và 64-bit). Yêu cầu Java.
Sau khi tải về, bạn kích đôi vào tập tin thực thi để tiến hành cài đặt, hoặc giải nén và chạy ngay chương trình nếu tải bản portable.
http://thienha-tran2000.blogspot.com/
Để sử dụng DocFetcher tìm kiếm nội dung file, việc đầu tiên bạn cần làm là thiết lập chỉ mục cho các thư mục chứa file muốn tìm kiếm. Tại mục Document Types bạn chọn vào các định dạng tập tin muốn tìm kiếm như là HTML, CHM, DOC, XLS, ODS… Sau đó, tại khung Search Scope, bạn nhấn phải chuột chọn Create Index From > Folder, chỉ đường dẫn đến thư mục muốn tạo chỉ mục, DocFetcher sẽ tự tạo ra một chỉ số cho tất cả các tài liệu có trong thư mục đó.
Lưu ý, lúc bạn chọn các định dạng ở phía trên, bên trong mỗi định dạng đó còn bao gồm nhiều định dạng con chẳng hạn như là MS Word 2007 (docx, docm), HTML (html, htm…). Để loại bỏ định dạng tập tin bất kỳ, bạn kích chọn vào biểu tượng dấu cộng ở trường Exclude files/detect mime type. Ví dụ để loại trừ các tập tin Microsoft Excel, tại cột Pattern (regex) bạn sửa lại thành .*\.xls là được.

 
Cuối cùng nhấn Run để chương trình bắt đầu lập chỉ mục, thời gian để hoàn tất việc này sẽ tùy thuộc vào số lượng và kích thước tập tin.
Bây giờ, để tìm kiếm một tập tin hay nội dung văn bản bất kỳ, bạn chỉ cần nhập từ khóa vào khung tìm kiếm phía trên (có thể nhập vào các từ khóa liên tục với nhau mà không cần dấu phẩy) rồi nhấn Search. Các kết quả trả về sẽ hiển thị ở khung nhỏ bên dưới thanh công cụ tìm kiếm, bạn nhấn tập tin bất kỳ để xem nội dung bên trong. Chương trình hỗ trợ tìm kiếm tốt các tập tin có nội dung bằng tiếng Việt.
http://thienha-tran2000.blogspot.com/

Không có nhận xét nào:

Đăng nhận xét