將純文字格式下,篩選出FQDN (Domain Name名稱)
TEXTのうちドメイン名までを正規表現を用いて抽出する(FQDN)
Regular expression which will match a valid domain name
背景說明:
公司因業務需要,原始來源為PDF格式,需將其內文中之FQDN網域位址,提取出來。可先經由pdftotext將PDF檔,轉換成TEXT格式後,再經由grep指令將FQDN抽出。
下列為BATCH批次檔
rem 將PDF檔先轉換成暫存純文字檔案
pdftotext %1 txtTempPDF.txt
rem 將PDF轉換完成為TEXT文字檔後,經由grep工具取出FQDN網域相關資訊
grep -E '[a-zA-Z0-9.\-_]{1,63}\.[a-zA-Z0-9.\-_]{1,63}' txtTempPDF.txt -o > Tipip_FQDN.txt
rem 開啟經由grep篩選出之FQDN資訊
explorer Tipip_FQDN.txt
相關篩選IP參考資訊:
(OpenSource)Pdftotext ,PDF文字轉換工具
https://myblog-johnnyit.blogspot.com/2021/09/pdfip.html