XML檔,文字編輯器打開,出現一堆HTML標記<>對稱TAG資訊,如何簡單去除TAG資訊方便我們解讀?
可透過下面PYTHON程式(BeautifulSoup模組)進行解析查看
右鍵傳送至XmlParser.py 快速傳遞檔案參數,直接轉換快速作法:
步驟一: 開始| 執行 | Sendto:shell , (即 C:\Users\YourName\AppData\Roaming\Microsoft\Windows\SendTo )
步驟二: 將下面程式另字成 XmlParser.py(右鍵傳送到桌面當成捷徑,產生lnk檔) ,並將該lnk檔案複製到上面SendTo資料夾內
步驟三: 點選您欲轉換之XML檔案,並按右鍵,指定給 XmlParser,即可快速執行XML格式檔案檢視
import sys
from bs4 import BeautifulSoup
def remove_html_tags(html):
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text(separator='\n', strip=True)
return text
def process_xml_file(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
xml_data = file.read()
# 假設 XML 内容位於 BODY 標記中,則可將其提取出来
start_index = xml_data.find("<BODY>") + len("<BODY>")
end_index = xml_data.find("</BODY>")
xml_body = xml_data[start_index:end_index].strip()
# 移除 HTML 標記,並整理為可讀性文本
text_content = remove_html_tags(xml_body)
# 產出結果至螢幕
print(text_content)
#將畫面將時暫停,方便複製下來,貼到EXCEL去分析,並按任意鍵後離開
input("Press any key to continue!")
if __name__ == "__main__":
if len(sys.argv) != 2:
print("Usage: python XmlParser.py <xml_file_path>")
sys.exit(1)
xml_file_path = sys.argv[1]
process_xml_file(xml_file_path)