lxml: мощный инструмент для обработки XML в Python
Библиотека lxml позволяет легко и эффективно работать с XML данными в Python. Она сочетает скорость и функциональность Си библиотек libxml2 и libxslt c простотой языка Python.
Установка и подключение библиотеки lxml в Python
Установить библиотеку lxml можно несколькими способами:
- С помощью менеджера пакетов pip:
pip install lxml
- В системах на базе Debian через apt-get:
sudo apt-get install python3-lxml
- Скачав исходный код с GitHub и скомпилировав вручную.
После успешной установки подключить библиотеку можно стандартной конструкцией:
import lxml
или для использования основных функций:
from lxml import etree
Чтобы убедиться, что библиотека подключилась, можно вызвать функцию lxml.__version__
, которая вернет номер актуальной версии.
Создание и модификация XML документов с помощью lxml
Для создания XML структур в памяти используются два основных класса:
Element
- для создания корневого элемента.SubElement
- для добавления дочерних элементов.
Рассмотрим пример создания простого XML документа:
from lxml import etree root = etree.Element("root") doc = etree.SubElement(root, "doc") etree.SubElement(doc, "field1") etree.SubElement(doc, "field2").
Помимо создания элементов, можно устанавливать атрибуты:
doc.set('type', 'article')
Добавлять текстовое содержимое:
field1.text = "Some text value"
А также сериализовать XML дерево в строку или записать в файл:
print(etree.tostring(root)) etree.ElementTree(root).write('output.xml')
Таким образом, библиотека lxml предоставляет простой и понятный API для создания и модификации XML прямо в Python коде.
Библиотека lxml позволяет не просто анализировать XML, а полноценно создавать и модифицировать XML документы прямо в Python, не прибегая к обработке текстовых строк.
Это существенно повышает удобство работы с XML в приложениях на Python.
Чтение и парсинг XML в Python с помощью lxml
Помимо создания XML, библиотека lxml предоставляет удобные средства для чтения и парсинга XML документов.
Загрузка XML
XML документ можно загрузить из файла или строки следующими способами:
doc = etree.parse("file.xml") # из файла doc = etree.XML(xml_string) # из строки
В переменной doc будет храниться дерево элементов загруженного XML.
Обход элементов
Получить корневой элемент загруженного документа можно через метод getroot()
:
root = doc.getroot()
Далее можно использовать циклы для итерации по дочерним элементам:
for child in root: print(child.tag, child.text)
Также доступны и другие типичные для Python способы обхода, например, список дочерних элементов хранится в root.getchildren()
.
Поиск по XPath
Удобный способ извлекать данные из элементов - использовать язык запросов XPath:
res = doc.xpath("//field1/text()") if res: print(res[0])
В переменной res будет список найденных элементов.
Преобразование данных
lxml позволяет легко преобразовывать XML данные в структуры данных Python:
dict_data = etree.XMLID(doc) # в словари list_data = list(doc.iter()) # в списки
Это избавляет от необходимости писать сложный парсинг XML вручную.
Расширения и оптимизация производительности
Библиотека lxml является основой для множества библиотек и фреймворков по обработке данных в Python. Например:
- Scrapy.
- lxmlhtml.
- python-docx.
Также существуют различные расширения для оптимизации производительности lxml:
- lxml.objectify - для преобразования в объекты Python.
- lxml.etree C++ API - для вызова Си функций напрямую.
Производительность lxml может быть на порядки выше, чем у других XML библиотек в Python. Например, скорость парсинга 100MB XML файлов:
Copy code
lxml | 5 сек |
ElementTree | 60 сек |
Таким образом, lxml - это высокопроизводительная и гибкая библиотека для решения практически любых задач по обработке XML в Python.