Получение данных таблицы из PDF

alexgl2004 · 7 Мар 2020

Есть файл PDF, в нем есть таблица. Как можно получить эти данные с четкой привязкой к ячейкам. Последовательность и все остальное не важно, самое главное, чтобы была четкое обозначение, что таблица содержит ячейки, в ячейках есть данные вот они, забирай.
Есть ли у кого возможные решения даже с "велосипедами", когда через api перевод в word, потом в excel, а там по ячейкам?
Есть ли коммерческие рабочие решения, кто-то может видел?

Если кто даст хотя бы направление, где можно зацепиться, и это реально поможет, я сюда выложу решение вопроса получения данных из ячеек, с привязкой к ним.

На проверенные и непроверенные варианты, сразу отвечу на сколько рабочие и сильно ли трудозатратно?

Пробовал разные классы с githib, но в основном это получение неформатированного текста, без каких либо стопов, переносов, просто получается сплошной текст.

AnrDaemon · 7 Мар 2020

Судя по ответу в https://stackoverflow.com/questions/50917724/parsing-a-table-from-pdf-with-php, это невозможно в принципе.

alexgl2004 · 7 Мар 2020

AnrDaemon написал(а):
Судя по ответу в https://stackoverflow.com/questions/50917724/parsing-a-table-from-pdf-with-php, это невозможно в принципе.

Я бы сдался вот сразу бы, если бы не одно но.... Такое делали на vba 10 лет назад и оно точно работало. Получается реально достать данные в нужном варианте.

Yoskaldyr · 8 Мар 2020

@alexgl2004 тут есть нюанс. Оно могло работать на одном конкретном типе pdf (типа выгрузка из какой-то программы и т.д.)
Но вот так абстрактно выдернуть из любого абстрактного pdf абстрактную таблицу, учитывая что не всегда даже обычный текст можно выдернуть, т.к. все буквы могут быть зашиты не буквами, а векторной графикой или вообще картинкой.

alexgl2004 · 8 Мар 2020

Тут скорее всего один формат и одна программа. Даже если нет, то это всегда можно преобразовать. Тут именно получить данные разделенные верно.

http://5gl.ru/temp_images_out/Image_001_2020_03_08__01_01_34.jpg

и прикрепленный файл. Это то, что можно получить обычным экселем с акробатом (рис) и одним из обработчиков php (файл).

эксель справляется лучше с целостностью данных, но это эксель и с подключенным акробатом, к серверу не подрубишь, для автоматики.

Есть ли возможность хотябы получить такую же целостную картинку в php, без лишних переносов.

Текущий текстовый файл получен с помощью \Smalot\PdfParser\Parser.

AnrDaemon · 8 Мар 2020

Как раз эксель подключается и автоматизируется на ура.

alexgl2004 · 8 Мар 2020

AnrDaemon написал(а):
Как раз эксель подключается и автоматизируется на ура.

Т.е. с помощью php можно преобразовать пдф в ексель, а потом открыть этот файл без костылей?

AnrDaemon · 8 Мар 2020

Ещё раз, медленно: В PDF НЕТ ТАБЛИЦ. В принципе нет. Он просто так не работает.

alexgl2004 · 8 Мар 2020

)) Еще раз.
Таблицы в них есть только вопрос с помощью чего они строятся и можно ли это достать хотя бы так же структурировано, хотя бы последовательно.

Я вытягивал pdf в ексель через vba, разница между php и vba в том, что ексель четко гребет данные по ячейкам, без лишних переносов, а php разбивает еще данные ячейки переносом, невозможно прицепиться каким-либо правилом.

Вот где сложность задачи.

AnrDaemon · 8 Мар 2020

alexgl2004 написал(а):
Таблицы в них есть

https://www.adobe.com/content/dam/acom/en/devnet/pdf/pdfs/PDF32000_2008.pdf

Качай, ищи. Найдёшь - мне покажешь, где там есть таблицы.

alexgl2004 написал(а):
с помощью чего они строятся

С помощью блоков текста, расположенных в указанных местах страницы. При этом вовсе не факт, что одна "ячейка таблицы", которую ты видишь, это один блок текста.

alexgl2004 · 8 Мар 2020

т.е. это блоки текста с абсолютным позиционированием + графические линии...
Получается остается либо добыть координаты блоков, чтобы можно было выстроить табличную зависимость либо искать ключи слова-знвки в однотипных файлах и строить регулярки?

alexgl2004 · 8 Мар 2020

Вот все равно, есть какая-то ж связь и зависимость, так как когда экспортишь пдф в ексель из акробата, то там четкая таблица, без изъянов

AnrDaemon · 8 Мар 2020

Скорее всего, гадают по положению на странице.

Получение данных таблицы из PDF

alexgl2004

Новичок

AnrDaemon

Продвинутый новичок

alexgl2004

Новичок

Yoskaldyr

"Спамер"

alexgl2004

Новичок

Вложения

AnrDaemon

Продвинутый новичок

alexgl2004

Новичок

AnrDaemon

Продвинутый новичок

alexgl2004

Новичок

AnrDaemon

Продвинутый новичок

alexgl2004

Новичок

alexgl2004

Новичок

AnrDaemon

Продвинутый новичок