Получение данных таблицы из PDF

alexgl2004

Новичок
Есть файл PDF, в нем есть таблица. Как можно получить эти данные с четкой привязкой к ячейкам. Последовательность и все остальное не важно, самое главное, чтобы была четкое обозначение, что таблица содержит ячейки, в ячейках есть данные вот они, забирай.
Есть ли у кого возможные решения даже с "велосипедами", когда через api перевод в word, потом в excel, а там по ячейкам?
Есть ли коммерческие рабочие решения, кто-то может видел?

Если кто даст хотя бы направление, где можно зацепиться, и это реально поможет, я сюда выложу решение вопроса получения данных из ячеек, с привязкой к ним.

На проверенные и непроверенные варианты, сразу отвечу на сколько рабочие и сильно ли трудозатратно?

Пробовал разные классы с githib, но в основном это получение неформатированного текста, без каких либо стопов, переносов, просто получается сплошной текст.
 
Последнее редактирование:

alexgl2004

Новичок
Судя по ответу в https://stackoverflow.com/questions/50917724/parsing-a-table-from-pdf-with-php, это невозможно в принципе.
Я бы сдался вот сразу бы, если бы не одно но.... Такое делали на vba 10 лет назад и оно точно работало. Получается реально достать данные в нужном варианте.
 

Yoskaldyr

"Спамер"
Партнер клуба
@alexgl2004 тут есть нюанс. Оно могло работать на одном конкретном типе pdf (типа выгрузка из какой-то программы и т.д.)
Но вот так абстрактно выдернуть из любого абстрактного pdf абстрактную таблицу, учитывая что не всегда даже обычный текст можно выдернуть, т.к. все буквы могут быть зашиты не буквами, а векторной графикой или вообще картинкой.
 

alexgl2004

Новичок
Тут скорее всего один формат и одна программа. Даже если нет, то это всегда можно преобразовать. Тут именно получить данные разделенные верно.
и прикрепленный файл. Это то, что можно получить обычным экселем с акробатом (рис) и одним из обработчиков php (файл).

эксель справляется лучше с целостностью данных, но это эксель и с подключенным акробатом, к серверу не подрубишь, для автоматики.

Есть ли возможность хотябы получить такую же целостную картинку в php, без лишних переносов.

Текущий текстовый файл получен с помощью \Smalot\PdfParser\Parser.
 

Вложения

AnrDaemon

Продвинутый новичок
Как раз эксель подключается и автоматизируется на ура.
 

AnrDaemon

Продвинутый новичок
Ещё раз, медленно: В PDF НЕТ ТАБЛИЦ. В принципе нет. Он просто так не работает.
 

alexgl2004

Новичок
:))) Еще раз.
Таблицы в них есть только вопрос с помощью чего они строятся и можно ли это достать хотя бы так же структурировано, хотя бы последовательно.

Я вытягивал pdf в ексель через vba, разница между php и vba в том, что ексель четко гребет данные по ячейкам, без лишних переносов, а php разбивает еще данные ячейки переносом, невозможно прицепиться каким-либо правилом.

Вот где сложность задачи.
 

AnrDaemon

Продвинутый новичок
Таблицы в них есть
Качай, ищи. Найдёшь - мне покажешь, где там есть таблицы.

с помощью чего они строятся
С помощью блоков текста, расположенных в указанных местах страницы. При этом вовсе не факт, что одна "ячейка таблицы", которую ты видишь, это один блок текста.
 

alexgl2004

Новичок
т.е. это блоки текста с абсолютным позиционированием + графические линии...
Получается остается либо добыть координаты блоков, чтобы можно было выстроить табличную зависимость либо искать ключи слова-знвки в однотипных файлах и строить регулярки?
 

alexgl2004

Новичок
Вот все равно, есть какая-то ж связь и зависимость, так как когда экспортишь пдф в ексель из акробата, то там четкая таблица, без изъянов
 

AnrDaemon

Продвинутый новичок
Скорее всего, гадают по положению на странице.
 
Сверху