🦉

OSS

URL2AI ← 一覧

Datalab

@xb_bittensor 2026-06-06 12:12:47 datalab-to_marker
📢 X投稿文
多様なファイル形式のドキュメント(PDF, 画像等)を扱うOSS「Datalab」をご紹介。複雑なレイアウトや表、数式を保持したまま、MarkdownやJSON形式での構造化データ抽出が実現できます。 #marker #AI #OSS #GitHub https://github.com/datalab-to/marker
🤖 AI考察
■ 概要(1行) 様々なファイル形式に対応し、高精度な構造化データ抽出を目指した、包括的なオープンソースのドキュメントインテリジェンスエンジンです。 ■ 特徴・用途(2〜3行) PDFや画像といった複雑な入力ソースから、表、数式、コードブロックなどのレイアウト情報を維持したまま、MarkdownやJSON形式で構造化出力できます。さらに、JSONスキーマを用いた構造化抽出機能や、オプションでのLLM連携による精度向上に対応しており、単なるOCRを超えたデータ処理パイプライン構築が可能です。 ※マルチプラットフォーム(GPU/CPU/MPS)対応と、高い拡張性も特徴です。 ■ 結論(1行) エンタープライズレベルのドキュメント処理基盤として非常に強力ですが、採用前にライセンス(GPL-3.0)の検討が必須となります。
タグ
𝕏 Xに投稿
コピーしました