31:42: 90% of Americans now live within 5 miles of a vaccination site.

44:28: The American job plan is going to create millions of good paying jobs.

47:59: No one working 40 hours a week should live below the poverty line.

48:22: American jobs finally be the biggest increase in non defense research and development.

49:21: The National Institute of Health, the NIH, should create a similar advanced research Projects agency for Health.

50:31: It would have a singular purpose to develop breakthroughs to prevent, detect and treat diseases like Alzheimer's, diabetes and cancer.

51:29: I wanted to lay out before the Congress my plan.

52:19: When this nation made twelve years of public education universal in the last century, it made us the best educated, best prepared nation in the world.

54:25: The American Family's Plan guarantees four additional years of public education for every person in America, starting as early as we can.

57:08: American Family's Plan will provide access to quality, affordable childcare.

61:58: I will not impose any tax increase on people making less than $400,000.

67:34: He said the U.S. will become an Arsenal for vaccines for other countries.

74:12: After 20 years of value, Valor and sacrifice, it's time to bring those troops home.

76:01: We have to come together to heal the soul of this nation.

80:02: Gun violence has become an epidemic in America.

84:23: If you believe we need to secure the border, pass it.

85:00: Congress needs to pass legislation this year to finally secure protection for dreamers.

87:02: If we want to restore the soul of America, we need to protect the right to vote.

此外,其他摘要模型可以將冗長的音頻、視頻或文本輸入內容分解成更簡潔的摘要。

文本摘要如何工作?

在過去的幾十年里,人們開發(fā)了一連串的文本摘要方法,因此要回答文本摘要是如何工作的,答案并不單一。 盡管如此,這些方法仍可根據(jù)其應對文本摘要挑戰(zhàn)的一般方法進行分類。

也許最明確和最有用的區(qū)分是提取式和抽象式文本摘要方法。 提取法旨在從文本中提取最相關的信息。 提取式文本摘要法是這兩種方法中較為傳統(tǒng)的一種,部分原因是與抽象式方法相比,提取式文本摘要法相對簡單。

抽象方法則試圖生成能準確概括原文的新文本。 我們已經(jīng)可以看出,這是一個更加困難的問題–不局限于簡單地返回原始文本的子集,有很大程度的自由度。 不過,這種困難也有好處。 盡管抽象方法相對復雜,但它能產生更靈活、更忠實的摘要,尤其是在大語言模型時代。

提取文本摘要方法

如上所述,提取式文本摘要方法的工作原理是識別和提取文本中的突出信息。 因此,各種提取方法構成了確定哪些信息是重要信息(因此應該提取)的不同方式。

例如,基于詞頻的方法傾向于根據(jù)不同詞語的使用頻率對文本中的句子進行重要性排序。 對于每個句子,詞匯表中的每個詞都有一個權重項,權重通常是該詞本身的重要性和該詞在整個文檔中出現(xiàn)的頻率的函數(shù)。 利用這些權重,就可以確定并返回每個句子的重要性。

基于圖形的方法是用數(shù)學圖形語言來處理文本文檔。 在這種圖式中,每個句子表示為一個節(jié)點,如果認為句子相似,則將節(jié)點連接起來。 至于什么是 “相似”,這同樣取決于不同的具體算法和方法。 例如,一種實現(xiàn)方法可能會使用 TF-IDF 向量間余弦相似度的閾值。 一般來說,文檔中與所有其他句子 “最相似 “的句子(即中心度最高的句子)被認為具有最多的摘要信息,因此會被提取并放入摘要中。 基于圖的方法的一個顯著例子是 TextRank,它是谷歌 pagerank 算法的一個版本(該算法決定在谷歌搜索中顯示哪些結果),已被調整用于摘要(而不是對最重要的句子進行排名)。 基于圖的方法未來可能會受益于圖神經(jīng)網(wǎng)絡的進步。

抽象文本摘要方法

抽象方法旨在生成一種新穎的摘要,對文本中的信息進行適當?shù)目偨Y。 雖然抽象文本摘要有語言學方法,但深度學習(將摘要視為 seq2seq 問題)在過去幾年中已證明在這方面非常強大。 因此,Transformer 的發(fā)明對抽象文本摘要領域產生了深遠的影響,正如它對許多其他領域產生的影響一樣。

最近,大語言模型尤其被應用于文本摘要問題。 對大型語言模型新興能力的觀察證明,大型語言模型是能夠勝任各種任務(包括摘要)的代理。 也就是說,雖然 LLM 沒有直接接受過總結任務的訓練,但隨著其規(guī)模的擴大,它們會成為有能力的通用生成式人工智能模型,從而具備執(zhí)行總結和許多其他任務的能力。

最近,人們探索了基于 LLM 的摘要特定方法,使用預先訓練好的 LLM 和人類反饋強化學習(RLHF),這是將 GPT 演化成 ChatGPT 的核心技術(例如這里和這里)。 該方案遵循典型的 RLHF 訓練方法,即利用人類反饋訓練獎勵模型,然后通過 PPO 更新 RL 策略。 簡而言之,RLHF 可以改進模型,使其更容易根據(jù)人類的期望(在本例中,人類對 “好 “摘要的期望)調整輸出。

文本摘要領域仍是一個持續(xù)研究的領域,根據(jù)已經(jīng)完成的工作,我們可以探索一些自然的擴展。 例如,我們可以考慮使用人工智能反饋強化學習(RLAIF)來代替 RLHF,后者在更廣泛的情況下已被證明能提高性能。

文本摘要的最佳應用程序接口

既然我們已經(jīng)討論了什么是 NLP 文本摘要及其工作原理,那么我們就來比較一下目前最好用的一些文本摘要 API、AI 摘要器和 AI 摘要模型。 請注意,其中一些 API 支持對已有的文本(如研究論文)進行文本摘要,而另一些 API 則在音頻或視頻流轉錄(如播客或虛擬會議)的基礎上執(zhí)行文本摘要。

AssemblyAI 的總結模型

AssemblyAI 是一家語音人工智能公司,致力于開發(fā)能夠理解和處理人類語音的新型人工智能系統(tǒng)。 該公司的人工智能總結模型在音頻和視頻方面取得了最先進的成果。 此外,AssemblyAI 還為特定行業(yè)用例建立了其他摘要模型,包括信息性、會話性和朗朗上口。 摘要可以項目符號、要點、段落或標題的形式返回(見上圖示例)。

LeMUR 是 AssemblyAI 的大型語言模型框架,它還可以幫助產品團隊處理定制摘要格式的請求。

此外,AssemblyAI 還提供了一種稱為 “自動章節(jié) “的摘要模型,該模型可在音頻或視頻流數(shù)據(jù)的基礎上應用文本摘要,并為每個章節(jié)提供帶有時間戳的一段摘要和單句標題。 這一過程是文本摘要在 AssemblyAI 中的獨特應用。

AssemblyAI 的人工智能模型被播客、電話、虛擬會議平臺、對話智能人工智能平臺等領域的頂級產品團隊所采用。 該公司最近還發(fā)布了Conformer-2,這是一個在110萬小時的英語音頻數(shù)據(jù)基礎上訓練出來的自動語音識別人工智能模型,它能使首先用Conformer-2處理過的轉錄生成的摘要更加準確和有用。

plnia 的文本摘要 API

plnia 文本摘要 API 可生成靜態(tài)文檔或其他已有文本的摘要。 除文本摘要外,plnia 還提供情感分析、關鍵詞提取、濫用語言檢查等功能。 希望測試 plnia 的開發(fā)人員可以注冊 10 天的免費試用;包含文本摘要的計劃起價為每月 19 美元。

Microsoft Azure 文本摘要

作為文本分析套件的一部分,Azure 的文本摘要 API 可對文章、論文或文檔進行提取摘要。 入門要求包括 Azure 訂閱和 Visual Studio IDE。 使用 API 的價格是現(xiàn)收現(xiàn)付,但價格因使用量和其他所需功能而異。

MeaningCloud 的自動總結功能

MeaningCloud 的自動摘要應用程序接口(Automatic Summarization API)可讓用戶通過提取最相關的句子并使用這些句子來構建概要,從而總結出任何文檔的含義。 API 是多語言的,因此無論文本使用哪種語言,用戶都可以使用 API。 想要測試 API 的用戶必須先注冊一個免費的開發(fā)者賬戶,然后根據(jù)使用情況,使用 API 的價格從 0-999 美元/月不等。

NLP 云摘要應用程序接口

NLP Cloud 提供多種文本理解和 NLP API,包括文本摘要,此外還支持社區(qū)人工智能模型的微調和部署,以進一步提高準確性。 開發(fā)人員還可以建立自己的自定義模型,并將其訓練和部署到生產中。 價格從 0 美元到 499 美元/月不等,視使用情況而定。

NLP文本摘要API常見問題有哪些?

  1. 什么是NLP文本摘要API?
    NLP文本摘要API是一種利用自然語言處理技術自動將長文本轉換成簡短摘要的應用程序接口。它通過分析文本內容,提取關鍵信息,生成簡潔的摘要。
  2. NLP文本摘要API適用于哪些場景?
    適用于新聞摘要、文章概覽、報告簡化、會議記錄摘要、社交媒體內容概括等多種需要文本簡化的場景。
  3. 如何接入NLP文本摘要API?
    通常需要在應用程序中集成API,通過發(fā)送HTTP請求并將文本作為輸入?yún)?shù),API會返回摘要結果。
  4. NLP文本摘要API的準確性如何?
    準確性取決于API的訓練數(shù)據(jù)、算法復雜度和自然語言處理能力。高質量的API通常能夠提供高準確度的摘要。
  5. NLP文本摘要API支持哪些語言?
    不同的API支持的語言不同,一些API支持多種語言,包括英語、中文、西班牙語等,具體需要查看API提供商的支持列表。
  6. 使用NLP文本摘要API是否有成本?
    一些基礎服務可能是免費的,但通常有使用限制,如請求次數(shù)或文本長度限制。高級服務或增加使用量可能需要付費。
  7. NLP文本摘要API如何處理敏感信息?
    處理敏感信息時應確保API提供商遵守數(shù)據(jù)保護法規(guī),并對數(shù)據(jù)進行加密處理。建議在使用前了解提供商的隱私政策。
  8. 如何評估NLP文本摘要API的性能?
    可以通過比較摘要的準確性、完整性、連貫性以及與原文的一致性來評估API的性能。
  9. NLP文本摘要API的響應時間如何?
    API的響應時間取決于文本長度、服務器負載和算法效率。高質量的API通常能夠提供快速的響應時間。
  10. 如果對NLP文本摘要API生成的摘要不滿意,可以自定義摘要邏輯嗎?
    一些API提供商可能允許用戶通過自定義配置或訓練模型來優(yōu)化摘要邏輯,但這可能需要額外的技術投入和成本。

如何找到更多文本摘要API

冪簡集成是國內領先的API集成管理平臺,專注于為開發(fā)者提供全面、高效、易用的API集成解決方案。冪簡API平臺可以通過以下兩種方式找到所需API:通過關鍵詞搜索API、或者從API Hub分類頁進入尋找。

本文翻譯源自:https://www.assemblyai.com/blog/text-summarization-nlp-5-best-apis/

上一篇:

頂級免費語音轉文字 開源軟件API語音轉錄引擎

下一篇:

6個最佳實體檢測API,可準確返回實體的名稱
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數(shù)據(jù)驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費